xAIs Grok 3 er bedre enn forventet. Slik prøver du det gratis (før du abonnerer)
xAIs nye modell stiger til toppen av Chatbot Arena-topplister og benchmark-resultater.
Elon Musk var investor i OpenAI da den ble grunnlagt i 2015. Siden den gang har han fullstendig kuttet båndene til oppstarten, og hevdet at selskapet har gått bort fra sitt opprinnelige ideelle oppdrag. Han opprettet sitt eget AI-selskap, xAI, og med det en stor språkmodell (LLM) kalt Grok. Nå har selskapet lansert en ny modell, Grok 3, som stiger til toppen av chatbot-topplistene.
Grok 3
Mandag lanserte Elon Musk xAIs nyeste familie av AI-modeller, Grok 3, via en direktesending. Grok 3 kan skryte av 10 ganger mer trening enn Grok 2, muliggjort av xAIs opprettelse av sitt eget Memphis, Tenn.-baserte datasenter, hjem til 200 000 GPUer.
"Vi er glade for å presentere Grok 3, som vi tror er en størrelsesorden mer kapabel enn Grok 2," sa Musk under livestreamen.
Modellfamilien inkluderer også en resonneringsmodell, som bygger på Grok 3. Som andre resonneringsmodeller på markedet, inkludert OpenAIs o1- og o3-modeller, tenker Grok 3 Reasoning beta litt lenger for å gi resultater av høyere kvalitet.
Alle Grok 3-modeller er ment å konkurrere med ledende modeller. Grok 3 konkurrerer med OpenAIs GPT-4o og Googles Gemini, og Grok 3 Reasoning konkurrerer med 03-mini (høy), o1 og Deepseek-R1. Med mindre enn 24 timer på markedet, dominerer xAIs tilbud benchmarks og topplister.
Prestasjon
Modellens forhåndstrening ble avsluttet i begynnelsen av januar, og selv om den fortsatt er under trening, har Grok 3 overgått ledende modeller på AI-benchmarks, inkludert AIME '24, som tester for matematisk resonnement; GPQA, som tester ferdigheter i naturfag, spesielt biologi, fysikk og kjemi; og LCB okt-feb, som tester for kodemuligheter.
Grok 3-resonnementmodellen og Grok 3 mini-resonnementmodellen er fortsatt under utvikling, men ifølge resultater delt av xAI under direktesendingen, presterte betaene til begge modellene konkurransedyktig mot o3-mini (høy), o1, DeepSeek-R1 og Gemini-2 Flash Thinking på tvers av AIME, GPQA og LCB.
Utover tekniske benchmarks, klatret Grok 3 på listene på Chatbot Arena, en crowdsourced plattform der brukere kan evaluere LLM-er ved å chatte med to LLM-er side om side og sammenligne svarene deres med hverandre uten å vite modellenes navn.
Før den offisielle lanseringen av Grok 3 kjørte en tidlig versjon av modellen i Arena under tittelen "sjokolade", og den plasserte seg først over Gemini, GPT-4o, DeepSeek r1 og mer på tvers av alle kategorier. Det ble også den første modellen som brøt en 1400-poengsum i arenaen.
Dypt søk
For å møte etterspørselen etter agentiske evner lanserte xAI også DeepSearch, som ligner på OpenAIs og Googles dype forskningsfunksjoner. Med DeepSearch kan brukere stille et spørsmål, og Grok vil tenke gjennom det, søke på nettet, skrive ut tankeprosessen mens den går, og deretter generere et endelig, robust svar med data og tabeller etter behov. Dette betyr at du kan be den om å undersøke et emne, komme tilbake 10 minutter senere, og oppgaven vil være fullført.
En av de største utmerkelsene er å kunne bla gjennom Groks tanker - "lese gjennom hodet til Grok" - og forstå hvordan det landet på sitt endelige svar. Dette gjør opplevelsen mer styrbar og hjelper deg med å forstå resultatene dine bedre.
Slik får du tilgang
Fra og med i dag kan du få tilgang til noen av Grok-modellene i beta. Grok 3 er tilgjengelig på X Premium+, som også gir brukere tilgang til de nyeste funksjonene, en økt bruksgrense, DeepSearch-tilgang og avanserte resonneringsmoduser ved å klikke på alternativene "Tenk" eller "Big Brain".
X Premium+-abonnementet koster $40 per måned, opp fra $22 før kunngjøringen ble gjort, som oppdaget av TechCrunch, og abonnenter bør oppdatere appen for å se oppdateringene.
xAI avduket også et nytt abonnementsnivå, SuperGrok, beslektet med ChatGPT Pro, ment for superfans som ønsker den tidligste tilgangen til de mest avanserte funksjonene. Denne planens pris er ennå ikke delt, men du kan forvente at det er en heftig krone, ettersom OpenAIs Pro-abonnement koster $200 per måned.
For den mest polerte versjonen oppfordrer Musk brukere til å vente en uke. Da vil en ny stemmeintegrasjon sannsynligvis være klar til å distribueres.
Hvis du heller vil delta i Chatbot Arena for å prøve Grok 3, kan du gå til nettstedet, klikke på Arena side ved side, velge «early-grok-3» fra rullegardinmenyen og skrive inn et eksempel. Selv om arenaen fortsatt har en tidlig versjon av Grok 3, er det fortsatt en kraftig modell; Tross alt nådde den toppen av ledertavlen sammenlignet med de andre modellene, som er i sine nyeste versjoner.