xai

Grok-3

Grok-3 er xAI’s flagship reasoning model med dyb logisk deduktion, et 128k context window og realtidsintegration med X til live research og kodning.

xai logoxaiGrok17. februar 2025
Kontekst
128Ktokens
Maks output
8Ktokens
Input-pris
$3.00/ 1M
Output-pris
$15.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
84.6%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Grok-3 scorede 84.6% på denne benchmark.
HLE
36%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Grok-3 scorede 36% på denne benchmark.
MMLU
87.5%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Grok-3 scorede 87.5% på denne benchmark.
MMLU Pro
76.5%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Grok-3 scorede 76.5% på denne benchmark.
SimpleQA
42%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Grok-3 scorede 42% på denne benchmark.
IFEval
91.2%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Grok-3 scorede 91.2% på denne benchmark.
AIME 2025
93.3%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Grok-3 scorede 93.3% på denne benchmark.
MATH
94.4%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Grok-3 scorede 94.4% på denne benchmark.
GSM8k
98.7%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Grok-3 scorede 98.7% på denne benchmark.
MGSM
92.4%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Grok-3 scorede 92.4% på denne benchmark.
MathVista
71.3%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Grok-3 scorede 71.3% på denne benchmark.
SWE-Bench
49%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Grok-3 scorede 49% på denne benchmark.
HumanEval
94.5%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Grok-3 scorede 94.5% på denne benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Grok-3 scorede 79.4% på denne benchmark.
MMMU
78%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Grok-3 scorede 78% på denne benchmark.
MMMU Pro
58.5%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Grok-3 scorede 58.5% på denne benchmark.
ChartQA
89.2%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Grok-3 scorede 89.2% på denne benchmark.
DocVQA
92.4%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Grok-3 scorede 92.4% på denne benchmark.
Terminal-Bench
52%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Grok-3 scorede 52% på denne benchmark.
ARC-AGI
12.5%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Grok-3 scorede 12.5% på denne benchmark.

Om Grok-3

Lær om Grok-3s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Frontier Reasoning og Intelligens

Grok-3 repræsenterer et monumentalt spring inden for kunstig intelligens, trænet på xAIs Colossus supercomputing cluster med over 100.000 NVIDIA H100 GPUs. Den er specifikt arkitekteret til at excellere i kompleks logik, matematisk deduktion og softwareudvikling med høj indsats. I modsætning til traditionelle modeller, der prioriterer hurtig generering af svar, har Grok-3 en specialiseret Deep Thinking mode, der udnytter massiv test-time compute til at verificere sine egne interne reasoning-trin, før den leverer et endeligt output.

Integration af realtidsviden

En kerne-differentiator for Grok-3 er dens uovertrufne adgang til X-platformens realtids-datastrøm. Dette gør det muligt for modellen at syntetisere breaking news, finansielle skift og globale tendenser med en latency på få sekunder, hvor andre modeller er afhængige af viden-cutoffs eller langsommere web-søgningsværktøjer. Denne realtidsbevidsthed, parret med et 128.000-token context window, gør den til et uundværligt værktøj for markedsanalytikere og data scientists, der har brug for opdateret indsigt.

Multimodale og agentic kapabiliteter

Udover tekst og logik er Grok-3 en kraftfuld multimodal visionsmodel, der er i stand til at fortolke komplekse tekniske diagrammer, plantegninger og visuelle data med frontier-level præcision. Den understøtter avanceret function calling og brug af værktøjer, hvilket gør det muligt for den at fungere som den kognitive motor for autonome agenter. Med en score på 94,5 % i HumanEval står den i øjeblikket som en af de mest kapable kodningsassistenter på markedet, og den matcher eller overgår konkurrenter inden for autonom debugging og arkitektonisk refaktorering.

Grok-3

Anvendelser for Grok-3

Opdag de forskellige måder, du kan bruge Grok-3 til at opnå gode resultater.

Avanceret softwareudvikling

Løsning af komplekse arkitektoniske problemer og refaktorering af hele kodebaser med dyb reasoning og 94,5 % HumanEval-nøjagtighed.

Realtids-markedsinformation

Udnyttelse af live X-data til at syntetisere finansielle nyheder og forbrugerstemninger hurtigere end traditionelle søgemaskiner.

Videnskabelig datasyntese

Behandling af tusindvis af sider fra akademiske tidsskrifter i Deep Research-tilstand for at identificere nye forskningsforbindelser og hypoteser.

Multimodal dokumentanalyse

Tolkning af komplekse tekniske diagrammer, plantegninger og finansielle oversigter ved hjælp af frontier model-vision-kapabiliteter.

Vejledning på konkurrenceniveau

Nedbrydning af komplekse matematik- og fysikopgaver på Olympiadeniveau til letforståelige, verificerede trin ved hjælp af Think-tilstand.

Agentic workflow-automatisering

Fungerer som kerne-motor for autonome agenter, der kræver præcis function calling og brug af værktøjer i produktionsmiljøer.

Styrker

Begrænsninger

Overlegen reasoning: Udkonkurrerer førende konkurrenter på komplekse matematik-benchmarks som AIME 2025 (93,3 %) og MATH (94,4 %).
Høj latency i Thinking-tilstand: Komplekse reasoning-prompts kan tage over 60 sekunder om at generere et verificeret svar i Think-tilstand.
Integreret Deep Research: Indeholder en unik web-søgningsfunktion, der syntetiserer live X-data betydeligt hurtigere end rivaler.
Ingen indbygget video eller lyd: Mangler realtids-multimodal lyd- og videobehandling, som findes hos konkurrenter som Gemini 2.0.
Elite kodningspræstation: Scorer 94,5 % i HumanEval, hvilket gør den til et førsteklasses valg til autonom softwareudvikling og debugging.
Strenge forbrugskvoter: Beskedgrænser for Premium+-abonnenter er i øjeblikket lavere end hos visse etablerede konkurrenter i spidsbelastningsperioder.
Gennemsigtige thinking traces: Giver brugere mulighed for at se modellens logik trin for trin, hvilket øger tilliden og gør komplekse fejl lettere at debugge.
Beta-stabilitetsproblemer: Brugere kan lejlighedsvis opleve serverfejl eller afkortede thinking traces i perioder med høj trafik.

API hurtig start

xai/grok-3

Se dokumentation
xai SDK
import OpenAI from "openai";

const xai = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1"
});

const response = await xai.chat.completions.create({
  model: "grok-3",
  messages: [{ role: "user", content: "Analyze current X trends for AGI." }],
  stream: true
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Grok-3

Se hvad fællesskabet mener om Grok-3

"Grok-3's deep research er betydeligt hurtigere og mere præcis end OpenAI's version"
TechEnthusiast
x
"Kodningspræstationen er fuldstændig vanvittig; den fiksede en bug, jeg havde været låst fast på i timevis, på få sekunder"
DevLife
reddit
"Grok-3 er uden tvivl den mest avancerede reasoning model tilgængelig i dag"
DataCamp
youtube
"Thinking traces ligner meget DeepSeek, men hastigheden er på et helt andet niveau"
AIResearcher
hackernews
"Visions-kapabiliteterne på tekniske plantegninger er endelig anvendelige til rigtigt ingeniørarbejde"
EngDesign
reddit
"X-integration giver den en kæmpe fordel for alle, der følger realtids-sentiment for krypto eller aktier"
FinancePro
x

Videoer om Grok-3

Se vejledninger, anmeldelser og diskussioner om Grok-3

Grok 3 er uden tvivl den mest avancerede reasoning model tilgængelig i dag

Den havde en langt bedre outputkvalitet end OpenAI deep search-funktionen

Hastigheden i deep research-tilstanden er ret imponerende sammenlignet med O1

Man kan se modellen virkelig tygge sig igennem flere søgeresultater samtidigt

Dette er et betydeligt spring fra Grok-2 i forhold til logisk konsistens

Grok 3 og Grok 3 mini er bedre end alle publicerede reasoning modeller

Logikken hælder mod det geniale... dette er den mest menneskelignende reasoning, jeg nogensinde har set

Det interne thinking trace giver et meget tydeligere overblik over logikken

Den gætter ikke bare; den tjekker sit arbejde, hvilket er kendetegnet for System 2-tænkning

Matematik-præstationen på AIME-benchmarks er virkelig state-of-the-art

På de benchmarks kan man se, at Grok 3 faktisk klarer sig rigtig godt over hele linjen

Sammenlignet med andre konkurrenter er det ret lovende

Kodningspræstationen er den virkelige historie her; den konkurrerer med de bedste i branchen

Den håndterer arkitektoniske refaktoreringsopgaver, som tidligere versioner fejlede i

Integrationen med X API gør den unikt kraftfuld til aktuelle begivenheder

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange
Se demovideo

Pro-tips til Grok-3

Eksperttips til at hjælpe dig med at få mest muligt ud af Grok-3 og opnå bedre resultater.

Slå Deep Thinking til

Aktiver altid Think-tilstand til matematik- eller logikopgaver for at sikre trin-for-trin verificering gennem test-time compute.

Udnyt X-integration

Brug specifikke forespørgsler om breaking news eller aktuelle begivenheder for at få data, som andre LLMs ikke har adgang til på grund af deres viden-cutoff.

Undersøg thinking traces

Gennemgå de interne thinking traces for at se præcis, hvor modellen bruger sin compute, og verificer dens logiske sti.

Vision for UI

Upload screenshots af UI-designs og bed Grok om at generere tilsvarende React- eller Tailwind-kode til hurtig front-end prototyping.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Ofte stillede spørgsmål om Grok-3

Find svar på almindelige spørgsmål om Grok-3