xai

Grok-4

Grok-4 fra xAI er en frontier model med et 2M token context window, realtidsintegration med X-platformen og reasoning-kapaciteter i verdensklasse.

xai logoxaiGrok9. juli 2025
Kontekst
2.0Mtokens
Maks output
8Ktokens
Input-pris
$3.00/ 1M
Output-pris
$15.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
87.5%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Grok-4 scorede 87.5% på denne benchmark.
HLE
44.4%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Grok-4 scorede 44.4% på denne benchmark.
MMLU
94%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Grok-4 scorede 94% på denne benchmark.
MMLU Pro
81.2%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Grok-4 scorede 81.2% på denne benchmark.
SimpleQA
48%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Grok-4 scorede 48% på denne benchmark.
IFEval
89.2%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Grok-4 scorede 89.2% på denne benchmark.
AIME 2025
100%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Grok-4 scorede 100% på denne benchmark.
MATH
92%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Grok-4 scorede 92% på denne benchmark.
GSM8k
98.4%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Grok-4 scorede 98.4% på denne benchmark.
MGSM
92.1%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Grok-4 scorede 92.1% på denne benchmark.
MathVista
72.4%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Grok-4 scorede 72.4% på denne benchmark.
SWE-Bench
81%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Grok-4 scorede 81% på denne benchmark.
HumanEval
88%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Grok-4 scorede 88% på denne benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Grok-4 scorede 79.4% på denne benchmark.
MMMU
75%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Grok-4 scorede 75% på denne benchmark.
MMMU Pro
59.2%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Grok-4 scorede 59.2% på denne benchmark.
ChartQA
90.5%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Grok-4 scorede 90.5% på denne benchmark.
DocVQA
93.2%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Grok-4 scorede 93.2% på denne benchmark.
Terminal-Bench
54.2%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Grok-4 scorede 54.2% på denne benchmark.
ARC-AGI
15.9%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Grok-4 scorede 15.9% på denne benchmark.

Om Grok-4

Lær om Grok-4s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Oversigt

Grok-4 er den nyeste frontier model fra xAI, designet til at være en sandhedssøgende assistent med realtidsadgang til X-platformen. Bygget på Colossus-supercomputeren med over 200.000 GPUer, repræsenterer den et massivt spring i reasoning, matematiske problemløsninger og kodningsevner. Den har en forenet dual-mode arkitektur, der giver brugere mulighed for at skifte mellem en deep-thinking reasoning mode til komplekse opgaver og en højhastigheds-mode til umiddelbare svar.

Tekniske innovationer

Dette generationsspring i beregningskraft har muliggjort performance på ph.d.-niveau på tværs af alle akademiske discipliner samtidigt. Modellen er unikt kendetegnet ved sin anti-woke-strategi, der prioriterer objektiv information over standardmæssige sikkerhedsbarrierer. Dens massive 2 millioner tokens store context window og integration i Musk-økosystemet, herunder X og Tesla-køretøjer, giver en klar konkurrencemæssig fordel. Selvom den udmærker sig i STEM og teknisk reasoning, forbliver den yderst effektiv til hverdagens kreative opgaver og realtids-nyhedsanalyse.

Performance-filosofi

Grok-4 prioriterer first-principles-tænkning og objektiv datasyntese. Ved at benytte Quasarflux reasoning-motoren kan den navigere i komplekse logiske kæder i flere trin, som typisk afsporer traditionelle LLMs. Dette gør den til et uundværligt værktøj for udviklere og forskere, der kræver high-fidelity outputs i kritiske miljøer, hvor faktuel nøjagtighed ikke er til forhandling.

Grok-4

Anvendelser for Grok-4

Opdag de forskellige måder, du kan bruge Grok-4 til at opnå gode resultater.

STEM-forskning på kandidatniveau

Udnyttelse af Thinking-mode til at løse fysikproblemer på ph.d.-niveau og verificere komplekse matematiske beviser.

Debugging af massive repositories

Udnyttelse af 2M context window til at indlæse hele kodebaser og identificere subtile race conditions.

Finansiel intelligens i realtid

Overvågning af X Firehose for at analysere markedsstemning og seneste nyheder til trading-indsigt.

Autonome agent-workflows

Understøttelse af komplekse agentic opgaver gennem robust function calling til logistik og automatisering.

Multimodal juridisk analyse

Gennemgang af tusindvis af sider med sagsdokumenter sideløbende med analyse af scannede bevismateriale-fotos.

Avanceret akademisk vejledning

Personlig vejledning baseret på fundamentale principper i STEM-fag, tilpasset elevens fremskridt.

Styrker

Begrænsninger

Uovertruffen matematik og logik: Opnåede en verdensrekordscore på 100 % i AIME 2025, hvilket gør den til det førende valg til tekniske opgaver.
Ustabil basal logik: Selvom den klarer eksamener på kandidatniveau til topkarakter, kan en model lejlighedsvis fejle i trivielle opgaver som at tælle bogstaver i et ord.
Markedsledende context: Det 2 millioner tokens store vindue gør det muligt at analysere omkring 1.500 sider tekst i en enkelt prompt.
Høj adgangsbarriere: Adgang til den fulde Grok-4 Heavy-model og reasoning-kapaciteter kræver et premium-abonnement.
Live-datastrøm: Eksklusiv adgang til X-platformens realtids-datastrøm sikrer, at svar er opdaterede på globale begivenheder.
Mangler i kreative nuancer: Den halter efter Claude 4.5 i kreativ historiefortælling og antager ofte en mere utilitaristisk eller provokerende tone.
Emotionel intelligens: Høj performance på EQ-Bench3 indikerer en overlegen evne til at forstå nuancerede menneskelige følelser.
Inkonsistent billedgenerering: Interne værktøjer har svært ved at opretholde visuel konsistens på tværs af flere billedfelter.

API hurtig start

xai/grok-4

Se dokumentation
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Grok-4

Se hvad fællesskabet mener om Grok-4

"Grok 4 sætter officielt konkurrenterne på plads... og beviser, at xAI har bygget en model, der tænker som et rovdyr."
Mario Nawfal
x/twitter
"Grok 4 er et benchmark-nedlæggende geni på ph.d.-niveau, som indimellem ikke kan tælle. Dualiteten er vild."
Beginning-Willow-801
reddit
"Springet til 2 millioner tokens er ikke bare et reklamestunt; det ændrer fundamentalt debugging af repositories."
AI Tech Reviews
youtube
"Grok 4 er helt klart den bedste model i forhold til generel forståelse, langt foran GPT-5."
YMist_
reddit
"Brugen vil stige eksplosivt med Grok 4.20. Den udkommer om 3 eller 4 uger."
Elon Musk
x/twitter
"Realtids-integrationen med X er det eneste, der holder min forskning relevant i denne nyhedsstrøm."
DataScientist_Alpha
hackernews

Videoer om Grok-4

Se vejledninger, anmeldelser og diskussioner om Grok-4

Antallet af ord i dette svar er nøjagtigt 43... Super imponerende.

Ikke nok med at den kunne løse Tower of Hanoi i sin chain-of-thought, den beviste det faktisk og visualiserede det med kode.

Jeg elsker dette svar. Direkte til sagen. Ingen omsvøb overhovedet.

Reasoning-kapaciteterne her er tydeligvis et niveau over, hvad vi så i den forrige generation.

Det er endelig en model, der ikke føles som om, den holder sandheden tilbage for at være høflig.

Den eksperimentelle thinking-knap til Grok blev for nylig fjernet... hvilket fører til en beskrivelse som potentielt forældet.

Grok OS var det mindst imponerende med en simpel hvid baggrund og defekte ikoner.

Når det gælder rå vidensindsamling, rammer Grok-4 konsekvent plet, hvor GPT-5 fejler.

Latency i reasoning-mode er højere, men kvaliteten af outputtet retfærdiggør ventetiden.

Hvis du er i Musks økosystem, er integrationen her en massiv produktivitetsforstærker.

Ingen vil have en superhurtig model, hvis den ikke kan løse logikken. Det kan jeg fortælle jer gratis, gutter.

Jeg ville give dette minus én ud af 10... Fuldstændig affald. Kan ikke endgang bygge en simpel Next.js-hjemmeside.

Hastigheden er der, men hvis logikken er i stykker, hvad er pointen så med tokens pr. sekund?

Det føles som om, de skyndte sig med coder-varianten bare for at nå udgivelsescyklussen.

Hold dig til standard reasoning-modellen, hvis du rent faktisk vil have noget, der virker.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange
Se demovideo

Pro-tips til Grok-4

Eksperttips til at hjælpe dig med at få mest muligt ud af Grok-4 og opnå bedre resultater.

Mode-skift

Brug Quasarflux-mode til kompleks logik og Tensor-mode for hastighed for at optimere omkostninger og performance.

Realtids-forespørgsler

Brug eksplicitte prompts til populære emner på X for at udnytte live-datastrømmen og omgå trænings-cutoffs.

STEM-fokus

Prioritér Grok til matematik på kandidatniveau, hvor den præsterer betydeligt bedre end konkurrenterne på zero-shot-opgaver.

Verificér basal logik

Dobbelttjek simpel optælling eller sortering af lister, da en model kan være inkonsistent ved trivielle opgaver.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

Ofte stillede spørgsmål om Grok-4

Find svar på almindelige spørgsmål om Grok-4