xai

Grok-4

Grok-4 från xAI är en frontier model med 2M tokens context window, realtidsintegration med X och världsrekord inom resonemangsförmåga.

xai logoxaiGrok9 juli 2025
Kontext
2.0Mtokens
Max utdata
8Ktokens
Inmatningspris
$3.00/ 1M
Utdatapris
$15.00/ 1M
Modalitet:TextImage
Kapaciteter:VisionVerktygStreamingResonemang
Benchmarks
GPQA
87.5%
GPQA: Vetenskapliga fragor pa forskarutbildningsniva. Ett rigorost benchmark med 448 fragor fran biologi, fysik och kemi. PhD-experter uppnar endast 65-74% noggrannhet. Grok-4 fick 87.5% pa detta benchmark.
HLE
44.4%
HLE: Expertniva resonemang. Testar modellens formaga att demonstrera expertniva resonemang inom specialiserade omraden. Grok-4 fick 44.4% pa detta benchmark.
MMLU
94%
MMLU: Massiv multitask sprakforstaelse. Ett omfattande benchmark med 16 000 fragor over 57 akademiska amnen. Grok-4 fick 94% pa detta benchmark.
MMLU Pro
81.2%
MMLU Pro: MMLU Professionell utgava. En forbattrad version av MMLU med 12 032 fragor och ett svarare 10-alternativsformat. Grok-4 fick 81.2% pa detta benchmark.
SimpleQA
48%
SimpleQA: Benchmark for faktisk noggrannhet. Testar modellens formaga att ge korrekta, faktabaserade svar. Grok-4 fick 48% pa detta benchmark.
IFEval
89.2%
IFEval: Utvardering av instruktionsfoljandeformaga. Mater hur val en modell foljer specifika instruktioner och begransningar. Grok-4 fick 89.2% pa detta benchmark.
AIME 2025
100%
AIME 2025: American Invitational Mathematics Examination. Matematikproblem pa tavlingsniva fran det prestigefyllda AIME-provet. Grok-4 fick 100% pa detta benchmark.
MATH
92%
MATH: Matematisk problemlosning. Ett omfattande matematik-benchmark som testar problemlosning i algebra, geometri, kalkyl. Grok-4 fick 92% pa detta benchmark.
GSM8k
98.4%
GSM8k: Grundskola matematik 8K. 8 500 matematiska ordproblem pa grundskoleniva. Grok-4 fick 98.4% pa detta benchmark.
MGSM
92.1%
MGSM: Flersprakig grundskola matematik. GSM8k-benchmarket oversatt till 10 sprak. Grok-4 fick 92.1% pa detta benchmark.
MathVista
72.4%
MathVista: Matematiskt visuellt resonemang. Testar formagan att losa matematikproblem med visuella element. Grok-4 fick 72.4% pa detta benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark for mjukvaruutveckling. AI-modeller forsoker losa verkliga GitHub-problem i Python-projekt. Grok-4 fick 81% pa detta benchmark.
HumanEval
88%
HumanEval: Python-programmeringsproblem. 164 programmeringsproblem dar modeller maste generera korrekta Python-funktionsimplementationer. Grok-4 fick 88% pa detta benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Live-kodningsbenchmark. Testar kodningsformaga pa kontinuerligt uppdaterade, verkliga programmeringsutmaningar. Grok-4 fick 79.4% pa detta benchmark.
MMMU
75%
MMMU: Multimodal forstaelse. Multimodalt forstaelsebenchmark fran 30 universitetsanknutna amnen. Grok-4 fick 75% pa detta benchmark.
MMMU Pro
59.2%
MMMU Pro: MMMU Professionell utgava. Forbattrad version av MMMU med mer utmanande fragor. Grok-4 fick 59.2% pa detta benchmark.
ChartQA
90.5%
ChartQA: Diagram fragor och svar. Testar formagan att forsta och analysera information fran diagram och grafer. Grok-4 fick 90.5% pa detta benchmark.
DocVQA
93.2%
DocVQA: Visuella dokumentfragor. Testar formagan att extrahera information fran dokumentbilder. Grok-4 fick 93.2% pa detta benchmark.
Terminal-Bench
54.2%
Terminal-Bench: Terminal/CLI-uppgifter. Testar formagan att utfora kommandoradsoperationer. Grok-4 fick 54.2% pa detta benchmark.
ARC-AGI
15.9%
ARC-AGI: Abstraktion och resonemang. Testar flytande intelligens genom nya monsterigenkannigspussel. Grok-4 fick 15.9% pa detta benchmark.

Om Grok-4

Lar dig om Grok-4s kapacitet, funktioner och hur det kan hjalpa dig uppna battre resultat.

Modellöversikt

Grok-4 är den senaste multimodala modellen från xAI. Den är byggd för att prioritera resonemang baserat på grundprinciper och realtidsinformation. Modellen får en betydande konkurrensfördel genom sin inbyggda integration med X-plattformen. Detta gör att den kan analysera globala konversationer och nyheter i takt med att de sker. Den använder Colossus-superdatorn för träning, vilket ger prestanda i toppklass inom både matematiska och tekniska domäner.

Tekniska förmågor

Arkitekturen stöder ett 2 miljoner tokens context window i sina resonemangsvarianter. Denna kapacitet möjliggör bearbetning av enorma kodbaser och tät teknisk dokumentation utan dataförlust. Den har ett system med dubbla lägen där användare väljer mellan ett högvarvigt läge för snabba interaktioner och ett djuptänkande läge för logiska steg-för-steg-uppgifter. Modellen hanterar en hallucineringsgrad på cirka 4 % genom att använda en konsensusmekanism med flera agenter i sin Heavy-konfiguration.

Ekosystemintegration

Utöver enkel textgenerering är Grok-4 designad för inbyggd användning av verktyg och komplex function calling. Den stöder bild- och ljudbearbetning, vilket gör den till ett mångsidigt val för utvecklare som bygger multimodala applikationer. Dess säkerhetsfilosofi fokuserar på objektiv sökning efter sanning snarare än branschens standardiserade skyddsåtgärder. Detta leder till färre nekanden för kontroversiella eller utmanande ämnen jämfört med andra frontier models.

Grok-4

Anvandningsfall for Grok-4

Upptack de olika satten du kan anvanda Grok-4 for att uppna fantastiska resultat.

Sentimentanalys i realtid

Analyserar live-inlägg på X för att fastställa allmänhetens reaktion på nyheter eller produktlanseringar.

Revision av storskaliga kodbaser

Utvärderar hela mjukvarurepositorier med hjälp av ett context window på 2M tokens för att hitta arkitektoniska brister.

Matematisk problemlösning på olympiadnivå

Tillhandahåller steg-för-steg-lösningar för komplexa matematiska bevis och problem på AIME-nivå.

Ofiltrerat kreativt innehåll

Genererar karaktärsdrivna manus och humor utan de restriktiva filter som andra AI-leverantörer har.

Syntes av vetenskaplig forskning

Sammanfattar flera akademiska artiklar på forskarnivå samtidigt, med bibehållen teknisk precision.

Teknisk felsökning

Identifierar obskyra buggar i produktionskod och föreslår korrigeringar baserat på aktuella best practices.

Styrkor

Begransningar

Elitnivå inom matematisk resonemang: Uppnådde 100 % på benchmark-testet AIME 2025 och överträffar de flesta frontier model-alternativ inom logik.
Latens i Heavy Mode: Resonemangsläget med flera agenter kan ta flera minuter att generera ett svar med hög noggrannhet.
Marknadsledande context window: Ett context window på 2M tokens möjliggör ett oöverträffat djup vid dokumentanalys och storskaliga kodprojekt.
Ofullständigt stöd för video: Även om text- och bildhantering är i toppklass, finns ännu inte inbyggd videobearbetning bild-för-bild.
Social intelligens i realtid: Direkt tillgång till X-plattformen ger information i realtid som statiska träningsdata inte kan återskapa.
Begränsad regional åtkomst: Funktioner för persistent minne är för närvarande inaktiverade inom EU på grund av regulatoriska krav.
Låg refusningsfrekvens: En mer tillåtande säkerhetsarkitektur möjliggör ärlig och objektiv dialog om kontroversiella ämnen.
Begränsad precision i bildtolkning: Skaparna medger att modellen fortfarande är delvis begränsad när det kommer till att tolka extremt detaljerad visuell information.

API snabbstart

xai/grok-4

Visa dokumentation
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Search X for the latest news on SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

Installera SDK och borja gora API-anrop pa nagra minuter.

Vad folk sager om Grok-4

Se vad communityt tycker om Grok-4

Grok 4 fast har ett 2M token window!!! Varför vi har kämpat och nöjt oss med ChatGPT vet jag verkligen inte längre.
myfuturewifee
reddit
15,88 % på den privata delmängden av ARC-AGI v2 är galet. Grok 4 är den första modellen som bryter 10 %-barriären på månader.
Greg (ARC-AGI Lead)
twitter
Studiegruppsmetoden med flera agenter i Grok 4 Heavy är rätt sätt att använda test-time compute. Den hittar faktiskt tricket i problemet.
Tony_xAI
twitter
Grok 4: 79 på LiveCodeBench... benchmarks berättar inte hur det känns att koda med en model, men den här känns pålitlig.
thankzr3ddit
reddit
Modellen är på forskarnivå i allt. Den är skrämmande smart och snabbare än någon människa kan lära sig.
Elon Musk
youtube
Sökningen i realtid är inte bara att skrapa rubriker; den analyserar innehåll över flera källor.
BitBiasedAI
youtube

Videor om Grok-4

Se handledningar, recensioner och diskussioner om Grok-4

Grok 4 heavy är till för mer logik- och resonemangstunga uppgifter, medan vanliga Grok 4 hanterar andra.

Den spårade min hand och mina fingrar helt korrekt när jag ritade på skärmen.

Grok 4 hittade lösenordet jag gömt djupt i context window efter bara 15 sekunders tänkande.

Noggrannheten i testet med 2 miljoner tokens (needle in a haystack) var 100 %.

Denna model är äntligen ett riktigt alternativ för de som tyckte att Gemini's context window var otillförlitligt.

Grok 4 är på forskarnivå (PhD) i allt, bättre än de flesta PhDs.

Grok 4 Heavy skapar flera agenter parallellt... det är som en studiegrupp.

Den finns på API och har 256k context length, med planer på mycket mer.

Träningen på Colossus-klustret har gett den en resonemangsförmåga vi inte sett tidigare.

Den är designad för att vara den mest sanningssökande AI som existerar just nu.

Grok 4 Heavy kör upp till 32 parallella AI-modeller på din enda prompt.

Sökningen i realtid är inte bara att skrapa rubriker; den analyserar innehåll över flera källor.

Think Mode lägger extra beräkningstid på att planera och fånga potentiella fel innan den svarar.

Du kan faktiskt se agenterna debattera med varandra i loggarna om du har API-åtkomst.

Multimodal prestanda med ljud är märkbart snabbare än föregående generation.

Mer an bara promptar

Superladda ditt arbetsflode med AI-automatisering

Automatio kombinerar kraften av AI-agenter, webbautomatisering och smarta integrationer for att hjalpa dig astadkomma mer pa kortare tid.

AI-agenter
Webbautomatisering
Smarta arbetsfloden

Proffs-tips for Grok-4

Experttips for att hjalpa dig fa ut det mesta av Grok-4 och uppna battre resultat.

Använd sökord

Inkludera specifika hashtags eller konton i din prompt för att styra modellens sökningar i realtid på X.

Växla till Heavy Mode

Aktivera Grok-4 Heavy för uppgifter där noggrannhet är viktigare än svarshastighet.

Ge detaljerade personas

Utnyttja den tillåtande säkerhetsinställningen genom att definiera specifika, utmanande personas för kreativt skrivande.

Analysera externa länkar

Klistra in URL:er direkt i chatten så att modellen kan hämta och sammanfatta färskt webbinnehåll.

Omdomen

Vad vara anvandare sager

Ga med tusentals nojda anvandare som har transformerat sitt arbetsflode

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relaterat AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Vanliga fragor om Grok-4

Hitta svar pa vanliga fragor om Grok-4