xai

Grok-4

xAI-jev Grok-4 je frontier model s context window od 2M tokena, integracijom platforme X u stvarnom vremenu i svjetski rekordnim reasoning mogućnostima.

xai logoxaiGrokJuly 9, 2025
Kontekst
2.0Mtokena
Maks. izlaz
8Ktokena
Ulazna cijena
$3.00/ 1M
Izlazna cijena
$15.00/ 1M
Modalitet:TextImage
Mogućnosti:VidAlatiStreamingZaključivanje
Benchmarks
GPQA
87.5%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Grok-4 je postigao 87.5% na ovom benchmarku.
HLE
44.4%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Grok-4 je postigao 44.4% na ovom benchmarku.
MMLU
94%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Grok-4 je postigao 94% na ovom benchmarku.
MMLU Pro
81.2%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Grok-4 je postigao 81.2% na ovom benchmarku.
SimpleQA
48%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Grok-4 je postigao 48% na ovom benchmarku.
IFEval
89.2%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Grok-4 je postigao 89.2% na ovom benchmarku.
AIME 2025
100%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Grok-4 je postigao 100% na ovom benchmarku.
MATH
92%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Grok-4 je postigao 92% na ovom benchmarku.
GSM8k
98.4%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Grok-4 je postigao 98.4% na ovom benchmarku.
MGSM
92.1%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Grok-4 je postigao 92.1% na ovom benchmarku.
MathVista
72.4%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Grok-4 je postigao 72.4% na ovom benchmarku.
SWE-Bench
81%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Grok-4 je postigao 81% na ovom benchmarku.
HumanEval
88%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Grok-4 je postigao 88% na ovom benchmarku.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Grok-4 je postigao 79.4% na ovom benchmarku.
MMMU
75%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Grok-4 je postigao 75% na ovom benchmarku.
MMMU Pro
59.2%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Grok-4 je postigao 59.2% na ovom benchmarku.
ChartQA
90.5%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Grok-4 je postigao 90.5% na ovom benchmarku.
DocVQA
93.2%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Grok-4 je postigao 93.2% na ovom benchmarku.
Terminal-Bench
54.2%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Grok-4 je postigao 54.2% na ovom benchmarku.
ARC-AGI
15.9%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Grok-4 je postigao 15.9% na ovom benchmarku.

O modelu Grok-4

Saznajte o mogućnostima, značajkama i načinima korištenja modela Grok-4.

Pregled

Grok-4 je najnoviji frontier AI model iz xAI-a, dizajniran da bude asistent koji traži istinu s pristupom platformi X u stvarnom vremenu. Izgrađen na Colossus superračunalnom klasteru s više od 200.000 GPU-a, predstavlja ogroman skok u reasoning-u, rješavanju matematičkih problema i programiranju. Sadrži objedinjenu dual-mode arhitekturu, omogućujući korisnicima prebacivanje između načina dubokog razmišljanja (reasoning) za složene zagonetke i načina visoke brzine za trenutne odgovore.

Tehničke inovacije

Ovaj generacijski skok u računalnoj snazi omogućio je performanse na razini doktorata u svim akademskim disciplinama istovremeno. Model se jedinstveno odlikuje svojom strategijom usklađivanja koja daje prioritet objektivnim informacijama nad standardnim sigurnosnim ograničenjima. Njegov masivni context window od 2 milijuna tokens i integracija u Muskov ekosustav, uključujući X i Tesla vozila, pružaju jasnu konkurentsku prednost. Iako briljira u STEM-u i tehničkom reasoning-u, ostaje visoko učinkovit za svakodnevne kreativne zadatke i analizu vijesti u stvarnom vremenu.

Filozofija performansi

Grok-4 daje prioritet razmišljanju iz prvih principa i objektivnoj sintezi podataka. Korištenjem Quasarflux reasoning engine-a, može navigirati kroz logičke lance u više koraka koji obično skreću tradicionalne LLM modele s puta. To ga čini neophodnim alatom za developere i istraživače koji zahtijevaju rezultate visoke vjernosti u kritičnim okruženjima gdje se o činjeničnoj točnosti ne može pregovarati.

Grok-4

Slučajevi korištenja za Grok-4

Otkrijte različite načine korištenja modela Grok-4 za postizanje izvrsnih rezultata.

STEM istraživanje na razini diplomskog studija

Korištenje Thinking načina rada za rješavanje problema iz fizike na razini doktorata i provjeru složenih matematičkih dokaza.

Debugging masivnih repozitorija

Iskorištavanje context window od 2M tokens za učitavanje cijelih baza koda i identificiranje suptilnih race conditions.

Financijska inteligencija u stvarnom vremenu

Praćenje X Firehose-a za analizu tržišnog raspoloženja i udarnih vijesti za uvide u trgovanje.

Agentic tijekovi rada

Pokretanje složenih agentic zadataka putem robusnog function calling za logistiku i automatizaciju.

Multimodalna pravna analiza

Pregledavanje tisuća stranica dokumenata uz analizu skeniranih dokaznih fotografija.

Napredno akademsko podučavanje

Pružanje personaliziranog podučavanja temeljenog na prvim principima u STEM predmetima prilagođenog napretku studenta.

Prednosti

Ograničenja

Neusporediva matematika i logika: Postignut svjetski rekord od 100% na AIME 2025, što ga čini prvim izborom za tehničke zadatke.
Oscilacije u osnovnoj logici: Unatoč briljiranju na diplomskim ispitima, model povremeno može zakazati u trivijalnim zadacima poput brojanja slova u riječi.
Vodeći context na tržištu: Context window od 2 milijuna tokens omogućuje analizu otprilike 1.500 stranica teksta u jednom promptu.
Visoka barijera za ulazak: Pristup punoj snazi Grok-4 Heavy modela i reasoning mogućnostima zahtijeva premium pretplatu.
Live protok podataka: Ekskluzivan pristup streamu podataka platforme X u stvarnom vremenu osigurava da su odgovori ažurni o globalnim događajima.
Nedostaci u kreativnim nijansama: Zaostaje za Claude 4.5 u kreativnom pripovijedanju, često usvajajući utilitarniji ili oštriji ton.
Emocionalna inteligencija: Visoki rezultati na EQ-Bench3 ukazuju na vrhunsku sposobnost razumijevanja nijansiranih ljudskih emocija.
Dosljednost generiranja slika: Interni alati imaju problema s održavanjem vizualne dosljednosti kroz više okvira.

API brzi početak

xai/grok-4

Pogledaj dokumentaciju
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Grok-4

Pogledajte što zajednica misli o modelu Grok-4

"Grok 4 službeno podučava konkurenciju... dokazujući da je xAI izgradio model koji razmišlja poput predatora."
Mario Nawfal
x/twitter
"Grok 4 je genijalac na razini doktorata koji rastura benchmarke, a povremeno ne zna brojati. Dualnost je nevjerojatna."
Beginning-Willow-801
reddit
"Skok na 2 milijuna tokens nije samo trik; on temeljno mijenja debugging repozitorija."
AI Tech Reviews
youtube
"Grok 4 je jasno najbolji model u smislu općeg razumijevanja, daleko ispred GPT-5."
YMist_
reddit
"Upotreba će skočiti s verzijom Grok 4.20. Izlazi za 3 ili 4 tjedna."
Elon Musk
x/twitter
"Integracija s X-om u stvarnom vremenu jedina je stvar koja drži moje istraživanje relevantnim u ovom ciklusu vijesti."
DataScientist_Alpha
hackernews

Videozapisi o modelu Grok-4

Gledajte tutorijale, recenzije i diskusije o modelu Grok-4

Broj riječi u ovom odgovoru je točno 43... Super impresivno.

Ne samo da je mogao riješiti Hanojski toranj u svom chain-of-thought, već ga je zapravo dokazao i vizualizirao kodom.

Sviđa mi se ovaj odgovor. Izravan i konkretan. Bez ikakvog uljepšavanja.

Reasoning mogućnosti ovdje su jasno korak iznad onoga što smo vidjeli u prethodnoj generaciji.

Konačno model koji se ne čini kao da prešućuje istinu kako bi bio pristojan.

Eksperimentalni prekidač za razmišljanje za Grok nedavno je uklonjen... što je dovelo do karakterizacije kao potencijalno zastarjelog.

Grok OS je bio najmanje impresivan, s osnovnom bijelom pozadinom i pokvarenim ikonama.

U smislu sirovog pronalaženja znanja, Grok-4 dosljedno pogađa tamo gdje GPT-5 griješi.

Latency u reasoning načinu rada je veći, ali kvaliteta rezultata opravdava čekanje.

Ako ste u Muskovom ekosustavu, ova integracija je masivni multiplikator produktivnosti.

Nitko ne želi super brzi model ako ne može riješiti logiku. To vam mogu reći besplatno, ekipa.

Dao bih ovome minus jedan od 10... Potpuno smeće. Ne može napraviti ni jednostavnu Next.js web stranicu.

Brzina je tu, ali ako je logika pokvarena, koja je poanta tokens per second?

Čini se da su požurili s coder varijantom samo kako bi ispoštovali ciklus objave.

Držite se standardnog reasoning modela ako stvarno želite nešto što radi.

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi
Pogledaj demo video

Pro Savjeti za Grok-4

Stručni savjeti za maksimalno iskorištavanje Grok-4.

Promjena načina rada

Koristite Quasarflux način za kompleksnu logiku i Tensor način za brzinu kako biste optimizirali troškove i performanse.

Upiti u stvarnom vremenu

Eksplicitno tražite trendovske teme na platformi X kako biste iskoristili live protok podataka i zaobišli vremenska ograničenja podataka za trening.

STEM fokus

Prioritet dajte Groku za matematiku na razini diplomskog studija gdje značajno nadmašuje konkurenciju u zero-shot zadacima.

Provjera osnovne logike

Ponovno provjerite jednostavno brojanje ili redoslijed popisa jer model može biti nedosljedan u trivijalnim zadacima.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

Često Postavljana Pitanja o Grok-4

Pronađite odgovore na česta pitanja o Grok-4