xai

Grok-3

Grok-3 je xAI-jev flagship reasoning model koji nudi duboku logičku dedukciju, context window od 128k i integraciju s X platformom u stvarnom vremenu za...

xai logoxaiGrokFebruary 17, 2025
Kontekst
128Ktokena
Maks. izlaz
8Ktokena
Ulazna cijena
$3.00/ 1M
Izlazna cijena
$15.00/ 1M
Modalitet:TextImage
Mogućnosti:VidAlatiStreamingZaključivanje
Benchmarks
GPQA
84.6%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Grok-3 je postigao 84.6% na ovom benchmarku.
HLE
36%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Grok-3 je postigao 36% na ovom benchmarku.
MMLU
87.5%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Grok-3 je postigao 87.5% na ovom benchmarku.
MMLU Pro
76.5%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Grok-3 je postigao 76.5% na ovom benchmarku.
SimpleQA
42%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Grok-3 je postigao 42% na ovom benchmarku.
IFEval
91.2%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Grok-3 je postigao 91.2% na ovom benchmarku.
AIME 2025
93.3%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Grok-3 je postigao 93.3% na ovom benchmarku.
MATH
94.4%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Grok-3 je postigao 94.4% na ovom benchmarku.
GSM8k
98.7%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Grok-3 je postigao 98.7% na ovom benchmarku.
MGSM
92.4%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Grok-3 je postigao 92.4% na ovom benchmarku.
MathVista
71.3%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Grok-3 je postigao 71.3% na ovom benchmarku.
SWE-Bench
49%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Grok-3 je postigao 49% na ovom benchmarku.
HumanEval
94.5%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Grok-3 je postigao 94.5% na ovom benchmarku.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Grok-3 je postigao 79.4% na ovom benchmarku.
MMMU
78%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Grok-3 je postigao 78% na ovom benchmarku.
MMMU Pro
58.5%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Grok-3 je postigao 58.5% na ovom benchmarku.
ChartQA
89.2%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Grok-3 je postigao 89.2% na ovom benchmarku.
DocVQA
92.4%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Grok-3 je postigao 92.4% na ovom benchmarku.
Terminal-Bench
52%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Grok-3 je postigao 52% na ovom benchmarku.
ARC-AGI
12.5%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Grok-3 je postigao 12.5% na ovom benchmarku.

O modelu Grok-3

Saznajte o mogućnostima, značajkama i načinima korištenja modela Grok-3.

Frontier Reasoning i inteligencija

Grok-3 predstavlja monumentalan skok u umjetnoj inteligenciji, treniran na xAI-jevom Colossus supercomputing clusteru koristeći više od 100,000 NVIDIA H100 GPU jedinica. Specifično je dizajniran da briljira u složenoj logici, matematičkoj dedukciji i softverskom inženjerstvu visokih zahtjeva. Za razliku od tradicionalnih modela koji prioritet daju brzini generiranja odgovora, Grok-3 ima specijalizirani Deep Thinking način rada koji koristi masivni test-time compute kako bi provjerio vlastite interne korake reasoninga prije isporuke konačnog rezultata.

Integracija znanja u stvarnom vremenu

Ključna razlika Grok-3 modela je njegov neusporediv pristup X platformi i njezinom streamu podataka u stvarnom vremenu. To omogućuje modelu sintezu najnovijih vijesti, financijskih promjena i globalnih trendova s latencijom od svega par sekundi, dok se drugi modeli oslanjaju na fiksne baze znanja ili sporije alate za pretraživanje weba. Ova svijest o događajima u stvarnom vremenu, uparena s context windowom od 128,000 tokens, čini ga nezaobilaznim alatom za istraživače tržišta i data scientists koji trebaju najažurnije uvide.

Multimodalne i agentic mogućnosti

Osim teksta i logike, Grok-3 je moćan multimodal vision model sposoban interpretirati složene tehničke dijagrame, nacrte i vizualne podatke s frontier precision razinom. Podržava napredni function calling i korištenje alata, što mu omogućuje da djeluje kao kognitivna jezgra za autonomne agente. S rezultatom od 94,5% na HumanEval benchmarku, trenutno stoji kao jedan od najsposobnijih asistenata za kodiranje, parirajući ili nadmašujući konkurenciju u autonomnom debuggiranju i arhitektonskom refaktoriranju.

Grok-3

Slučajevi korištenja za Grok-3

Otkrijte različite načine korištenja modela Grok-3 za postizanje izvrsnih rezultata.

Napredno softversko inženjerstvo

Rješavanje kompleksnih arhitektonskih problema i refaktoriranje cijelih baza koda uz duboki reasoning i 94,5% HumanEval točnosti.

Tržišna inteligencija u stvarnom vremenu

Korištenje X podataka uživo za sintezu najnovijih financijskih vijesti i raspoloženja potrošača brže od tradicionalnih tražilica.

Sinteza znanstvenih podataka

Obrada tisuća stranica akademskih časopisa u Deep Research načinu rada za identificiranje novih istraživačkih veza i hipoteza.

Multimodalna analiza dokumenata

Interpretacija složenih tehničkih dijagrama, nacrta i financijskih grafikona koristeći frontier model vision mogućnosti.

Instrukcije na razini natjecanja

Rastavljanje složenih matematičkih i fizikalnih problema s olimpijada na razumljive, provjerene korake pomoću 'Think' načina rada.

Agentic automatizacija radnih procesa

Djeluje kao jezgra za autonomne agente koji zahtijevaju precizan function calling i korištenje alata u produkcijskim okruženjima.

Prednosti

Ograničenja

Vrhunski reasoning: Nadmašuje vodeće konkurente na složenim matematičkim benchmark testovima poput AIME 2025 (93,3%) i MATH (94,4%).
Visoki latency u 'Think' načinu rada: Složeni reasoning prompts mogu zahtijevati više od 60 sekundi za generiranje provjerenog odgovora.
Integrirani Deep Research: Sadrži jedinstvenu mogućnost pretraživanja weba koja sintetizira X podatke uživo znatno brže od rivala.
Nema izvornu podršku za video ili audio: Nedostaje mu multimodal procesiranje audia i videa u stvarnom vremenu kakvo imaju konkurenti poput Gemini 2.0.
Elitne performanse kodiranja: Postiže 94,5% na HumanEval benchmarku, što ga čini vrhunskim izborom za autonomni razvoj softvera i debugging.
Stroge kvote korištenja: Ograničenja poruka za Premium+ pretplatnike trenutno su niža nego kod nekih etabliranih konkurenata tijekom vršnih sati.
Transparentni tragovi razmišljanja: Omogućuje korisnicima uvid u logiku modela korak-po-korak, čime se povećava povjerenje i olakšava debugging složenih pogrešaka.
Beta stabilnosti: Korisnici povremeno mogu naići na serverske pogreške ili skraćene tragove razmišljanja tijekom razdoblja velikog prometa.

API brzi početak

xai/grok-3

Pogledaj dokumentaciju
xai SDK
import OpenAI from "openai";

const xai = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1"
});

const response = await xai.chat.completions.create({
  model: "grok-3",
  messages: [{ role: "user", content: "Analiziraj trenutne trendove na X-u za AGI." }],
  stream: true
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Grok-3

Pogledajte što zajednica misli o modelu Grok-3

"Grok-3 deep research je znatno brži i točniji od OpenAI verzije"
TechEnthusiast
x
"Performanse kodiranja su apsolutno lude; popravio je bug na kojem sam zapeo satima u samo nekoliko sekundi"
DevLife
reddit
"Grok-3 je vjerojatno najnapredniji reasoning model dostupan danas"
DataCamp
youtube
"Tragovi razmišljanja jako podsjećaju na DeepSeek, ali brzina je na sasvim drugoj razini"
AIResearcher
hackernews
"Vision mogućnosti na tehničkim nacrtima su napokon upotrebljive za pravi inženjerski rad"
EngDesign
reddit
"X integracija mu daje ogromnu prednost za svakoga tko prati kripto ili tržišno raspoloženje u stvarnom vremenu"
FinancePro
x

Videozapisi o modelu Grok-3

Gledajte tutorijale, recenzije i diskusije o modelu Grok-3

Grok 3 je vjerojatno najnapredniji reasoning model dostupan danas

Imao je puno kvalitetniji output od OpenAI deep search funkcije

Brzina deep research načina rada prilično je impresivna u usporedbi s O1 modelom

Vidi se kako model stvarno obrađuje više rezultata pretraživanja istovremeno

Ovo je značajan skok u odnosu na Grok-2 u smislu logičke konzistentnosti

Grok 3 i Grok 3 mini su bolji od svih objavljenih reasoning modela

Logika je nevjerojatna... ovo je najljudskiji reasoning koji sam ikada vidio

Interni trag razmišljanja pruža puno jasniji uvid u logiku

Ne pogađa samo; on provjerava svoj rad, što je obilježje System 2 razmišljanja

Matematičke performanse na AIME benchmark testovima su uistinu state-of-the-art

Na ovim benchmark testovima možete vidjeti da Grok 3 zapravo radi jako dobro na svim poljima

U usporedbi s drugim konkurentima, djeluje vrlo obećavajuće

Performanse kodiranja su prava priča ovdje, parira najboljima u industriji

Rješava zadatke arhitektonskog refaktoriranja na kojima su prethodne verzije zakazale

Integracija s X API-jem čini ga jedinstveno moćnim za aktualne događaje

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi
Pogledaj demo video

Pro Savjeti za Grok-3

Stručni savjeti za maksimalno iskorištavanje Grok-3.

Uključite Deep Thinking

Uvijek omogućite 'Think' način rada za matematičke ili logičke zadatke kako biste osigurali provjeru korak-po-korak putem test-time compute procesa.

Iskoristite X integraciju

Koristite specifične upite o najnovijim vijestima ili trenutnim događajima kako biste dobili podatke kojima drugi LLM modeli ne mogu pristupiti zbog ograničenja u bazi znanja (knowledge cutoff).

Pregledajte tragove razmišljanja

Proučite interne tragove razmišljanja (thinking traces) kako biste identificirali gdje model točno troši compute resurse i provjerili njegov logički put.

Vision za UI

Učitajte snimke zaslona dizajna korisničkog sučelja i tražite od Grok modela da generira odgovarajući React ili Tailwind kod za brzu izradu front-end prototipova.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Često Postavljana Pitanja o Grok-3

Pronađite odgovore na česta pitanja o Grok-3