xai

Grok-4

Grok-4 di xAI è un frontier model caratterizzato da una context window di 2M di tokens, integrazione real-time con la piattaforma X e capacità di reasoning da...

xai logoxaiGrok9 Luglio 2025
Contesto
2.0Mtoken
Output max
8Ktoken
Prezzo input
$3.00/ 1M
Prezzo output
$15.00/ 1M
Modalita:TextImage
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
87.5%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Grok-4 ha ottenuto 87.5% in questo benchmark.
HLE
44.4%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Grok-4 ha ottenuto 44.4% in questo benchmark.
MMLU
94%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Grok-4 ha ottenuto 94% in questo benchmark.
MMLU Pro
81.2%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Grok-4 ha ottenuto 81.2% in questo benchmark.
SimpleQA
48%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Grok-4 ha ottenuto 48% in questo benchmark.
IFEval
89.2%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Grok-4 ha ottenuto 89.2% in questo benchmark.
AIME 2025
100%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Grok-4 ha ottenuto 100% in questo benchmark.
MATH
92%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Grok-4 ha ottenuto 92% in questo benchmark.
GSM8k
98.4%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Grok-4 ha ottenuto 98.4% in questo benchmark.
MGSM
92.1%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Grok-4 ha ottenuto 92.1% in questo benchmark.
MathVista
72.4%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Grok-4 ha ottenuto 72.4% in questo benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Grok-4 ha ottenuto 81% in questo benchmark.
HumanEval
88%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Grok-4 ha ottenuto 88% in questo benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Grok-4 ha ottenuto 79.4% in questo benchmark.
MMMU
75%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Grok-4 ha ottenuto 75% in questo benchmark.
MMMU Pro
59.2%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Grok-4 ha ottenuto 59.2% in questo benchmark.
ChartQA
90.5%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Grok-4 ha ottenuto 90.5% in questo benchmark.
DocVQA
93.2%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Grok-4 ha ottenuto 93.2% in questo benchmark.
Terminal-Bench
54.2%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Grok-4 ha ottenuto 54.2% in questo benchmark.
ARC-AGI
15.9%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Grok-4 ha ottenuto 15.9% in questo benchmark.

Informazioni su Grok-4

Scopri le capacita di Grok-4, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Panoramica del Model

Grok-4 è il frontier model multimodal di xAI. È costruito per dare priorità al reasoning basato sui principi primi e al recupero di informazioni in tempo reale. Il model ottiene un vantaggio competitivo significativo grazie alla sua integrazione nativa con la piattaforma social X. Ciò gli consente di analizzare le conversazioni globali e le notizie live nel momento in cui accadono. Utilizza il supercomputer Colossus per il training, ottenendo performance di alto livello in ambiti matematici e tecnici.

Capacità Tecniche

L'architettura supporta una context window da 2 milioni di tokens nelle sue varianti di reasoning. Questa capacità consente l'elaborazione di enormi codebase e densa documentazione tecnica senza perdita di dati. Presenta un sistema a doppia modalità in cui gli utenti scelgono tra una modalità ad alta velocità per interazioni rapide e una modalità di riflessione profonda per task logici a più step. Il model gestisce un tasso di allucinazione di circa il 4% impiegando un meccanismo di consenso multi-agent nella sua configurazione Heavy.

Integrazione nell'Ecosistema

Oltre alla semplice generazione di testo, Grok-4 è progettato per il tool use nativo e il complesso function calling. Supporta l'elaborazione di immagini e audio, rendendolo una scelta versatile per gli sviluppatori che costruiscono applicazioni multimodal. La sua strategia di allineamento si concentra sulla ricerca della verità oggettiva piuttosto che sui classici standard di sicurezza del settore. Ciò si traduce in un minor numero di rifiuti per argomenti controversi o anticonformisti rispetto ad altri frontier model.

Grok-4

Casi d'uso per Grok-4

Scopri i diversi modi in cui puoi usare Grok-4 per ottenere ottimi risultati.

Sentiment Analysis in tempo reale

Analizza post live su X per determinare la reazione del pubblico a breaking news o lanci di prodotti.

Auditing di repository su larga scala

Valuta intere repository software sfruttando la context window da 2M per individuare difetti architetturali.

Risoluzione di problemi matematici di livello olimpico

Fornisce soluzioni passo dopo passo per dimostrazioni matematiche complesse e problemi di livello AIME.

Contenuti creativi non filtrati

Genera script guidati dai personaggi e umorismo senza i filtri restrittivi di altri provider di AI.

Sintesi di ricerca scientifica

Riassume simultaneamente molteplici paper accademici di livello PhD mantenendo l'accuratezza tecnica.

Debugging tecnico

Identifica bug oscuri nel codice in produzione e suggerisce correzioni basate sulle best practice attuali.

Punti di forza

Limitazioni

Reasoning matematico d'élite: Ha raggiunto un punteggio perfetto del 100% sul benchmark AIME 2025, superando la maggior parte dei frontier model in logica.
Latenza in Heavy Mode: La modalità di reasoning multi-agent può richiedere diversi minuti per produrre una singola risposta ad alta accuratezza.
Context leader del settore: La context window da 2M tokens consente una profondità senza precedenti nell'analisi dei documenti e nei progetti di coding su larga scala.
Supporto video incompleto: Sebbene le capacità di testo e immagini siano di primo livello, l'elaborazione nativa di video frame-by-frame non è ancora disponibile.
Social intelligence live: L'accesso diretto alla piattaforma X fornisce informazioni in tempo reale che i training data statici non possono replicare.
Accesso regionale limitato: Le funzionalità di memoria persistente sono attualmente disabilitate nell'Unione Europea a causa dei requisiti normativi.
Basso tasso di rifiuto: Un'architettura di sicurezza più permissiva consente un dialogo onesto e oggettivo su argomenti controversi.
Limiti di precisione nella Vision: I creatori riconoscono che il model rimane parzialmente limitato nell'interpretazione di dettagli visivi ad altissima fedeltà.

Avvio rapido API

xai/grok-4

Visualizza documentazione
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Cerca su X le ultime notizie su SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Grok-4

Guarda cosa pensa la community di Grok-4

Grok 4 fast ha una context window da 2M di tokens!!! Perché abbiamo faticato e ci siamo accontentati di ChatGPT, davvero non lo so più.
myfuturewifee
reddit
Il 15,88% sul subset privato di ARC-AGI v2 è pazzesco. Grok 4 è il primo model a superare quella barriera del 10% dopo mesi.
Greg (ARC-AGI Lead)
twitter
L'approccio 'gruppo di studio multi-agent' in Grok 4 Heavy è il modo giusto per usare il test-time compute. Trova davvero il trucco per risolvere il problema.
Tony_xAI
twitter
Grok 4: 79 su LiveCodeBench... i benchmark non ti dicono come ci si sente a programmare con un model, ma questo sembra affidabile.
thankzr3ddit
reddit
Il model è a livello post-laurea, quasi PhD in tutto. È spaventosamente intelligente e più veloce di quanto qualsiasi essere umano possa imparare.
Elon Musk
youtube
La ricerca in tempo reale non si limita a estrarre titoli; analizza i contenuti attraverso molteplici fonti.
BitBiasedAI
youtube

Video su Grok-4

Guarda tutorial, recensioni e discussioni su Grok-4

Grok 4 heavy è per task più intensivi di logica e reasoning, mentre Grok 4 standard gestisce il resto.

Ha tracciato in modo completamente accurato la mia mano e le dita per disegnare sullo schermo.

Grok 4 ha trovato la password che avevo nascosto in profondità nella context window dopo soli 15 secondi di riflessione.

L'accuratezza nel test 'needle in a haystack' da 2 milioni di tokens è stata del 100%.

Questo model è finalmente una vera alternativa per chi ha trovato la context window di Gemini inaffidabile.

Grok 4 è a livello post-laurea, quasi PhD in tutto, meglio della maggior parte dei PhD.

Grok 4 Heavy genera molteplici agent in parallelo... è come un gruppo di studio.

È sulle API e ha una lunghezza del context di 256k, con piani per molto altro.

Il training sul cluster Colossus gli ha conferito una capacità di reasoning che non avevamo ancora visto.

È progettato per essere l'AI più orientata alla verità che esiste attualmente.

Grok 4 Heavy esegue fino a 32 models di AI in parallelo sul tuo singolo prompt.

La ricerca in tempo reale non si limita a estrarre titoli; analizza contenuti da molteplici fonti.

La Think Mode impiega tempo computazionale aggiuntivo per pianificare e rilevare potenziali errori prima di rispondere.

Puoi vedere gli agent discutere tra loro nei log se hai accesso alle API.

Le performance multimodal con l'audio sono notevolmente più veloci rispetto alla generazione precedente.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per Grok-4

Consigli esperti per aiutarti a ottenere il massimo da Grok-4 e raggiungere risultati migliori.

Usa keyword per la ricerca

Inserisci hashtag o account specifici nel tuo prompt per indirizzare la ricerca in tempo reale di Grok su X.

Passa alla Heavy Mode

Attiva Grok-4 Heavy per compiti in cui l'accuratezza è più importante della velocità di risposta.

Fornisci personaggi dettagliati

Sfrutta l'allineamento di sicurezza permissivo definendo personaggi specifici e anticonformisti per la scrittura creativa.

Analizza link esterni

Incolla URL live direttamente nella chat affinché il model possa recuperare e riassumere contenuti web freschi.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Domande frequenti su Grok-4

Trova risposte alle domande comuni su Grok-4