xai

Grok-3

Grok-3 est le model de raisonnement phare de xAI, offrant une déduction logique approfondie, une context window de 128k et une intégration en temps réel avec X.

xai logoxaiGrok17 février 2025
Contexte
128Ktokens
Sortie max.
8Ktokens
Prix entrée
$3.00/ 1M
Prix sortie
$15.00/ 1M
Modalité:TextImage
Capacités:VisionOutilsStreamingRaisonnement
Benchmarks
GPQA
84.6%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). Grok-3 a obtenu 84.6% sur ce benchmark.
HLE
36%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. Grok-3 a obtenu 36% sur ce benchmark.
MMLU
87.5%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. Grok-3 a obtenu 87.5% sur ce benchmark.
MMLU Pro
76.5%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. Grok-3 a obtenu 76.5% sur ce benchmark.
SimpleQA
42%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. Grok-3 a obtenu 42% sur ce benchmark.
IFEval
91.2%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. Grok-3 a obtenu 91.2% sur ce benchmark.
AIME 2025
93.3%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. Grok-3 a obtenu 93.3% sur ce benchmark.
MATH
94.4%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. Grok-3 a obtenu 94.4% sur ce benchmark.
GSM8k
98.7%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. Grok-3 a obtenu 98.7% sur ce benchmark.
MGSM
92.4%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. Grok-3 a obtenu 92.4% sur ce benchmark.
MathVista
71.3%
MathVista: Raisonnement Mathématique Visuel. Teste la capacité à résoudre des problèmes mathématiques impliquant des éléments visuels comme les graphiques, les diagrammes de géométrie et les figures scientifiques. Combine la compréhension visuelle avec le raisonnement mathématique. Grok-3 a obtenu 71.3% sur ce benchmark.
SWE-Bench
49%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. Grok-3 a obtenu 49% sur ce benchmark.
HumanEval
94.5%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. Grok-3 a obtenu 94.5% sur ce benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. Grok-3 a obtenu 79.4% sur ce benchmark.
MMMU
78%
MMMU: Compréhension Multimodale. Benchmark de Compréhension Multimodale Multi-discipline Massive testant les modèles vision-langage sur des problèmes universitaires dans 30 matières nécessitant à la fois la compréhension d'images et des connaissances expertes. Grok-3 a obtenu 78% sur ce benchmark.
MMMU Pro
58.5%
MMMU Pro: MMMU Édition Professionnelle. Version améliorée du MMMU avec des questions plus difficiles et une évaluation plus stricte. Teste le raisonnement multimodal avancé aux niveaux professionnel et expert. Grok-3 a obtenu 58.5% sur ce benchmark.
ChartQA
89.2%
ChartQA: Questions-Réponses sur Graphiques. Teste la capacité à comprendre et raisonner sur les informations présentées dans les graphiques. Nécessite l'extraction de données, la comparaison de valeurs et l'exécution de calculs à partir de représentations visuelles de données. Grok-3 a obtenu 89.2% sur ce benchmark.
DocVQA
92.4%
DocVQA: Q&R Visuelle sur Documents. Benchmark de Questions-Réponses Visuelles sur Documents testant la capacité à extraire et raisonner sur les informations des images de documents incluant les formulaires, rapports et textes numérisés. Grok-3 a obtenu 92.4% sur ce benchmark.
Terminal-Bench
52%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. Grok-3 a obtenu 52% sur ce benchmark.
ARC-AGI
12.5%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. Grok-3 a obtenu 12.5% sur ce benchmark.

À propos de Grok-3

Découvrez les capacités, fonctionnalités et façons d'utiliser Grok-3.

Reasoning et intelligence de type Frontier

Grok-3 représente un bond monumental dans l'intelligence artificielle, entraîné sur le cluster de supercalcul Colossus de xAI utilisant plus de 100 000 GPU NVIDIA H100. Il est spécifiquement conçu pour exceller dans la logique complexe, la déduction mathématique et le génie logiciel de haut niveau. Contrairement aux modèles traditionnels qui privilégient la génération rapide de réponses, Grok-3 dispose d'un mode Deep Thinking spécialisé qui utilise un compute massif au moment du test (test-time compute) pour vérifier ses propres étapes de reasoning interne avant de fournir un résultat final.

Intégration des connaissances en temps réel

Un différenciateur clé de Grok-3 est son accès inégalé au flux de données en temps réel de la plateforme X. Cela permet au modèle de synthétiser les actualités de dernière minute, les évolutions financières et les tendances mondiales avec une latence de quelques secondes, là où d'autres modèles dépendent de dates de coupure de connaissances ou d'outils de recherche web plus lents. Cette conscience en temps réel, couplée à une context window de 128 000 tokens, en fait un outil essentiel pour les analystes de marché et les data scientists ayant besoin d'insights de dernière minute.

Capacités multimodales et agentic

Au-delà du texte et de la logique, Grok-3 est un puissant modèle de vision multimodal capable d'interpréter des diagrammes techniques complexes, des plans et des données visuelles avec une précision de niveau frontier model. Il supporte le function calling avancé et l'utilisation d'outils, lui permettant d'agir comme le moteur cognitif d'agents autonomes. Avec un score de 94,5 % sur HumanEval, il s'impose actuellement comme l'un des assistants de code les plus performants, rivalisant avec ou dépassant ses concurrents dans le débogage autonome et le refactoring architectural.

Grok-3

Cas d'utilisation de Grok-3

Découvrez les différentes façons d'utiliser Grok-3 pour obtenir d'excellents résultats.

Génie logiciel avancé

résolution de problèmes d'architecture complexes et refactoring de bases de code entières grâce au deep reasoning et à une précision de 94,5 % sur HumanEval.

Intelligence de marché en temps réel

exploitation des données en direct de X pour synthétiser les actualités financières et le sentiment des consommateurs plus rapidement que les moteurs de recherche traditionnels.

Synthèse de données scientifiques

traitement de milliers de pages de revues académiques en mode Deep Research pour identifier de nouvelles connexions et hypothèses de recherche.

Analyse de documents multimodaux

interprétation de diagrammes techniques complexes, de plans et de graphiques financiers grâce à des capacités de vision de niveau frontier model.

Tutorat de niveau compétition

décomposition de problèmes complexes de mathématiques et de physique de niveau Olympiade en étapes digestes et vérifiées via le mode Think.

Automatisation de workflows agentic

moteur central pour des agents autonomes nécessitant un function calling et une utilisation d'outils précis en production.

Points forts

Limitations

Reasoning supérieur: surpasse les principaux concurrents sur des benchmarks mathématiques complexes comme AIME 2025 (93,3 %) et MATH (94,4 %).
Latence élevée en mode Thinking: les prompts de reasoning complexes peuvent prendre plus de 60 secondes pour générer une réponse vérifiée en mode Think.
Deep Research intégré: dispose d'une capacité de recherche web unique qui synthétise les données en direct de X nettement plus vite que ses rivaux.
Pas de vidéo ou d'audio natif: manque de traitement multimodal audio et vidéo en temps réel, contrairement à des concurrents comme Gemini 2.0.
Performance de code d'élite: score de 94,5 % sur HumanEval, en faisant un choix de premier ordre pour le développement logiciel autonome et le débogage.
Quotas d'utilisation stricts: les limites de messages pour les abonnés Premium+ sont actuellement plus basses que chez certains concurrents établis pendant les heures de pointe.
Traces de pensée transparentes: permet aux utilisateurs de visualiser la logique du modèle étape par étape, renforçant la confiance et facilitant le débogage d'erreurs complexes.
Problèmes de stabilité bêta: les utilisateurs peuvent occasionnellement rencontrer des erreurs de serveur ou des traces de pensée tronquées pendant les périodes de fort trafic.

Démarrage rapide API

xai/grok-3

Voir la documentation
xai SDK
import OpenAI from "openai";

const xai = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1"
});

const response = await xai.chat.completions.create({
  model: "grok-3",
  messages: [{ role: "user", content: "Analyze current X trends for AGI." }],
  stream: true
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Grok-3

Voyez ce que la communauté pense de Grok-3

"Le deep research de Grok-3 est nettement plus rapide et précis que la version d'OpenAI"
TechEnthusiast
x
"Les performances en code sont totalement dingues ; il a corrigé en quelques secondes un bug sur lequel je séchais depuis des heures"
DevLife
reddit
"Grok-3 est sans doute le reasoning model le plus avancé disponible aujourd'hui"
DataCamp
youtube
"Les traces de pensée ressemblent beaucoup à celles de DeepSeek, mais la vitesse est d'un autre niveau"
AIResearcher
hackernews
"Les capacités de vision sur les plans techniques sont enfin exploitables pour de vrais travaux d'ingénierie"
EngDesign
reddit
"L'intégration de X lui donne un avantage énorme pour quiconque suit le sentiment crypto ou boursier en temps réel"
FinancePro
x

Vidéos sur Grok-3

Regardez des tutoriels, critiques et discussions sur Grok-3

Grok 3 est sans doute le reasoning model le plus avancé disponible aujourd'hui

La qualité de sortie était bien meilleure que la fonction deep search d'OpenAI

La vitesse du mode deep research est assez impressionnante par rapport à O1

On voit le modèle analyser réellement plusieurs résultats de recherche simultanément

C'est un bond significatif par rapport à Grok-2 en termes de cohérence logique

Grok 3 et Grok 3 mini sont meilleurs que tous les reasoning models publiés

La logique est poussée à l'extrême... c'est le reasoning le plus proche de l'humain que j'aie jamais vu

La trace de pensée interne offre une vue beaucoup plus claire de la logique

Il ne se contente pas de deviner ; il vérifie son travail, ce qui est la marque du reasoning de Système 2

Les performances en mathématiques sur les benchmarks AIME sont véritablement state-of-the-art

Sur ces benchmarks, on voit que Grok 3 est performant sur tous les tableaux

Comparé aux autres concurrents, c'est très prometteur

La performance en code est le point fort ici, rivalisant avec les meilleurs du secteur

Il gère des tâches de refactoring d'architecture sur lesquelles les versions précédentes échouaient

L'intégration avec l'API de X le rend exceptionnellement puissant pour l'actualité

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents
Voir la video demo

Conseils Pro pour Grok-3

Conseils d'experts pour tirer le meilleur parti de Grok-3.

Activer le Deep Thinking

activez toujours le mode Think pour les tâches mathématiques ou logiques afin d'assurer une vérification étape par étape via le test-time compute.

Utiliser l'intégration X

effectuez des requêtes spécifiques sur les actualités de dernière minute ou les événements actuels pour obtenir des données auxquelles les autres LLM ne peuvent pas accéder en raison de leurs knowledge cutoffs.

Inspecter les traces

examinez les traces de pensée internes pour identifier exactement où le modèle alloue son compute et vérifiez son chemin logique.

Vision pour l'UI

téléchargez des captures d'écran de designs d'interface utilisateur et demandez à Grok de générer le code React ou Tailwind correspondant pour un prototypage front-end rapide.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Questions Fréquentes sur Grok-3

Trouvez des réponses aux questions courantes sur Grok-3