xai

Grok-3

Grok-3 ist das flagship-reasoning-model von xAI mit tiefer Logik-Deduktion, einem 128k context window und Echtzeit-Integration mit X für Live-Recherche und...

xai logoxaiGrok17. Februar 2025
Kontext
128KToken
Max. Ausgabe
8KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
84.6%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Grok-3 erreichte 84.6% bei diesem Benchmark.
HLE
36%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Grok-3 erreichte 36% bei diesem Benchmark.
MMLU
87.5%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Grok-3 erreichte 87.5% bei diesem Benchmark.
MMLU Pro
76.5%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Grok-3 erreichte 76.5% bei diesem Benchmark.
SimpleQA
42%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Grok-3 erreichte 42% bei diesem Benchmark.
IFEval
91.2%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Grok-3 erreichte 91.2% bei diesem Benchmark.
AIME 2025
93.3%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Grok-3 erreichte 93.3% bei diesem Benchmark.
MATH
94.4%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Grok-3 erreichte 94.4% bei diesem Benchmark.
GSM8k
98.7%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Grok-3 erreichte 98.7% bei diesem Benchmark.
MGSM
92.4%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Grok-3 erreichte 92.4% bei diesem Benchmark.
MathVista
71.3%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Grok-3 erreichte 71.3% bei diesem Benchmark.
SWE-Bench
49%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Grok-3 erreichte 49% bei diesem Benchmark.
HumanEval
94.5%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Grok-3 erreichte 94.5% bei diesem Benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Grok-3 erreichte 79.4% bei diesem Benchmark.
MMMU
78%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Grok-3 erreichte 78% bei diesem Benchmark.
MMMU Pro
58.5%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Grok-3 erreichte 58.5% bei diesem Benchmark.
ChartQA
89.2%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Grok-3 erreichte 89.2% bei diesem Benchmark.
DocVQA
92.4%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Grok-3 erreichte 92.4% bei diesem Benchmark.
Terminal-Bench
52%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Grok-3 erreichte 52% bei diesem Benchmark.
ARC-AGI
12.5%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Grok-3 erreichte 12.5% bei diesem Benchmark.

Über Grok-3

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Grok-3.

Frontier Reasoning und Intelligenz

Grok-3 ist das flagship-frontier-model von xAI und stellt einen bedeutenden Sprung in Bezug auf Rechenmaßstab und Logik dar. Trainiert auf dem Colossus-Supercomputer-Cluster mit über 100.000 NVIDIA H100 GPUs, bewältigt es komplexe mathematische und wissenschaftliche Herausforderungen. Das model verfügt über einen speziellen reasoning-Modus, der zusätzliche Rechenleistung nutzt, um seine eigene Logik zu verifizieren, bevor eine endgültige Antwort ausgegeben wird.

Integration von Echtzeitwissen

Ein wesentliches Unterscheidungsmerkmal ist die native Integration mit der X-Plattform. Dies ermöglicht es Grok-3, auf aktuelle Nachrichten, finanzielle Veränderungen und globale Trends mit geringerer latency zuzugreifen als modelle, die auf standardmäßiges Web-Crawling angewiesen sind. Gepaart mit einem 1 Million token context window ermöglicht es Forschern, riesige Mengen aktuellster Daten zu synthetisieren.

Multimodale und agentic Fähigkeiten

Über Texte hinaus ist Grok-3 ein leistungsstarkes vision-model, das technische Diagramme, Baupläne und visuelle Daten interpretieren kann. Es unterstützt erweitertes Function-Calling für den Einsatz in autonomen agents. Mit einem Ergebnis von 83,9 % bei SWE-Bench Verified ist es eines der leistungsfähigsten modelle zur Lösung von Software-Engineering-Problemen in der Praxis.

Grok-3

Anwendungsfälle für Grok-3

Entdecken Sie die verschiedenen Möglichkeiten, Grok-3 für großartige Ergebnisse zu nutzen.

Echtzeit-Marktanalyse

Nutzt Live-Daten von X, um Finanzstimmungen und aktuelle Nachrichten für Investoren zu analysieren.

Wissenschaftliche Forschung auf PhD-Niveau

Löst STEM-Probleme auf Universitätsniveau und analysiert komplexe Literatur mithilfe von reasoning-Modi.

Wettbewerbsfähige Softwareentwicklung

Erzeugt produktionsreifen Code und löst GitHub-Issues mit hoher Genauigkeit.

Komplexe mathematische Beweise

Nutzt Test-Time-Compute, um mathematische Probleme auf Olympiade-Niveau zu lösen, die mehrstufige Deduktion erfordern.

Interpretation technischer Dokumente

Analysiert Baupläne und technische Handbücher durch sein multimodales vision-System.

Autonome agentic Logik

Dient als kognitiver Kern für agents, die eine hochpräzise Planung und Werkzeugnutzung erfordern.

Stärken

Einschränkungen

Reasoning auf Olympiade-Niveau: Erzielte im Deep Thinking-Modus ein perfektes Ergebnis von 100 % beim AIME 2025 math-benchmark.
Hoher ökologischer Fußabdruck: Das Training erforderte 200.000 GPUs und verbraucht etwa 150 MW Strom, was Bedenken hinsichtlich der Nachhaltigkeit aufwirft.
Massive Kontextkapazität: Bietet ein context window von 1 Million tokens, das die Verarbeitung ganzer Bibliotheken oder Softwareprojekte ermöglicht.
Premium API-Preisgestaltung: Mit $15 pro Million Output-tokens ist es deutlich teurer als kleinere frontier-Alternative.
Unübertroffene Echtzeit-Daten: Die direkte Integration mit X bietet den aktuellsten Datenstrom aller derzeit verfügbaren AI-Modelle.
Output-token-Limits: Antworten sind im Allgemeinen auf 4.096 tokens begrenzt, was extrem lange Berichte oder Codedateien abschneiden kann.
Hohe Präzision beim Programmieren: Erzielte 83,9 % bei SWE-Bench Verified und übertraf damit große Konkurrenten bei der Lösung komplexer GitHub-Issues.
Zugangsbeschränkungen: Die vollen model-Funktionen und API-Keys sind oft auf X Premium Plus-Abonnenten oder spezifische Regionen beschränkt.

API-Schnellstart

xai/grok-3

Dokumentation anzeigen
xai SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "grok-3",
    messages: [{ role: "user", content: "Analysiere die aktuelle Marktstimmung für Nvidia auf X." }],
  });

  console.log(completion.choices[0].message.content);
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Grok-3 sagen

Sehen Sie, was die Community über Grok-3 denkt

Grok-3 [ist] das beste model für Trader und Investoren aufgrund seiner Echtzeit-Stimmungsanalyse.
Austin Starks
reddit
Es hat einige schwierige HVM-Codevervollständigungs-prompts gelöst, an denen Gemini und Sonnet gescheitert sind. Ich habe das Gefühl, die 'Qualität' ist höher als bei Sonnet-3.5.
Victor Taelin
twitter
Die Geschwindigkeit ist verdammt hoch. Reasoning, Echtzeit-Informationen – es scheint das schnellste flagship-model zu sein, das es derzeit gibt.
Matthew Berman
youtube
Grok hat Zugriff auf Echtzeit-Daten und die Bereitschaft, Dinge zu tun, die andere modelle nicht tun, was es zur 'kantigen' Wahl für Power-User macht.
Beginning-Willow-801
reddit
Die Leistung von Grok-3 bei GPQA ist bemerkenswert. Es kämpft definitiv um den Spitzenplatz beim reasoning.
EpochAIResearch
twitter
Das 1M context window funktioniert tatsächlich. Es hat meine gesamte Legacy-Codebasis verarbeitet, ohne den Kontext der ersten prompts zu verlieren.
DevGuru42
hackernews

Videos über Grok-3

Schauen Sie Tutorials, Rezensionen und Diskussionen über Grok-3

Einführung in Grok-3 und dessen Trainingsumfang.

Das model wurde für Intelligenz und Wahrheitssuche entwickelt.

Das reasoning von Grok 3... scheint sowohl das 01-model von OpenAI als auch das DeepSeek R1-model bei wissenschaftlichen benchmarks zu schlagen.

Die benchmark-Leistung auf MMLU zeigt, dass es ein top-tier-model ist.

Grok 3 wird tatsächlich versuchen, ungelöste Probleme zu lösen... während andere modelle einfach angeben, dass es ungelöst ist.

Elon Musk behauptet, dies sei die bisher leistungsstärkste KI.

Grok 3 hat nun den ersten Platz in diesem Blindtest belegt und ist damit der amtierende Champion in der Chatbot Arena.

Die Integration mit X bietet einen deutlichen Vorteil bei der Aktualität.

Die multimodalen Fähigkeiten sind gegenüber Grok-2 deutlich verbessert.

Die leistungsstärkste Version von Grok und die neueste Version wird die Web-Version auf grok.com sein.

Erkundung der technischen Architektur des Colossus-Clusters.

Diskussion über das massive 100k H100 GPU-Training.

Big Brain ist ein Feature, das für Grok 3 wirklich einzigartig ist... es ermöglicht Nutzern, mehrere reasoning-agents zur Lösung komplexer Probleme einzusetzen.

Die Entwicklung von Grok 3 wurde durch den Colossus-Supercomputer von X beschleunigt, der in Phase 1 100.000 Nvidia H100 GPUs nutzte.

Abschließende Gedanken dazu, warum Grok-3 ein großer Schritt nach vorne für die Transparenz im Stil von open-source-weights ist.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Grok-3

Expertentipps, um das Beste aus Grok-3 herauszuholen.

Deep Search nutzen

Verwenden Sie die Deep Search für Abfragen zu Nachrichten der letzten Stunde, um die präzisesten Ergebnisse zu erhalten.

High Reasoning aktivieren

Legen Sie den reasoning-Aufwand für mathematische Rätsel auf „hoch“ fest, um die Selbstverifizierungsschritte auszulösen.

Collections API verwenden

Laden Sie sensible Dokumente über die Collections API hoch, damit Ihre Daten nicht in den Trainingskreislauf gelangen.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Häufig gestellte Fragen zu Grok-3

Finden Sie Antworten auf häufige Fragen zu Grok-3