xai

Grok-3

Grok-3 ist das Flaggschiff-reasoning model von xAI mit tiefgehender logischer Deduktion, einem 128k context window und Echtzeit-Integration in X für...

xai logoxaiGrokFebruary 17, 2025
Kontext
128KToken
Max. Ausgabe
8KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
84.6%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Grok-3 erreichte 84.6% bei diesem Benchmark.
HLE
36%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Grok-3 erreichte 36% bei diesem Benchmark.
MMLU
87.5%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Grok-3 erreichte 87.5% bei diesem Benchmark.
MMLU Pro
76.5%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Grok-3 erreichte 76.5% bei diesem Benchmark.
SimpleQA
42%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Grok-3 erreichte 42% bei diesem Benchmark.
IFEval
91.2%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Grok-3 erreichte 91.2% bei diesem Benchmark.
AIME 2025
93.3%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Grok-3 erreichte 93.3% bei diesem Benchmark.
MATH
94.4%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Grok-3 erreichte 94.4% bei diesem Benchmark.
GSM8k
98.7%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Grok-3 erreichte 98.7% bei diesem Benchmark.
MGSM
92.4%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Grok-3 erreichte 92.4% bei diesem Benchmark.
MathVista
71.3%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Grok-3 erreichte 71.3% bei diesem Benchmark.
SWE-Bench
49%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Grok-3 erreichte 49% bei diesem Benchmark.
HumanEval
94.5%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Grok-3 erreichte 94.5% bei diesem Benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Grok-3 erreichte 79.4% bei diesem Benchmark.
MMMU
78%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Grok-3 erreichte 78% bei diesem Benchmark.
MMMU Pro
58.5%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Grok-3 erreichte 58.5% bei diesem Benchmark.
ChartQA
89.2%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Grok-3 erreichte 89.2% bei diesem Benchmark.
DocVQA
92.4%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Grok-3 erreichte 92.4% bei diesem Benchmark.
Terminal-Bench
52%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Grok-3 erreichte 52% bei diesem Benchmark.
ARC-AGI
12.5%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Grok-3 erreichte 12.5% bei diesem Benchmark.

Über Grok-3

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Grok-3.

Frontier-reasoning und Intelligenz

Grok-3 stellt einen monumentalen Sprung in der künstlichen Intelligenz dar. Es wurde auf dem Colossus-Supercomputing-Cluster von xAI mit über 100.000 NVIDIA H100 GPUs trainiert. Das model wurde speziell darauf ausgelegt, in komplexer Logik, mathematischer Deduktion und anspruchsvollem Software-Engineering zu brillieren. Im Gegensatz zu herkömmlichen Modellen, die eine schnelle Antwortgenerierung priorisieren, verfügt Grok-3 über einen spezialisierten Deep Thinking Modus, der massives test-time compute nutzt, um seine eigenen internen reasoning-Schritte zu verifizieren, bevor das Endergebnis geliefert wird.

Echtzeit-Wissensintegration

Ein wesentliches Alleinstellungsmerkmal von Grok-3 ist der unvergleichliche Zugriff auf den Echtzeit-Datenstrom der X-Plattform. Dies ermöglicht dem model, aktuelle Nachrichten, Finanzmarktbewegungen und globale Trends innerhalb von Sekunden zu synthetisieren, während andere Modelle auf Knowledge Cutoffs oder langsamere Websuch-Tools angewiesen sind. Dieses Echtzeit-Bewusstsein, gepaart mit einem 128.000-token context window, macht es zu einem unverzichtbaren Werkzeug für Marktforscher und Data Scientists, die auf aktuellste Erkenntnisse angewiesen sind.

Multimodale und agentic Fähigkeiten

Über Text und Logik hinaus ist Grok-3 ein leistungsstarkes multimodales Vision-model, das in der Lage ist, komplexe technische Diagramme, Baupläne und visuelle Daten mit frontier-level Präzision zu interpretieren. Es unterstützt fortgeschrittenes function calling und Tool-Nutzung, was es ihm ermöglicht, als kognitive Engine für autonome Agenten zu fungieren. Mit einem Score von 94,5 % im HumanEval gilt es derzeit als einer der fähigsten Coding-Assistenten auf dem Markt und konkurriert mit den Besten im Bereich autonomes Debugging und architektonisches Refactoring oder übertrifft diese sogar.

Grok-3

Anwendungsfälle für Grok-3

Entdecken Sie die verschiedenen Möglichkeiten, Grok-3 für großartige Ergebnisse zu nutzen.

Fortgeschrittenes Software-Engineering

Lösen komplexer Architekturprobleme und Refactoring ganzer Codebasen mit tiefem reasoning und 94,5 % HumanEval-Genauigkeit.

Echtzeit-Marktanalyse

Nutzung von Live-Daten von X, um aktuelle Finanznachrichten und die Verbraucherstimmung schneller als herkömmliche Suchmaschinen zusammenzufassen.

Wissenschaftliche Datensynthese

Verarbeitung tausender Seiten akademischer Fachzeitschriften im Deep Research Modus, um neue Forschungszusammenhänge und Hypothesen zu identifizieren.

Multimodale Dokumentenanalyse

Interpretation komplexer technischer Diagramme, Baupläne und Finanzgrafiken mit frontier-level Vision-Fähigkeiten.

Tutorien auf Wettbewerbsniveau

Aufschlüsselung komplexer Mathematik- und Physikaufgaben auf Olympiade-Niveau in verständliche, verifizierte Schritte mittels Think-Modus.

Agentic Workflow-Automatisierung

Einsatz als Kernmodul für autonome Agenten, die präzises function calling und Tool-Nutzung in Produktionsumgebungen erfordern.

Stärken

Einschränkungen

Überlegenes Reasoning: Übertrifft führende Wettbewerber bei komplexen Mathematik-benchmarks wie AIME 2025 (93,3 %) und MATH (94,4 %).
Hohe Latency im Thinking-Modus: Komplexe reasoning prompts können im Think-Modus über 60 Sekunden dauern, bis eine verifizierte Antwort generiert wird.
Integrierter Deep Research: Verfügt über eine einzigartige Websuche, die Live-Daten von X deutlich schneller als Konkurrenzprodukte synthetisiert.
Kein natives Video oder Audio: Fehlt die Echtzeit-multimodale Audio- und Videoverarbeitung, wie sie in Modellen wie Gemini 2.0 zu finden ist.
Elite-Coding-Performance: Erreicht 94,5 % im HumanEval, was es zur ersten Wahl für autonome Softwareentwicklung und Debugging macht.
Strikte Nutzungskontingente: Die Nachrichtenlimits für Premium+-Abonnenten sind während Stoßzeiten derzeit niedriger als bei einigen etablierten Wettbewerbern.
Transparente Thinking Traces: Ermöglicht es Nutzern, die Logik des Modells Schritt für Schritt nachzuvollziehen, was das Vertrauen stärkt und das Debugging komplexer Fehler erleichtert.
Beta-Stabilitätsprobleme: Nutzer können gelegentlich auf Serverfehler oder abgebrochene Thinking Traces bei hohem Traffic stoßen.

API-Schnellstart

xai/grok-3

Dokumentation anzeigen
xai SDK
import OpenAI from "openai";

const xai = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1"
});

const response = await xai.chat.completions.create({
  model: "grok-3",
  messages: [{ role: "user", content: "Analyze current X trends for AGI." }],
  stream: true
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Grok-3 sagen

Sehen Sie, was die Community über Grok-3 denkt

"Grok-3's Deep Research ist deutlich schneller und genauer als die Version von OpenAI"
TechEnthusiast
x
"Die Coding-Performance ist absolut wahnsinnig; es hat einen Bug, an dem ich stundenlang festsaß, in Sekunden behoben"
DevLife
reddit
"Grok-3 ist wohl das fortschrittlichste reasoning model, das heute verfügbar ist"
DataCamp
youtube
"Die Thinking Traces sehen sehr nach DeepSeek aus, aber die Geschwindigkeit ist auf einem ganz anderen Level"
AIResearcher
hackernews
"Die Vision-Fähigkeiten bei technischen Bauplänen sind endlich für echte Ingenieursarbeit nutzbar"
EngDesign
reddit
"Die X-Integration bietet einen riesigen Vorteil für jeden, der Krypto- oder Börsen-Sentiment in Echtzeit verfolgt"
FinancePro
x

Videos über Grok-3

Schauen Sie Tutorials, Rezensionen und Diskussionen über Grok-3

Grok 3 ist wohl das fortschrittlichste reasoning model, das heute verfügbar ist

Die Ausgabequalität war weitaus besser als bei der Deep Search Funktion von OpenAI

Die Geschwindigkeit des Deep Research Modus ist im Vergleich zu o1 ziemlich beeindruckend

Man kann sehen, wie das model gleichzeitig mehrere Suchergebnisse durcharbeitet

Dies ist ein signifikanter Sprung im Vergleich zu Grok-2 in Bezug auf logische Konsistenz

Grok 3 und Grok 3 mini sind besser als alle bisher veröffentlichten reasoning models

Die Logik ist bestechend... das ist das menschenähnlichste reasoning, das ich je gesehen habe

Der interne Thinking Trace bietet einen viel klareren Blick auf die Logik

Es rät nicht einfach nur; es überprüft seine Arbeit, was das Markenzeichen von System-2-Denken ist

Die Mathematik-Leistung in den AIME-benchmarks ist wirklich state-of-the-art

In diesen benchmarks sieht man, dass Grok 3 tatsächlich auf der ganzen Linie sehr gut abschneidet

Im Vergleich zu anderen Wettbewerbern ist es sehr vielversprechend

Die Coding-Performance ist hier die eigentliche Sensation und hält mit den Besten der Branche mit

Es bewältigt architektonische Refactoring-Aufgaben, an denen frühere Versionen gescheitert sind

Die Integration mit der X-API macht es für aktuelle Ereignisse einzigartig leistungsstark

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows
Demo-Video ansehen

Pro-Tipps für Grok-3

Expertentipps, um das Beste aus Grok-3 herauszuholen.

Deep Thinking aktivieren

Schalten Sie bei Mathematik- oder Logikaufgaben immer den Think-Modus ein, um eine schrittweise Verifizierung durch test-time compute sicherzustellen.

X-Integration nutzen

Verwenden Sie gezielte Abfragen zu aktuellen Nachrichten oder Ereignissen, um Daten zu erhalten, auf die andere LLMs aufgrund von Knowledge Cutoffs nicht zugreifen können.

Thinking Traces inspizieren

Überprüfen Sie die internen Denkprozesse, um genau zu sehen, wofür das model seine Rechenleistung aufwendet und um den logischen Pfad zu verifizieren.

Vision für UI

Laden Sie Screenshots von UI-Designs hoch und bitten Sie Grok, den entsprechenden React- oder Tailwind-Code für schnelles Front-End-Prototyping zu generieren.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Häufig gestellte Fragen zu Grok-3

Finden Sie Antworten auf häufige Fragen zu Grok-3