xai

Grok-4

Grok-4 von xAI ist ein frontier model mit einem 2M-token-context-window, Echtzeit-X-Plattform-Integration und weltrekordverdächtigen Reasoning-Fähigkeiten.

xai logoxaiGrok9. Juli 2025
Kontext
2.0MToken
Max. Ausgabe
8KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
87.5%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Grok-4 erreichte 87.5% bei diesem Benchmark.
HLE
44.4%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Grok-4 erreichte 44.4% bei diesem Benchmark.
MMLU
94%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Grok-4 erreichte 94% bei diesem Benchmark.
MMLU Pro
81.2%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Grok-4 erreichte 81.2% bei diesem Benchmark.
SimpleQA
48%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Grok-4 erreichte 48% bei diesem Benchmark.
IFEval
89.2%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Grok-4 erreichte 89.2% bei diesem Benchmark.
AIME 2025
100%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Grok-4 erreichte 100% bei diesem Benchmark.
MATH
92%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Grok-4 erreichte 92% bei diesem Benchmark.
GSM8k
98.4%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Grok-4 erreichte 98.4% bei diesem Benchmark.
MGSM
92.1%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Grok-4 erreichte 92.1% bei diesem Benchmark.
MathVista
72.4%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Grok-4 erreichte 72.4% bei diesem Benchmark.
SWE-Bench
81%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Grok-4 erreichte 81% bei diesem Benchmark.
HumanEval
88%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Grok-4 erreichte 88% bei diesem Benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Grok-4 erreichte 79.4% bei diesem Benchmark.
MMMU
75%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Grok-4 erreichte 75% bei diesem Benchmark.
MMMU Pro
59.2%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Grok-4 erreichte 59.2% bei diesem Benchmark.
ChartQA
90.5%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Grok-4 erreichte 90.5% bei diesem Benchmark.
DocVQA
93.2%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Grok-4 erreichte 93.2% bei diesem Benchmark.
Terminal-Bench
54.2%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Grok-4 erreichte 54.2% bei diesem Benchmark.
ARC-AGI
15.9%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Grok-4 erreichte 15.9% bei diesem Benchmark.

Über Grok-4

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Grok-4.

Modell-Übersicht

Grok-4 ist das frontier-multimodale-model von xAI. Es wurde entwickelt, um First-Principles-Reasoning und den Abruf von Informationen in Echtzeit zu priorisieren. Durch die native Integration in die soziale Plattform X erhält das model einen erheblichen Wettbewerbsvorteil. Es ist in der Lage, globale Konversationen und Nachrichten live zu analysieren, während sie stattfinden. Für das Training kommt der Colossus-Supercomputer zum Einsatz, was zu einer erstklassigen Leistung in mathematischen und technischen Bereichen führt.

Technische Fähigkeiten

Die Architektur unterstützt in ihren reasoning-Varianten ein 2-Millionen-token-context-window. Diese Kapazität ermöglicht die Verarbeitung massiver Codebasen und dichter technischer Dokumentationen ohne Datenverlust. Das duale System erlaubt Nutzern die Wahl zwischen einem Hochgeschwindigkeitsmodus für schnelle Interaktionen und einem Deep-Thinking-Modus für logische Mehrschritt-Aufgaben. Durch einen Multi-Agenten-Konsensmechanismus in der Heavy-Konfiguration erreicht das model eine Halluzinationsrate von etwa 4 %.

Ökosystem-Integration

Über die einfache Textgenerierung hinaus ist Grok-4 auf natives tool use und komplexes function calling ausgelegt. Es unterstützt die Bild- und Audioverarbeitung und ist somit eine vielseitige Wahl für Entwickler, die multimodale Applikationen erstellen. Die Alignment-Strategie konzentriert sich auf objektive Wahrheitsfindung statt auf branchenübliche Sicherheits-Guardrails. Dies führt zu weniger Ablehnungen bei kontroversen oder provokanten Themen im Vergleich zu anderen frontier models.

Grok-4

Anwendungsfälle für Grok-4

Entdecken Sie die verschiedenen Möglichkeiten, Grok-4 für großartige Ergebnisse zu nutzen.

Echtzeit-Stimmungsanalyse

Analysiert Live-Beiträge auf X, um die öffentliche Reaktion auf Eilmeldungen oder Produkteinführungen zu bestimmen.

Umfassende Repository-Prüfung

Evaluiert ganze Software-Repositories mithilfe des 2M-token-Fensters, um architektonische Schwachstellen aufzudecken.

Mathematisches Problemlösen auf Olympiade-Niveau

Liefert Schritt-für-Schritt-Lösungen für komplexe mathematische Beweise und Probleme auf AIME-Niveau.

Ungefilterte kreative Inhalte

Generiert charaktergesteuerte Skripte und Humor ohne die restriktiven Filter anderer AI-Anbieter.

Synthese wissenschaftlicher Forschung

Fasst mehrere akademische Arbeiten auf PhD-Niveau gleichzeitig zusammen und bewahrt dabei die technische Genauigkeit.

Technisches Debugging

Identifiziert schwer zu findende Fehler in Produktionscode und schlägt Korrekturen basierend auf aktuellen Best Practices vor.

Stärken

Einschränkungen

Erstklassiges mathematisches Reasoning: Erreichte 100% auf dem AIME 2025 benchmark und übertrifft die meisten frontier models in der Logik.
Latenz im Heavy-Modus: Der Multi-Agent-Reasoning-Modus kann mehrere Minuten benötigen, um eine Antwort mit höchster Genauigkeit zu generieren.
Branchenführendes Context: Das 2M-token-Fenster ermöglicht eine beispiellose Tiefe bei der Dokumentenanalyse und bei umfangreichen Coding-Projekten.
Unvollständige Video-Unterstützung: Während Text- und Bildfähigkeiten erstklassig sind, ist die native frame-by-frame Videoverarbeitung noch nicht verfügbar.
Live-Social-Intelligence: Der direkte Zugriff auf die X-Plattform liefert Informationen in Echtzeit, die statische Trainingsdaten nicht replizieren können.
Eingeschränkter regionaler Zugriff: Funktionen für dauerhaftes Gedächtnis sind in der Europäischen Union aufgrund regulatorischer Anforderungen derzeit deaktiviert.
Niedrige Ablehnungsrate: Eine permissivere Sicherheitsarchitektur ermöglicht einen ehrlichen, objektiven Dialog über kontroverse Themen.
Grenzen der Vision-Präzision: Die Entwickler geben an, dass das model bei der Interpretation extrem hochauflösender visueller Details teilweise noch Einschränkungen aufweist.

API-Schnellstart

xai/grok-4

Dokumentation anzeigen
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Suche auf X nach den neuesten Nachrichten zu SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Grok-4 sagen

Sehen Sie, was die Community über Grok-4 denkt

Grok 4 fast hat ein 2M-token-Fenster!!! Warum wir uns bisher mit ChatGPT abgequält haben, weiß ich wirklich nicht mehr.
myfuturewifee
reddit
15,88 % im privaten ARC-AGI v2-Teilsatz sind wahnsinnig. Grok 4 ist das erste model seit Monaten, das die 10 %-Hürde knackt.
Greg (ARC-AGI Lead)
twitter
Der Ansatz der Multi-Agenten-Lerngruppe in Grok 4 Heavy ist der richtige Weg, um test-time compute zu nutzen. Es findet tatsächlich den Dreh bei dem Problem.
Tony_xAI
twitter
Grok 4: 79 bei LiveCodeBench... benchmarks sagen nicht aus, wie es sich anfühlt, mit einem model zu coden, aber das hier fühlt sich vertrauenswürdig an.
thankzr3ddit
reddit
Das model ist in allem auf Post-Graduate- bzw. PhD-Niveau. Es ist beängstigend schlau und lernt schneller, als jeder Mensch könnte.
Elon Musk
youtube
Die Echtzeit-Suche crawlt nicht nur Schlagzeilen; sie analysiert Inhalte über mehrere Quellen hinweg.
BitBiasedAI
youtube

Videos über Grok-4

Schauen Sie Tutorials, Rezensionen und Diskussionen über Grok-4

Grok 4 Heavy ist für aufwendigere Logik- und Reasoning-Aufgaben gedacht, während das reguläre Grok 4 andere Aufgaben übernimmt.

Es hat meine Hand und Finger absolut präzise verfolgt, um auf dem Bildschirm zu zeichnen.

Grok 4 fand das Passwort, das ich tief im context window versteckt hatte, nach nur 15 Sekunden Bedenkzeit.

Die Genauigkeit beim 'Needle in a Haystack'-Test mit 2 Millionen tokens lag bei 100 %.

Dieses model ist endlich eine echte Alternative für diejenigen, die das context window von Gemini für unzuverlässig hielten.

Grok 4 ist auf Post-Graduate- bzw. PhD-Niveau in allem, besser als die meisten Doktoren.

Grok 4 Heavy erzeugt mehrere agentic-Prozesse parallel... es ist wie eine Lerngruppe.

Es ist über die API verfügbar und hat eine Kontaktlänge von 256k, mit Plänen für deutlich mehr.

Das Training auf dem Colossus-Cluster hat ihm Reasoning-Fähigkeiten verliehen, die wir so noch nicht gesehen haben.

Es wurde entwickelt, um die wahrheitsorientierteste AI zu sein, die derzeit existiert.

Grok 4 Heavy lässt bis zu 32 parallele AI-models für Ihren einen prompt laufen.

Die Echtzeit-Suche crawlt nicht nur Schlagzeilen; sie analysiert Inhalte über mehrere Quellen hinweg.

Der Think-Mode verwendet zusätzliche Rechenzeit, um zu planen und potenzielle Fehler vor der Antwort zu erkennen.

Wenn Sie API-Zugriff haben, können Sie in den Logs tatsächlich sehen, wie die agents miteinander diskutieren.

Die multimodale Leistung bei Audio ist spürbar schneller als bei der vorherigen Generation.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Grok-4

Expertentipps, um das Beste aus Grok-4 herauszuholen.

Such-Keywords verwenden

Fügen Sie spezifische Hashtags oder Accounts in Ihren prompt ein, um die Echtzeit-Suche auf X des models gezielt zu steuern.

In den Heavy-Modus wechseln

Aktivieren Sie Grok-4 Heavy für Aufgaben, bei denen Genauigkeit wichtiger ist als die Antwortgeschwindigkeit.

Detaillierte Personas bereitstellen

Nutzen Sie das permissive Sicherheits-Alignment, indem Sie spezifische, provokante Personas für kreatives Schreiben definieren.

Externe Links analysieren

Fügen Sie Live-URLs direkt in den Chat ein, damit das model aktuelle Webinhalte abrufen und zusammenfassen kann.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Häufig gestellte Fragen zu Grok-4

Finden Sie Antworten auf häufige Fragen zu Grok-4