openai

GPT-5.4

GPT-5.4 ist das Frontier-Modell von OpenAI mit 1,05 Mio. tokens Kontext und Extreme-Reasoning. Es zeichnet sich durch autonome UI-Interaktion und Datenanalyse...

OpenAIGPT-51M KontextReasoningMultimodal
openai logoopenaiGPT-55. März 2026
Kontext
1.1MToken
Max. Ausgabe
128KToken
Eingabepreis
$2.50/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
84.2%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). GPT-5.4 erreichte 84.2% bei diesem Benchmark.
HLE
42%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. GPT-5.4 erreichte 42% bei diesem Benchmark.
MMLU
91%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. GPT-5.4 erreichte 91% bei diesem Benchmark.
MMLU Pro
76%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. GPT-5.4 erreichte 76% bei diesem Benchmark.
SimpleQA
56.7%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. GPT-5.4 erreichte 56.7% bei diesem Benchmark.
IFEval
92%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. GPT-5.4 erreichte 92% bei diesem Benchmark.
AIME 2025
100%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. GPT-5.4 erreichte 100% bei diesem Benchmark.
MATH
88.6%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. GPT-5.4 erreichte 88.6% bei diesem Benchmark.
GSM8k
99%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. GPT-5.4 erreichte 99% bei diesem Benchmark.
MGSM
96%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. GPT-5.4 erreichte 96% bei diesem Benchmark.
MathVista
74%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. GPT-5.4 erreichte 74% bei diesem Benchmark.
SWE-Bench
52.8%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). GPT-5.4 erreichte 52.8% bei diesem Benchmark.
HumanEval
85.1%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. GPT-5.4 erreichte 85.1% bei diesem Benchmark.
LiveCodeBench
72.5%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. GPT-5.4 erreichte 72.5% bei diesem Benchmark.
MMMU
84.2%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. GPT-5.4 erreichte 84.2% bei diesem Benchmark.
MMMU Pro
61%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. GPT-5.4 erreichte 61% bei diesem Benchmark.
ChartQA
89%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. GPT-5.4 erreichte 89% bei diesem Benchmark.
DocVQA
94%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. GPT-5.4 erreichte 94% bei diesem Benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. GPT-5.4 erreichte 55% bei diesem Benchmark.
ARC-AGI
52.9%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. GPT-5.4 erreichte 52.9% bei diesem Benchmark.

Über GPT-5.4

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von GPT-5.4.

Die Grenze des Long-Context-Reasoning

GPT-5.4 stellt die leistungsstarke Weiterentwicklung der GPT-5-Serie dar. Es verfügt über ein branchenführendes 1,05-Millionen-token context window. Dieses Modell bewältigt umfangreiche Datensätze, wie riesige Code-Repositories oder mehrjährige historische Logs, ohne die reasoning-Genauigkeit zu verlieren. Durch das interaktive Mid-Response Steering können Benutzer den Denkplan des Modells in Echtzeit überwachen und anpassen. Dies stellt sicher, dass das Ergebnis mit komplexen, mehrstufigen Absichten übereinstimmt.

Einheitliche Intelligenz und autonomes Handeln

Technisch vereint GPT-5.4 die erstklassigen Programmierstärken früherer Codex-Zweige mit den kreativen Nuancen der Standard-GPT-5-Serie. Es verfügt über einen spezialisierten Thinking-Modus mit anpassbaren Aufwandsebenen. Dazu gehören die Modi Standard, Extended und Heavy. Es nutzt eine verstärkte Chain-of-Thought-Verarbeitung, um wissenschaftliche und logische Probleme auf PhD-Niveau zu lösen. Über Text hinaus führt GPT-5.4 native Computer-Use-Fähigkeiten ein. Es erzielt einen Wert von 75 % bei OSWorld-verifizierten Aufgaben, indem es visuelle Screenshots interpretiert und koordinatenbasierte Klicks ausführt.

Effizienz und Zuverlässigkeit

OpenAI berichtet von einer 33%igen Verringerung von Fehlern auf Anspruchsebene im Vergleich zu Vorgängern. Dies macht GPT-5.4 zur ersten Wahl für autonome Agenten und Entscheidungsunterstützung bei risikoreichen Projekten. Es wurde auf token- und Energieeffizienz optimiert. Dies ermöglicht eine kostengünstigere Long-Context-Verarbeitung als frühere Iterationen. Egal, ob es eine gesamte Unternehmens-Codebase verwaltet oder als autonomer Planungsagent fungiert: GPT-5.4 setzt einen neuen Standard für Zuverlässigkeit und agentic Performance.

GPT-5.4

Anwendungsfälle für GPT-5.4

Entdecken Sie die verschiedenen Möglichkeiten, GPT-5.4 für großartige Ergebnisse zu nutzen.

Umfassendes Code-Refactoring

Systematisches Umschreiben von Legacy-Codebasen mit über 300.000 Zeilen unter strikter Einhaltung architektonischer Standards.

Autonome Finanzmodellierung

Erstellung komplexer Drei-Jahres-Modelle, bei denen die KI Gewinn- und Verlustrechnungen, Bilanzen und Cashflows abgleicht.

Interaktives Systemdesign

Entwicklung von 3D-Simulationen oder physikbasierten Spielen durch Steuerung des Modell-Logikpfads während des Generierungsprozesses.

Agentic Computer Use

Ausführung mehrstufiger Desktop-Aufgaben wie Massendateneingabe, E-Mail-Verwaltung und Softwaretests durch native UI-Interaktion.

Long-Context Rechtsanalyse

Abgleich hunderter juristischer Dokumente, um Inkonsistenzen zu identifizieren oder spezifische Klauseln mit hoher Genauigkeit zu extrahieren.

Forschungsunterstützung auf PhD-Niveau

Lösung komplexer mathematischer Beweise und wissenschaftlicher Probleme im Heavy-Reasoning-Modus für verifizierte logische Ketten.

Stärken

Einschränkungen

Massiver 1,05 Mio. Kontext: Bietet eine branchenführende Kapazität für die tiefgehende Analyse riesiger Codebasen und Dokumentensätze ohne Kontext-Verlust.
Reasoning-Latency: Die Aktivierung des Heavy-Thinking-Modus kann bei komplexer Logik oder großen Code-Generierungen zu Wartezeiten von mehreren Minuten führen.
Interaktives Thinking: Die einzigartige Navigation während der Antwort ermöglicht es Benutzern, reasoning-Pfade zu steuern, was verschwendete Generierungen und tokens erheblich reduziert.
Ratenbegrenzung: Während der ersten Rollout-Phase können Benutzer bei der Skalierung der Kapazität auf strikte Nachrichtenlimits oder vorübergehende Account-Fehler stoßen.
Nativer Computer Use: Hochpräzise UI-Interaktion (75 % bei OSWorld) ermöglicht es dem Modell, direkt in Desktop- und Browser-Umgebungen zu arbeiten.
Nicht-lineare Skalierung: Bei einigen kreativen Aufgaben haben leichtere reasoning-Modi bei ästhetischen Details teilweise besser abgeschnitten als Heavy-Modi.
Extreme token-Effizienz: Die optimierte Architektur liefert 2026-Frontier-Performance mit geringerer latency und niedrigerem Energieverbrauch als frühere GPT-5-Versionen.
Kontext-Schwund bei 1 Mio.: Obwohl das Fenster groß ist, sinkt die Abrufgenauigkeit beim Übergang von 256K zu 1M tokens signifikant.

API-Schnellstart

openai/gpt-5.4

Dokumentation anzeigen
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über GPT-5.4 sagen

Sehen Sie, was die Community über GPT-5.4 denkt

GPT 5.4 in Codex ist eine riesige Verbesserung... Ich habe tatsächlich gesehen, wie es 150 Minuten am Stück gearbeitet hat, ohne den Kontext zu verlieren.
ArchMeta1868
reddit
Die 3D-Design-Fähigkeiten von GPT 5.4 sind unübertroffen. Die Art und Weise, wie es mit Transparenz und Physik in meinem Schiffssimulator umgegangen ist, war unheimlich präzise.
AI_Creative_Daily
twitter
Die Kurskorrektur während der Antwort ist unglaublich. Ich kann tatsächlich sehen, wohin das Modell steuert, und es korrigieren, bevor es tokens verschwendet.
dev_guru_99
reddit
Es schlug Menschen in 83 % der Fälle in 44 verschiedenen Berufen. Anwalt. Buchhalter. Finanzanalyst. Administrator.
Josh Kale
twitter
OpenAI hat endlich den output-Flaschenhals behoben. 128k output-tokens sind ein Traum für Entwickler, die Full-Stack-Anwendungen bauen.
TheCodeChannel
youtube
Die latency beim Computer Use ist zwar noch da, aber die Präzision ist hoch genug, um komplexe SAP-Workflows zu bewältigen, was verrückt ist.
enterprise_sysadmin
hackernews

Videos über GPT-5.4

Schauen Sie Tutorials, Rezensionen und Diskussionen über GPT-5.4

GPT 5.4 ist da und wir haben möglicherweise ein neues bestes Modell auf dem Planeten.

GPT 5.4 Thinking kann jetzt einen Plan für seinen Denkprozess bereitstellen... das erlaubt es, das Modell zu führen.

Dieses interaktive Element löst das Black-Box-Problem von reasoning-Modellen.

Die Geschwindigkeit ist im Vergleich zu o1-preview bei Standardaufgaben ein gewaltiger Unterschied.

Sie sehen ein reasoning, das sich über lange Konversationen hinweg tatsächlich konsistent anfühlt.

GPT 5.4... wurde nicht zum Chatten gebaut. Es wurde gebaut, um zu arbeiten.

Deferred Loading... reduzierte den gesamten token-Verbrauch um 47 % ohne Genauigkeitsverlust.

Die Computer-Use-Funktionalität verfolgt UI-Elemente mit einem koordinatenbasierten System.

Ich habe es mit einer Legacy-Java-Codebase getestet und es hat tatsächlich die dateiübergreifenden Abhängigkeiten verstanden.

Wir bewegen uns in eine Welt, in der die KI der Controller des Betriebssystems ist.

1 Million 50.000 token context window. Das ist ein sehr langes context window.

Man kann während des Denkprozesses navigieren, was definitiv effizienter in der Nutzung ist.

Die Preisgestaltung ist happig, aber für große Dokumentensätze ist es das einzige Modell, das funktioniert.

Der Thinking-Modus kann basierend auf der Komplexität Ihres prompts angepasst werden.

Es fühlt sich beim faktischen Abruf zuverlässiger an als jede frühere GPT-Version.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für GPT-5.4

Expertentipps, um das Beste aus GPT-5.4 herauszuholen.

Thinking-Aufwand anpassen

Verwenden Sie die Parameter Standard, Extended oder Heavy, um die Genauigkeit gegen Generierungsgeschwindigkeit und Kosten abzuwägen.

Den Thinking-Plan überprüfen

Überwachen Sie den vom Modell bereitgestellten Plan und nutzen Sie Mid-Response Steering, um ihn zu korrigieren, falls die Logik abweicht.

Deferred Tool Loading nutzen

Nutzen Sie für agentic Workflows die Registry für verzögertes Laden, um die initialen token-Kosten um bis zu 47 % zu senken.

Vollständigkeits-Verträge (Completeness Contracts) nutzen

Definieren Sie in Ihrem prompt explizit, was als "fertig" gilt, damit das Modell bei langwierigen Aufgaben beharrlicher bleibt.

Vision mit maximaler Auflösung

Laden Sie hochauflösende Bilder mit bis zu 10,24 Mio. Pixeln für präzise visuelle Inspektionen von UI-Elementen oder technischen Diagrammen hoch.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Häufig gestellte Fragen zu GPT-5.4

Finden Sie Antworten auf häufige Fragen zu GPT-5.4