openai

GPT-5.3 Codex

GPT-5.3 Codex ist OpenAI's frontier Coding-Agent für 2026, mit 400K context window, 77,3 % Terminal-Bench Score und überlegener Logik für komplexe Software...

Coding-AgentGPT-5OpenAISoftware-EngineeringAutonome KI
openai logoopenaiGPT-5February 5, 2026
Kontext
400KToken
Max. Ausgabe
128KToken
Eingabepreis
$1.75/ 1M
Ausgabepreis
$14.00/ 1M
Modalität:TextImageAudioVideo
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
81%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). GPT-5.3 Codex erreichte 81% bei diesem Benchmark.
HLE
36%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. GPT-5.3 Codex erreichte 36% bei diesem Benchmark.
MMLU
93%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. GPT-5.3 Codex erreichte 93% bei diesem Benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. GPT-5.3 Codex erreichte 83% bei diesem Benchmark.
SimpleQA
58%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. GPT-5.3 Codex erreichte 58% bei diesem Benchmark.
IFEval
94%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. GPT-5.3 Codex erreichte 94% bei diesem Benchmark.
AIME 2025
94%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. GPT-5.3 Codex erreichte 94% bei diesem Benchmark.
MATH
96%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. GPT-5.3 Codex erreichte 96% bei diesem Benchmark.
GSM8k
99%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. GPT-5.3 Codex erreichte 99% bei diesem Benchmark.
MGSM
96%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. GPT-5.3 Codex erreichte 96% bei diesem Benchmark.
MathVista
78%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. GPT-5.3 Codex erreichte 78% bei diesem Benchmark.
SWE-Bench
57%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). GPT-5.3 Codex erreichte 57% bei diesem Benchmark.
HumanEval
93%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. GPT-5.3 Codex erreichte 93% bei diesem Benchmark.
LiveCodeBench
71%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. GPT-5.3 Codex erreichte 71% bei diesem Benchmark.
MMMU
84%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. GPT-5.3 Codex erreichte 84% bei diesem Benchmark.
MMMU Pro
64%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. GPT-5.3 Codex erreichte 64% bei diesem Benchmark.
ChartQA
91%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. GPT-5.3 Codex erreichte 91% bei diesem Benchmark.
DocVQA
95%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. GPT-5.3 Codex erreichte 95% bei diesem Benchmark.
Terminal-Bench
77.3%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. GPT-5.3 Codex erreichte 77.3% bei diesem Benchmark.
ARC-AGI
54%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. GPT-5.3 Codex erreichte 54% bei diesem Benchmark.

Über GPT-5.3 Codex

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von GPT-5.3 Codex.

Eine neue Ära der autonomen Entwicklung

GPT-5.3 Codex ist OpenAI's leistungsfähigstes agentic Coding-model, das entwickelt wurde, um die Lücke zwischen statischer Code-Generierung und autonomem Software-Engineering zu schließen. Basierend auf der nächsten Generation der GPT-5-Architektur integriert es spezialisiertes Expertenwissen mit fortschrittlichem reasoning, um langfristige Aufgaben wie Systemadministration, Deployment-Überwachung und architektonische Refactorings zu bewältigen. Das model zeichnet sich durch seine Fähigkeit zur Steuerung während der Ausführung aus, was es Entwicklern ermöglicht, in Echtzeit mit dem Agenten zu interagieren und ihn durch komplexe Projekte zu führen.

Rekursive Intelligenz und Performance

Da es unter Verwendung seiner eigenen früheren Iterationen trainiert wurde, um das eigene Deployment zu debuggen und zu optimieren, stellt GPT-5.3 Codex einen bedeutenden Schritt in Richtung selbstverbessernder KI-Systeme dar. Es brilliert in Terminal-Bench 2.0-Umgebungen und demonstriert die Fähigkeit, Live-Terminals zu verwalten, Unit-Tests auszuführen und Bugs ohne menschliches Eingreifen iterativ zu beheben. Dieser rekursive Trainingsansatz hat zu einer hocheffizienten token-Nutzung und einem massiven 400.000-token context window geführt, das in der Lage ist, ganze Unternehmens-Repositories in einem einzigen Durchgang zu erfassen.

Nahtlose professionelle Integration

Verfügbar über eine dedizierte Codex-App, das CLI und IDE-Erweiterungen, ist das model für die tiefe Integration in moderne Workflows konzipiert. Es ist besonders effektiv bei der Identifizierung von Zero-Day-Exploits, der Optimierung von Daten-Pipeline-Architekturen und der Durchführung von Audits in Produktionsqualität für Legacy-Codebases. Mit seiner überlegenen Logik und wettbewerbsfähigen Preisgestaltung hat es sich schnell als Goldstandard für anspruchsvolle Software-Engineering-Aufgaben etabliert.

GPT-5.3 Codex

Anwendungsfälle für GPT-5.3 Codex

Entdecken Sie die verschiedenen Möglichkeiten, GPT-5.3 Codex für großartige Ergebnisse zu nutzen.

Autonomes Software-Engineering

Architektur und Erstellung modularer Softwareprojekte über mehrere Dateien hinweg basierend auf High-Level-Spezifikationen.

Auditierung von Production-Code

Analyse von Live-Codebases auf Concurrency-Probleme, Memory Leaks und technische Architektur-Schulden.

Echtzeit-DevOps-Automatisierung

Verwaltung terminalbasierter Workflows, einschließlich Server-Setup, Container-Deployment und Cluster-Skalierung.

Behebung von Cybersecurity-Schwachstellen

Identifizierung und Fixen von Zero-Day-Exploits und Software-Vulnerabilities mit leistungsfähiger Verteidigungslogik.

Interaktives Prototyping

Erstellung produktionsreifer Landingpages und Web-Apps aus handgezeichneten Wireframes oder unterdefinierten prompts.

Daten-Pipeline-Architektur

Rückverfolgung und Optimierung komplexer Datenflüsse über mehrere Verarbeitungsschichten und asynchrone Umgebungen hinweg.

Stärken

Einschränkungen

State-of-the-art Coding-Logik: Branchenführender Terminal-Bench 2.0 Score von 77,3 % und überlegene Performance im SWE-Bench Pro.
Komprimierte Details: Bevorzugt gelegentlich funktionale Kürze gegenüber extremer architektonischer Tiefe, wie sie in models wie o3-pro zu finden ist.
Unschlagbares Preis-Leistungs-Verhältnis: Liefert frontier agentic Fähigkeiten zu etwa 1/7 der Kosten des engsten Konkurrenten Opus 4.6.
Ästhetische Standards: Obwohl logisch einwandfrei, fehlt initialen UI-Designs für Apps manchmal der moderne visuelle Feinschliff.
Rekursive Selbstoptimierung: Entwickelt auf Basis der eigenen Architektur, um Bugs zu identifizieren und das Training zu optimieren, was zu hoher Effizienz führt.
Ressourcenlücken in kritischen Szenarien: Übersieht gelegentlich spezifische Aufgaben zur Ressourcenbereinigung in komplexen Hardware-Software-Simulationen.
Interaktive Echtzeit-Steuerung: Einzigartige Fähigkeit, während eines Tasks Anweisungen von Menschen entgegenzunehmen, was lange iterative Schleifen reduziert.
Reibungsverluste im Ökosystem: Der primäre Zugriff ist auf die spezialisierte Codex-App und das CLI beschränkt, was eine Lernkurve für Standardnutzer darstellt.

API-Schnellstart

openai/gpt-5.3-codex

Dokumentation anzeigen
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über GPT-5.3 Codex sagen

Sehen Sie, was die Community über GPT-5.3 Codex denkt

"Sie haben GPT-5.3 Codex tatsächlich in der Minute veröffentlicht, in der Opus 4.6 erschien LOL"
ShreckAndDonkey123
reddit
"Codex liefert besseren Code zu etwa 1/7 des Preises"
sergeykarayev
reddit
"Das Preis-Leistungs-Verhältnis von GPT-5.3 Codex ist einfach absurd"
VraserX
x
"Ich habe GPT-5.3-Codex-Spark dazu gebracht, seine eigene Service-Seite zu lesen und eine neue Website zu bauen. Es war im Handumdrehen fertig"
Yohei Takanashi
x
"Dieses model hat korrekt über Swift Actor Isolation schlussgefolgert... am Tag der Veröffentlichung"
HeroicTardigrade
reddit
"Habe gerade unsere gesamte Backend-Orchestrierung auf Codex-Agents umgestellt und die Zuverlässigkeit ist erschreckend hoch"
HackerNewsUser99
hackernews

Videos über GPT-5.3 Codex

Schauen Sie Tutorials, Rezensionen und Diskussionen über GPT-5.3 Codex

GPT-5.3 Codex ist unser erstes model, das maßgeblich an seiner eigenen Erstellung beteiligt war

Die Effizienzsteigerung bei dem, was es mit weniger tokens erreichen kann, ist wirklich fantastisch

Diese Spule dreht sich in der Simulation hier tatsächlich korrekt, während sich die Düse genau hier bewegt

Wir sehen einen massiven Sprung darin, wie es mit realer Hardware-Integration umgeht

Die rekursive Trainingsschleife hier ist ein absoluter Gamechanger für die Genauigkeit

Ich wollte nicht mehr zu GPT 5.2 zurückkehren, weil es sich einfach langsam anfühlt

Es fühlt sich wirklich wie ein großer Geschwindigkeitsschub an... man sagte mir, es sei 25 % schneller als das Vorgängermodell

Die latency bei kleinen Code-Änderungen ist jetzt praktisch nicht mehr vorhanden

Beim Umgang mit großen Legacy-Codebases glänzt das 400K context window erst richtig

Dies ist das erste Mal, dass ich das Gefühl habe, eine KI versteht die Architektur meines Projekts wirklich

Das ist kein weiterer Code-Helfer. Das ist eine KI, die dein gesamtes Projekt baut, während du zusiehst

Was mich früher Tage gekostet hat, dauert mit diesem Ding jetzt nur noch Stunden

Die Fähigkeit, einfach ein ganzes Dokumentationsset in den prompt zu werfen, ist wahnsinnig

Man kann buchstäblich in Echtzeit im Terminal sehen, wie es seine eigenen Fehler korrigiert

Für jeden, der SaaS-Lösungen baut, wird dies der wertvollste Mitarbeiter sein

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für GPT-5.3 Codex

Expertentipps, um das Beste aus GPT-5.3 Codex herauszuholen.

Echtzeit-Steuerung aktivieren

Schalten Sie das Follow-up-Verhalten in den Codex-Einstellungen ein, um das model während des Builds zu steuern.

Plan-Modus nutzen

Verwenden Sie den 'Plan'-Befehl für komplexe Refactorings, damit das model seine Strategie vor der Bearbeitung skizziert.

Batch Pull Request Reviews

Nutzen Sie das 400K context window, um dem model ganze Feature-Branches für tiefgreifende Integrationstests zu übergeben.

Context Compaction

Verlassen Sie sich bei lang laufenden agentic Sessions auf die native Context Compaction, um den Projektfokus beizubehalten.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

Häufig gestellte Fragen zu GPT-5.3 Codex

Finden Sie Antworten auf häufige Fragen zu GPT-5.3 Codex