openai

GPT-5.3 Codex

GPT-5.3 Codex ist der frontier Coding-Agent von OpenAI aus dem Jahr 2026, mit einem 400K context window, 77,3 % Terminal-Bench-Score und überlegener Logik für...

Coding AgentGPT-5OpenAISoftware-EngineeringAutonome KI
openai logoopenaiGPT5. Februar 2026
Kontext
400KToken
Max. Ausgabe
128KToken
Eingabepreis
$1.75/ 1M
Ausgabepreis
$14.00/ 1M
Modalität:TextImageAudioVideo
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
81%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). GPT-5.3 Codex erreichte 81% bei diesem Benchmark.
HLE
36%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. GPT-5.3 Codex erreichte 36% bei diesem Benchmark.
MMLU
93%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. GPT-5.3 Codex erreichte 93% bei diesem Benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. GPT-5.3 Codex erreichte 83% bei diesem Benchmark.
SimpleQA
58%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. GPT-5.3 Codex erreichte 58% bei diesem Benchmark.
IFEval
94%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. GPT-5.3 Codex erreichte 94% bei diesem Benchmark.
AIME 2025
94%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. GPT-5.3 Codex erreichte 94% bei diesem Benchmark.
MATH
96%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. GPT-5.3 Codex erreichte 96% bei diesem Benchmark.
GSM8k
99%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. GPT-5.3 Codex erreichte 99% bei diesem Benchmark.
MGSM
96%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. GPT-5.3 Codex erreichte 96% bei diesem Benchmark.
MathVista
78%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. GPT-5.3 Codex erreichte 78% bei diesem Benchmark.
SWE-Bench
57%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). GPT-5.3 Codex erreichte 57% bei diesem Benchmark.
HumanEval
93%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. GPT-5.3 Codex erreichte 93% bei diesem Benchmark.
LiveCodeBench
71%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. GPT-5.3 Codex erreichte 71% bei diesem Benchmark.
MMMU
84%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. GPT-5.3 Codex erreichte 84% bei diesem Benchmark.
MMMU Pro
64%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. GPT-5.3 Codex erreichte 64% bei diesem Benchmark.
ChartQA
91%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. GPT-5.3 Codex erreichte 91% bei diesem Benchmark.
DocVQA
95%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. GPT-5.3 Codex erreichte 95% bei diesem Benchmark.
Terminal-Bench
77.3%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. GPT-5.3 Codex erreichte 77.3% bei diesem Benchmark.
ARC-AGI
54%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. GPT-5.3 Codex erreichte 54% bei diesem Benchmark.

Über GPT-5.3 Codex

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von GPT-5.3 Codex.

Eine neue Ära der autonomen Entwicklung

GPT-5.3 Codex ist das leistungsfähigste agentic Coding-model von OpenAI. Es schließt die Lücke zwischen statischer Code-Generierung und autonomem Software-Engineering. Auf der GPT-5-Architektur aufgebaut, integriert es spezialisiertes Fachwissen mit fortschrittlichem reasoning, um langfristige Aufgaben wie Systemadministration, Deployment-Monitoring und architektonisches Refactoring zu bewältigen. Das model umfasst eine Steuerung während der Aufgabe. Dies ermöglicht es Entwicklern, in Echtzeit mit dem Agenten zu interagieren und ihn zu leiten, während er komplexe Projekte navigiert.

Rekursive Intelligenz und Leistung

OpenAI hat dieses model unter Verwendung seiner eigenen früheren Iterationen trainiert, um seine eigene Bereitstellung zu debuggen und zu optimieren. Es stellt einen bedeutenden Schritt in Richtung selbstverbessernder Systeme dar. Es zeichnet sich in Terminal-Bench 2.0-Umgebungen aus und demonstriert die Fähigkeit, Live-Terminals zu verwalten, Unit-Tests auszuführen und iterativ Fehler ohne menschliches Eingreifen zu beheben. Dieser rekursive Trainingsansatz führte zu einer effizienten Nutzung von tokens und einem 400.000-token context window. Es kann gesamte Unternehmens-Repositories in einem einzigen Durchgang verarbeiten.

Nahtlose professionelle Integration

Verfügbar über eine dedizierte Codex-App, CLI und IDE-Erweiterungen, integriert sich das model in moderne Workflows. Es ist effektiv bei der Identifizierung von Zero-Day-Exploits, der Optimierung von Daten-Pipeline-Architekturen und der Durchführung von produktionsreifen Audits von Legacy-Codebasen. Mit überlegener Logik und wettbewerbsfähiger Preisgestaltung dient es als hochleistungsfähiges Werkzeug für anspruchsvolle Software-Engineering-Aufgaben.

GPT-5.3 Codex

Anwendungsfälle für GPT-5.3 Codex

Entdecken Sie die verschiedenen Möglichkeiten, GPT-5.3 Codex für großartige Ergebnisse zu nutzen.

Autonomes Software-Engineering

Architektur und Erstellung modularer Multi-File-Softwareprojekte basierend auf übergeordneten Spezifikationen.

Produktions-Code-Auditing

Analyse von Live-Codebasen auf Concurrency-Probleme, Memory-Leaks und architektonische technische Schulden.

Echtzeit-DevOps-Automatisierung

Verwaltung terminalbasierter Workflows, einschließlich Server-Setup, Container-Deployment und Cluster-Skalierung.

Behebung von Cybersicherheitslücken

Identifizierung und Behebung von Zero-Day-Exploits und Software-Schwachstellen mit hochleistungsfähiger defensiver Logik.

Interaktives Prototyping

Generierung produktionsreifer Landingpages und Web-Apps aus handgezeichneten Wireframes oder ungenauen prompts.

Daten-Pipeline-Architektur

Nachverfolgung und Optimierung komplexer Datenströme über mehrere Verarbeitungsebenen und asynchrone Umgebungen hinweg.

Stärken

Einschränkungen

State-of-the-Art Coding-Logik: Branchenführender Score von 77,3 % im Terminal-Bench 2.0 und überragende Leistung auf SWE-Bench Pro.
Funktionale Kürze: Priorisiert gelegentlich funktionale Kürze gegenüber der extremen architektonischen Tiefe, die bei models wie o3-pro zu finden ist.
Unübertroffenes Preis-Leistungs-Verhältnis: Liefert frontier agentic-Fähigkeiten zu etwa 1/7 der Kosten von Konkurrenten wie Opus 4.6.
Ästhetische Standardvorgaben: Obwohl logisch einwandfrei, fehlt es den anfänglichen UI-Designs für Apps manchmal an modernem visuellem Feinschliff.
Rekursive Selbstoptimierung: Entwickelt unter Verwendung der eigenen Architektur, um Fehler zu identifizieren und das Training für hohe Effizienz zu optimieren.
Ressourcenlücken bei komplexen Anforderungen: Übersieht gelegentlich spezifische Ressourcenbereinigungsaufgaben in komplexen Hardware-Software-Simulationen.
Interaktive Echtzeit-Steuerung: Einzigartige Fähigkeit, während der Aufgabe Anweisungen von Menschen entgegenzunehmen, was den Bedarf an langen iterativen Schleifen reduziert.
Ökosystem-Reibung: Der Hauptzugang ist für die spezialisierte Codex-App und CLI optimiert, was für Standard-API-Nutzer eine Lernkurve bedeutet.

API-Schnellstart

openai/gpt-5.3-codex

Dokumentation anzeigen
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über GPT-5.3 Codex sagen

Sehen Sie, was die Community über GPT-5.3 Codex denkt

GPT-5.3 Codex fühlt sich weniger wie ein allgemeiner Chatbot und mehr wie ein reines Engineering-model an.
Federal-Piano8695
reddit
Codex liefert besseren Code zu etwa 1/7 des Preises. Die Leistung pro Preis ist einfach absurd.
sergeykarayev
reddit
Es führte nicht nur meine Anweisungen aus. Es traf intelligente Entscheidungen. Es hatte etwas, das sich wie Urteilsvermögen anfühlte.
mattshumer_
twitter
Habe gerade unsere gesamte Backend-Orchestrierung auf Codex-Agenten migriert und die Zuverlässigkeit ist erschreckend hoch.
HackerNewsUser99
hackernews
GPT 5.3 Codex hat den neuen Highscore im Terminal-Bench 2.0 aufgestellt. 77,3 % sind ein massiver Sprung gegenüber der vorherigen Version.
bridgemindai
twitter
Die Fähigkeit, ein 400K context window zu handhaben, macht es möglich, ganze Unternehmens-Repositories in einem Rutsch zu prüfen.
cdcore
other

Videos über GPT-5.3 Codex

Schauen Sie Tutorials, Rezensionen und Diskussionen über GPT-5.3 Codex

Codex hat tatsächlich sowohl eins als auch zwei korrekt implementiert, um die Ansichtsänderungen vorzunehmen, während Claude es nur auf Taste eins gemappt hat.

Codex hat die Hauptursache tatsächlich gefunden, sie aber auch als potenzielles Problem identifiziert und ebenfalls behoben.

Mir hat die Art und Weise gefallen, wie es von den Gebäuden abprallte, die Physik fühlte sich am natürlichsten an.

Im Vergleich zu Gemini 3.1 bewältigt Codex die Multi-File-Logik mit deutlich weniger Drift.

Die Geschwindigkeit der agentic loops ist hier spürbar schneller als bei Claude Opus 4.6.

Das ist kein weiterer Code-Helfer. Das ist eine KI, die Ihr gesamtes Projekt aufbaut, während Sie zusehen.

Die Möglichkeit, einfach einen ganzen Dokumentationssatz in den prompt zu werfen, ist irre.

Man kann buchstäblich sehen, wie es seine eigenen Fehler im Terminal in Echtzeit korrigiert.

Wenn Sie SEO-Tool-Entwicklung betreiben, sind die automatisierten Scraper-Skripte, die es schreibt, produktionsreif.

Es hat es geschafft, die gesamte Seite auf Vercel bereitzustellen, ohne dass ich einen einzigen Knopf drücken musste.

GPT-5.3 Codex ist unser erstes model, das maßgeblich an seiner eigenen Entstehung beteiligt war.

Die Effizienzsteigerung bei dem, was es mit weniger tokens tun kann, ist wirklich fantastisch.

Wir sehen einen massiven Sprung in der Art und Weise, wie es die Integration von realer Hardware handhabt.

Die reasoning-Engine hinter den Coding-Entscheidungen ist weitaus robuster als beim Standard GPT-5.

Terminal-Bench-Scores sind die eine Sache, aber zu sehen, wie es durch ein Linux-Dateisystem navigiert, ist etwas anderes.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für GPT-5.3 Codex

Expertentipps, um das Beste aus GPT-5.3 Codex herauszuholen.

Echtzeit-Steuerung aktivieren

Aktivieren Sie das Follow-up-Verhalten in den Codex-Einstellungen, um das model während der Arbeit zu steuern, ohne den Kontext zu verlieren.

Plan-Modus nutzen

Verwenden Sie den Plan-Befehl für komplexe Refactorings, damit das model seine Strategie skizziert, bevor es Änderungen vornimmt.

Batch-Pull-Request-Reviews

Speisen Sie ganze Feature-Branches in das 400K context window ein, um tiefgehende Integrationstests durchzuführen.

Kontext-Kompaktierung

Verlassen Sie sich bei langwierigen agentic sessions auf die native Kontext-Kompaktierung, um den Fokus auf das Projekt zu behalten.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Häufig gestellte Fragen zu GPT-5.3 Codex

Finden Sie Antworten auf häufige Fragen zu GPT-5.3 Codex