openai

GPT-5.5

GPT-5.5 ist das flagship frontier model von OpenAI mit einem 1M-context window und fünf Reasoning-Stufen, optimiert für autonome agentic workflows und Coding.

Agentic AIOpenAIGPT-5Autonomes CodingFrontier Models
openai logoopenaiGPT-523. April 2026
Kontext
1.0MToken
Max. Ausgabe
128KToken
Eingabepreis
$5.00/ 1M
Ausgabepreis
$30.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
93.6%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). GPT-5.5 erreichte 93.6% bei diesem Benchmark.
HLE
52.2%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. GPT-5.5 erreichte 52.2% bei diesem Benchmark.
MMLU
92.5%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. GPT-5.5 erreichte 92.5% bei diesem Benchmark.
MMLU Pro
88.1%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. GPT-5.5 erreichte 88.1% bei diesem Benchmark.
SimpleQA
57%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. GPT-5.5 erreichte 57% bei diesem Benchmark.
IFEval
92.1%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. GPT-5.5 erreichte 92.1% bei diesem Benchmark.
AIME 2025
100%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. GPT-5.5 erreichte 100% bei diesem Benchmark.
MATH
98%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. GPT-5.5 erreichte 98% bei diesem Benchmark.
GSM8k
98.5%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. GPT-5.5 erreichte 98.5% bei diesem Benchmark.
MGSM
96.4%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. GPT-5.5 erreichte 96.4% bei diesem Benchmark.
MathVista
76%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. GPT-5.5 erreichte 76% bei diesem Benchmark.
SWE-Bench
58.6%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). GPT-5.5 erreichte 58.6% bei diesem Benchmark.
HumanEval
94.2%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. GPT-5.5 erreichte 94.2% bei diesem Benchmark.
LiveCodeBench
78%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. GPT-5.5 erreichte 78% bei diesem Benchmark.
MMMU
88.3%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. GPT-5.5 erreichte 88.3% bei diesem Benchmark.
MMMU Pro
62%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. GPT-5.5 erreichte 62% bei diesem Benchmark.
ChartQA
94%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. GPT-5.5 erreichte 94% bei diesem Benchmark.
DocVQA
95%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. GPT-5.5 erreichte 95% bei diesem Benchmark.
Terminal-Bench
82.7%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. GPT-5.5 erreichte 82.7% bei diesem Benchmark.
ARC-AGI
85%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. GPT-5.5 erreichte 85% bei diesem Benchmark.

Über GPT-5.5

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von GPT-5.5.

Übergang zur agentischen Intelligenz

GPT-5.5 markiert den Übergang von großen Sprachmodellen zu Large Agentic Models. Es ist darauf ausgelegt, eher als autonomes Teammitglied denn als einfacher Chatbot zu fungieren und komplexe Workflows in digitalen Umgebungen zu planen, auszuführen und selbst zu verifizieren. Die primäre Innovation des Modells ist die Einführung variabler Reasoning-Stufen, die Entwicklern eine granulare Kontrolle über die Rechenzeit und die damit verbundenen compute-Kosten gibt.

Technische Effizienz und Vision

Technisch gesehen behält GPT-5.5 das 1-Million-token-context window der GPT-5-Familie bei, führt aber einen 40 %-igen Zuwachs an token-Effizienz ein. Das bedeutet: Auch wenn sich die Preise pro token im Vergleich zur 5.4-Serie verdoppelt haben, sind die effektiven Kosten für komplexe Aufgaben nur um 20 % gestiegen. Die Vision-Fähigkeiten des Modells wurden ebenfalls signifikant verbessert und erreichen nun bei technischen Diagrammen und Aufgaben des räumlichen Schließens (wie ARC-AGI v2) nahezu menschliches Niveau.

Optimierung für Autonomie

Das Modell ist besonders effektiv beim autonomen Coding, wo es ganze Repositories verwalten und eigene Bugfixes verifizieren kann. Durch die Nutzung des neuen reasoning_effort-parameters können Benutzer zwischen fünf verschiedenen Logik-Tiefen wählen, was es zum ersten Modell macht, das eine skalierbare Intelligenz für anspruchsvolle Problemlösungen bietet.

GPT-5.5

Anwendungsfälle für GPT-5.5

Entdecken Sie die verschiedenen Möglichkeiten, GPT-5.5 für großartige Ergebnisse zu nutzen.

Autonomes Software Engineering

Verwaltung ganzer Code-Repositories, Fehlerbehebung und Deployment von Updates ohne menschliches Eingreifen.

Wissenschaftliche Forschungsanalyse

Verarbeitung von tausenden Forschungsarbeiten innerhalb eines 1M-Fensters zur Synthese neuartiger Hypothesen.

Komplexe Finanzmodellierung

Erstellung und Prüfung komplizierter Unternehmensfinanzstrukturen mit mathematischer Präzision auf PhD-Niveau.

Mehrstufige Agentic Workflows

Erstellung und Ausführung rekursiver Aufgabenlisten zur autonomen Erreichung langfristiger digitaler Ziele.

Technische visuelle Analyse

Interpretation komplexer Konstruktionspläne und Schaltkreise für die automatisierte Qualitätssicherung.

Hochpräzise Datenkompression

Umwandlung massiver Datensätze in token-dichte Zusammenfassungen, die tiefe semantische Nuancen bewahren.

Stärken

Einschränkungen

Elite Agentic Performance: Erreicht einen branchenführenden Score von 82,7 im Terminal-Bench 2.0 für Computer-Nutzung und Terminal-Aufgaben.
Hohe Halluzinationsrate: Weist trotz hoher Reasoning-Fähigkeiten eine Halluzinationsrate von 86 % bei Fakten-benchmarks auf.
Massives Context Window: Unterstützt ein 1M token Input-context, was die Analyse vollständiger Code-Repositories und großer Forschungskorpora ermöglicht.
Premium-Preisstrategie: Mit 5 $/30 $ pro 1 Million tokens ist es deutlich teurer als frühere Generationen und open-source Konkurrenten.
Perfektes mathematisches Reasoning: Erzielte ein perfektes Ergebnis von 100 % im mathematischen Reasoning-benchmark der AIME 2025 Olympiade.
Keine Video-Input-Unterstützung: Im Gegensatz zu multimodalen Konkurrenten wie Gemini fehlt GPT-5.5 die native Video-zu-Text-Verarbeitungsfähigkeit.
Flexibler Reasoning Effort: Bietet 5 verschiedene Stufen für den Reasoning-Aufwand, mit denen Entwickler Balance zwischen latency, Kosten und Intelligenz steuern können.
Lücken beim kreativen Schreiben: Die Leistung in benchmarks für kreatives Schreiben und poetischen Ausdruck liegt hinter den flagship-Modellen von Anthropic zurück.

API-Schnellstart

openai/gpt-5.5

Dokumentation anzeigen
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const response = await openai.chat.completions.create({
    model: "gpt-5.5",
    messages: [
      { role: "system", content: "You are an autonomous coding agent." },
      { role: "user", content: "Debug this Python repository and verify the fixes." }
    ],
    reasoning_effort: "xhigh"
  });

  console.log(response.choices[0].message.content);
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über GPT-5.5 sagen

Sehen Sie, was die Community über GPT-5.5 denkt

Die Halluzinationsrate ist allerdings heftig, 86 % bei Fakten? Es ist wie ein Genie, das sich weigert zu sagen 'Ich weiß es nicht'.
@ArtificialAnlys
twitter
GPT-5.5 Pro kostet 180 $/Million Output-tokens. Wir sind offiziell im Luxuszeitalter der KI angekommen.
@skeptrune
twitter
Die Ära der Proto-AGI ist angebrochen. Es ist kein Chatbot mehr; es ist ein Teammitglied.
lostlifon
reddit
Die Reasoning-Leiter mit 5 Effort-Stufen ist das nützlichste Feature-Release seit Function Calling.
DataLearnerAI
hackernews
OpenAI hat abgeliefert. Es ist teuer, aber es funktioniert tatsächlich für High-End agentische Arbeit.
David Ondrej
youtube
Über 20 benchmarks hinweg schneidet GPT-5.5 etwas besser ab als Opus 4.7, kostet aber jetzt 5 $/Million tokens.
@rxhit05
twitter

Videos über GPT-5.5

Schauen Sie Tutorials, Rezensionen und Diskussionen über GPT-5.5

Die Reasoning-Fähigkeit dieses Modells ist ein Quantensprung im Vergleich zu allem, was wir bisher gesehen haben.

Es hat buchstäblich eine ganze SaaS-Anwendung in einem Durchgang erstellt, ohne dass ich einen einzigen Fehler beheben musste.

Bei 5 $ pro Million tokens muss man sich wirklich sicher sein, dass man dieses Intelligenzniveau benötigt.

Vergleicht man das mit open-source Modellen, gibt es immer noch eine signifikante Lücke bei der agentischen Autonomie.

Die reasoning effort-Parameter sind für Entwickler die eigentliche Neuerung.

OpenAI hat hiermit abgeliefert. Es ist teuer, aber es funktioniert tatsächlich für anspruchsvolle agentische Arbeiten.

Das visuelle Verständnis von UI-Layouts ist jetzt absolut präzise.

Es verwaltet seinen Zustand über mehrere Schritte hinweg viel besser als GPT-5.4.

Man kann ihm im Grunde ein Terminal übergeben und es zwanzig Minuten lang arbeiten lassen.

Die Preisgestaltung ist happig, aber die Zeitersparnis beim Debugging ist es wert.

Dass das context window eine volle Million tokens beträgt, ist bahnbrechend für die Analyse langer Dokumente.

Wenn man autonome Agenten baut, ist dies derzeit das einzige Modell, das sich wirklich autonom anfühlt.

Ich habe eine hohe Halluzinationsrate bei sehr spezifischen historischen Fakten bemerkt.

Die Effizienzgewinne bedeuten, dass man weniger tokens für dieselbe komplexe Aufgabe verbraucht.

Es ist eher ein spezialisiertes Werkzeug für Entwickler als ein lässiger Chatbot.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für GPT-5.5

Expertentipps, um das Beste aus GPT-5.5 herauszuholen.

Verwenden Sie Reasoning Effort 'xhigh'

Setzen Sie den reasoning_effort parameter auf 'xhigh' für logikintensive Aufgaben wie Mathematik und architektonisches Design.

Nutzen Sie das große Context Window

Stellen Sie vollständige Dokumentationen und den Kontext der Codebase im initialen System-prompt bereit, um das 1M-Fenster optimal zu nutzen.

Implementieren Sie Self-Critique-Schleifen

Fordern Sie eine rekursive Überprüfung an, bei der das Modell sein eigenes erstes Ergebnis kritisiert, um die native Halluzinationsrate zu senken.

Agentic Verification

Nutzen Sie die xhigh-Einstellung für agentic Aufgaben, damit das Modell jeden Schritt selbst verifiziert, bevor es mit dem nächsten fortfährt.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

Häufig gestellte Fragen zu GPT-5.5

Finden Sie Antworten auf häufige Fragen zu GPT-5.5