openai

GPT-5.3 Codex

GPT-5.3 Codex er OpenAIs 2026 frontier coding agent med et 400K context window, 77,3% Terminal-Bench-score og overlegen logik til kompleks software...

Coding AgentGPT-5OpenAISoftware EngineeringAutonomous AI
openai logoopenaiGPT5. februar 2026
Kontekst
400Ktokens
Maks output
128Ktokens
Input-pris
$1.75/ 1M
Output-pris
$14.00/ 1M
Modalitet:TextImageAudioVideo
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
81%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). GPT-5.3 Codex scorede 81% på denne benchmark.
HLE
36%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. GPT-5.3 Codex scorede 36% på denne benchmark.
MMLU
93%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. GPT-5.3 Codex scorede 93% på denne benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. GPT-5.3 Codex scorede 83% på denne benchmark.
SimpleQA
58%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. GPT-5.3 Codex scorede 58% på denne benchmark.
IFEval
94%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. GPT-5.3 Codex scorede 94% på denne benchmark.
AIME 2025
94%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. GPT-5.3 Codex scorede 94% på denne benchmark.
MATH
96%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. GPT-5.3 Codex scorede 96% på denne benchmark.
GSM8k
99%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. GPT-5.3 Codex scorede 99% på denne benchmark.
MGSM
96%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. GPT-5.3 Codex scorede 96% på denne benchmark.
MathVista
78%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. GPT-5.3 Codex scorede 78% på denne benchmark.
SWE-Bench
57%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. GPT-5.3 Codex scorede 57% på denne benchmark.
HumanEval
93%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. GPT-5.3 Codex scorede 93% på denne benchmark.
LiveCodeBench
71%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. GPT-5.3 Codex scorede 71% på denne benchmark.
MMMU
84%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. GPT-5.3 Codex scorede 84% på denne benchmark.
MMMU Pro
64%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. GPT-5.3 Codex scorede 64% på denne benchmark.
ChartQA
91%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. GPT-5.3 Codex scorede 91% på denne benchmark.
DocVQA
95%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. GPT-5.3 Codex scorede 95% på denne benchmark.
Terminal-Bench
77.3%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. GPT-5.3 Codex scorede 77.3% på denne benchmark.
ARC-AGI
54%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. GPT-5.3 Codex scorede 54% på denne benchmark.

Om GPT-5.3 Codex

Lær om GPT-5.3 Codexs muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

En ny æra for autonom udvikling

GPT-5.3 Codex er OpenAIs mest kapable agentic kodningsmodel. Den bygger bro mellem statisk kodegenerering og autonom softwareudvikling. Bygget på GPT-5-arkitekturen integrerer den specialiseret professionel viden med avanceret reasoning for at håndtere langsigtede opgaver som systemadministration, overvågning af deployment og arkitektonisk refactoring. Modellen inkluderer styring undervejs i opgaven, hvilket gør det muligt for udviklere at interagere med og guide agenten i realtid, mens den navigerer i komplekse projekter.

Rekursiv intelligens og performance

OpenAI har trænet denne model ved hjælp af sine egne tidligere iterationer til at debugge og optimere sin egen deployment. Det repræsenterer et væsentligt skridt mod selvforbedrende systemer. Den udmærker sig i Terminal-Bench 2.0-miljøer og demonstrerer evnen til at håndtere live-terminaler, køre unit tests og iterativt rette fejl uden menneskelig indgriben. Denne rekursive træningstilgang resulterede i effektiv token-brug og et 400.000-token context window. Den kan gennemgå hele virksomhedsarkiver i én arbejdsgang.

Sømløs professionel integration

Tilgængelig via en dedikeret Codex-app, CLI og IDE-udvidelser integreres modellen i moderne workflows. Den er effektiv til at identificere zero-day exploits, optimere arkitekturer for datapipelines og udføre audits af produktionskvalitet på legacy-codebases. Med overlegen logik og konkurrencedygtige priser fungerer den som et højtydende værktøj til softwareopgaver med høj kompleksitet.

GPT-5.3 Codex

Anvendelser for GPT-5.3 Codex

Opdag de forskellige måder, du kan bruge GPT-5.3 Codex til at opnå gode resultater.

Autonom softwareudvikling

Arkitektering og opbygning af modulære softwareprojekter på tværs af flere filer ud fra overordnede specifikationer.

Audit af produktionskode

Analyse af aktive codebases for concurrency-problemer, hukommelseslækager og teknisk gæld i arkitekturen.

Realtids DevOps-automatisering

Håndtering af terminalbaserede workflows, inklusive serveropsætning, container-deployment og skalering af clusters.

Afhjælpning af cybersikkerhedssårbarheder

Identificering og rettelse af zero-day exploits og softwaresårbarheder med avanceret defensiv logik.

Interaktiv prototyping

Generering af produktionsklare landing pages og webapps ud fra håndtegnede wireframes eller uklare prompts.

Arkitektur af datapipelines

Gennemgang og optimering af komplekse dataflows på tværs af flere lag og asynkrone miljøer.

Styrker

Begrænsninger

State-of-the-art kodningslogik: Brancheførende 77,3 % Terminal-Bench 2.0-score og overlegen performance på SWE-Bench Pro.
Funktionel kortfattethed: Prioriterer nogle gange funktionel kortfattethed frem for den ekstreme arkitektoniske dybde, man finder i modeller som o3-pro.
Uovertruffen pris-ydelse: Leverer frontier agentic-kapaciteter til omkring 1/7 af prisen hos rivaler som Opus 4.6.
Standardmæssig æstetik: Selvom logikken er fejlfri, kan de indledende UI-designs til apps nogle gange mangle moderne visuel finish.
Rekursiv selvoptimering: Opbygget ved brug af sin egen arkitektur til at identificere fejl og optimere træningen for høj effektivitet.
Ressourcemangel ved komplekse opgaver: Mangler lejlighedsvis specifikke opgaver til ressourceoprydning i komplekse hardware-software-simuleringer.
Interaktiv realtidsstyring: Unik evne til at modtage direkte input fra mennesker undervejs i opgaven, hvilket reducerer behovet for lange iterative loops.
Økosystem-friktion: Primær adgang er optimeret til den specialiserede Codex-app og CLI, hvilket kræver tilvænning for almindelige API-brugere.

API hurtig start

openai/gpt-5.3-codex

Se dokumentation
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om GPT-5.3 Codex

Se hvad fællesskabet mener om GPT-5.3 Codex

GPT-5.3 Codex føles mindre som en generel chatbot og mere som en ren ingeniørmodel.
Federal-Piano8695
reddit
Codex leverer bedre kode til omkring 1/7 af prisen. Performance pr. pris er bare absurd.
sergeykarayev
reddit
Den udførte ikke bare mine instruktioner. Den traf intelligente beslutninger. Den havde noget, der føltes som dømmekraft.
mattshumer_
twitter
Netop migreret hele vores backend-orkestrering til Codex-agenter, og pålideligheden er skræmmende høj.
HackerNewsUser99
hackernews
GPT 5.3 Codex satte ny high score på Terminal-Bench 2.0. 77,3 % er et massivt spring over den forrige version.
bridgemindai
twitter
Evnen til at håndtere et 400K context window gør det muligt at auditere hele virksomhedsarkiver på én gang.
cdcore
other

Videoer om GPT-5.3 Codex

Se vejledninger, anmeldelser og diskussioner om GPT-5.3 Codex

Codeex implementerede faktisk korrekt både ét og to, da den lavede view-ændringerne, mens Claude kun mappede det til tast ét.

Codeex fandt faktisk årsagen, men identificerede også det som et potentielt problem og rettede det.

Jeg kunne godt lide måden, den prellede af på bygningerne; fysikken føltes mest naturlig.

Sammenlignet med Gemini 3.1 håndterer Codex multi-fil-logikken med meget mindre drift.

Hastigheden af de agentic loops her er mærkbart hurtigere end Claude Opus 4.6.

Dette er ikke bare endnu en kode-hjælper. Dette er en AI, der bygger hele dit projekt, mens du ser på.

Evnen til bare at dumpe et helt dokumentsæt ind i prompten er sindssyg.

Du kan bogstaveligt talt se den rette sine egne fejl i terminalen i realtid.

Hvis du udvikler SEO-værktøjer, er de automatiserede scraping-scripts, den skriver, produktionsklare.

Det lykkedes den at deploye hele sitet til Vercel, uden at jeg rørte en eneste knap.

GPT-5.3 Codex er vores første model, der var medvirkende til at skabe sig selv.

Effektiviteten i stigningen af hvad den kan gøre med færre tokens er virkelig fantastisk.

Vi ser et massivt spring i, hvordan den håndterer hardware-integration i den virkelige verden.

Reasoning-motoren bag kodningsbeslutningerne er langt mere robust end standard GPT-5.

Terminal-Bench-scores er én ting, men at se den navigere i et Linux-filsystem er noget andet.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til GPT-5.3 Codex

Eksperttips til at hjælpe dig med at få mest muligt ud af GPT-5.3 Codex og opnå bedre resultater.

Aktivér realtidsstyring

Aktivér opfølgningsadfærd i Codex-indstillingerne for at guide modellen midt i en proces uden at miste context.

Udnyt Plan Mode

Brug Plan-kommandoen til komplekse refactorings, så modellen kan skitsere sin strategi, før den foretager rettelser.

Batch-gennemgang af Pull Requests

Indfød hele feature-branches i dit 400K context window for dybdegående integrationstest.

Context Compaction

Stol på indbygget context compaction til langvarige agentic sessioner for at bevare fokus på projektet.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Ofte stillede spørgsmål om GPT-5.3 Codex

Find svar på almindelige spørgsmål om GPT-5.3 Codex