openai

GPT-5.3 Codex

GPT-5.3 Codex è l'agente di coding di frontiera di OpenAI per il 2026, dotato di una context window da 400K, un punteggio del 77,3% su Terminal-Bench e una...

Coding AgentGPT-5OpenAISoftware EngineeringAutonomous AI
openai logoopenaiGPT5 febbraio 2026
Contesto
400Ktoken
Output max
128Ktoken
Prezzo input
$1.75/ 1M
Prezzo output
$14.00/ 1M
Modalita:TextImageAudioVideo
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
81%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. GPT-5.3 Codex ha ottenuto 81% in questo benchmark.
HLE
36%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. GPT-5.3 Codex ha ottenuto 36% in questo benchmark.
MMLU
93%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. GPT-5.3 Codex ha ottenuto 93% in questo benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. GPT-5.3 Codex ha ottenuto 83% in questo benchmark.
SimpleQA
58%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. GPT-5.3 Codex ha ottenuto 58% in questo benchmark.
IFEval
94%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. GPT-5.3 Codex ha ottenuto 94% in questo benchmark.
AIME 2025
94%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. GPT-5.3 Codex ha ottenuto 94% in questo benchmark.
MATH
96%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. GPT-5.3 Codex ha ottenuto 96% in questo benchmark.
GSM8k
99%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. GPT-5.3 Codex ha ottenuto 99% in questo benchmark.
MGSM
96%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. GPT-5.3 Codex ha ottenuto 96% in questo benchmark.
MathVista
78%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. GPT-5.3 Codex ha ottenuto 78% in questo benchmark.
SWE-Bench
57%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. GPT-5.3 Codex ha ottenuto 57% in questo benchmark.
HumanEval
93%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. GPT-5.3 Codex ha ottenuto 93% in questo benchmark.
LiveCodeBench
71%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. GPT-5.3 Codex ha ottenuto 71% in questo benchmark.
MMMU
84%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. GPT-5.3 Codex ha ottenuto 84% in questo benchmark.
MMMU Pro
64%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. GPT-5.3 Codex ha ottenuto 64% in questo benchmark.
ChartQA
91%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. GPT-5.3 Codex ha ottenuto 91% in questo benchmark.
DocVQA
95%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. GPT-5.3 Codex ha ottenuto 95% in questo benchmark.
Terminal-Bench
77.3%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. GPT-5.3 Codex ha ottenuto 77.3% in questo benchmark.
ARC-AGI
54%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. GPT-5.3 Codex ha ottenuto 54% in questo benchmark.

Informazioni su GPT-5.3 Codex

Scopri le capacita di GPT-5.3 Codex, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Una nuova era dello sviluppo autonomo

GPT-5.3 Codex è il model di coding agentic più capace di OpenAI. Colma il divario tra la generazione di codice statico e l'ingegneria del software autonoma. Costruito sull'architettura GPT-5, integra conoscenze professionali specializzate con un reasoning avanzato per gestire attività a lungo termine come l'amministrazione di sistema, il monitoraggio del deployment e il refactoring architettonico. Il model include il mid-task steering, che consente agli sviluppatori di interagire e guidare l'agente in tempo reale mentre naviga in progetti complessi.

Intelligenza ricorsiva e performance

OpenAI ha addestrato questo model utilizzando le proprie iterazioni precedenti per eseguire il debug e ottimizzare il proprio deployment. Rappresenta un passo significativo verso sistemi che migliorano autonomamente. Eccelle negli ambienti Terminal-Bench 2.0, dimostrando la capacità di gestire terminali live, eseguire unit test e correggere bug iterativamente senza intervento umano. Questo approccio di training ricorsivo ha portato a un utilizzo efficiente dei token e a una context window di 400.000 token, permettendogli di analizzare interi repository aziendali in un unico passaggio.

Integrazione professionale senza soluzione di continuità

Disponibile tramite un'app Codex dedicata, CLI ed estensioni IDE, il model si integra perfettamente nei workflow moderni. È efficace nell'identificare exploit zero-day, ottimizzare architetture di data pipeline ed eseguire audit di livello professionale su codebase legacy. Con una logica superiore e prezzi competitivi, funge da strumento ad alte prestazioni per task di ingegneria del software ad alto impatto.

GPT-5.3 Codex

Casi d'uso per GPT-5.3 Codex

Scopri i diversi modi in cui puoi usare GPT-5.3 Codex per ottenere ottimi risultati.

Ingegneria del Software Autonoma

Progettare e costruire progetti software modulari multi-file a partire da specifiche di alto livello.

Auditing del codice in produzione

Analizzare codebase live alla ricerca di problemi di concorrenza, memory leak e debito tecnico architettonico.

Automazione DevOps in tempo reale

Gestire workflow basati su terminale, inclusi setup di server, deployment di container e scalabilità di cluster.

Rimediazione di vulnerabilità di sicurezza

Identificare e correggere exploit zero-day e vulnerabilità software con una logica difensiva ad alte prestazioni.

Prototipazione interattiva

Generare landing page e web app pronte per la produzione a partire da wireframe disegnati a mano o prompt poco specifici.

Architettura di Data Pipeline

Tracciare e ottimizzare flussi di dati complessi attraverso molteplici layer di elaborazione e ambienti asincroni.

Punti di forza

Limitazioni

Logica di coding state-of-the-art: Punteggio leader del settore del 77,3% su Terminal-Bench 2.0 e performance superiore su SWE-Bench Pro.
Brevità funzionale: Occasionalmente dà priorità alla brevità funzionale rispetto all'estrema profondità architettonica riscontrata in model come o3-pro.
Rapporto prestazioni-prezzo senza pari: Offre capacità agentic da frontier model a circa 1/7 del costo rispetto a rivali come Opus 4.6.
Default estetici: Sebbene sia logicamente impeccabile, i design UI iniziali per le app possono a volte mancare di rifiniture visive moderne.
Auto-ottimizzazione ricorsiva: Costruito utilizzando la propria architettura per identificare bug e ottimizzare il training per un'elevata efficienza.
Lacune nelle risorse critiche: Occasionalmente trascura specifici task di pulizia delle risorse in simulazioni complesse hardware-software.
Steering interattivo in tempo reale: Capacità unica di ricevere direttive umane durante l'esecuzione del task, riducendo la necessità di lunghi cicli iterativi.
Attrito dell'ecosistema: L'accesso primario è ottimizzato per l'app Codex specializzata e la CLI, il che rappresenta una curva di apprendimento per gli utenti API standard.

Avvio rapido API

openai/gpt-5.3-codex

Visualizza documentazione
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su GPT-5.3 Codex

Guarda cosa pensa la community di GPT-5.3 Codex

GPT-5.3 Codex sembra meno un chatbot generico e più un model dedicato agli ingegneri.
Federal-Piano8695
reddit
Codex fornisce codice migliore a circa 1/7 del prezzo. Le prestazioni per prezzo sono semplicemente assurde.
sergeykarayev
reddit
Non stava solo eseguendo le mie istruzioni. Stava prendendo decisioni intelligenti. Aveva qualcosa che sembrava giudizio.
mattshumer_
twitter
Ho appena migrato l'intera orchestrazione del nostro backend ad agenti Codex e l'affidabilità è spaventosamente alta.
HackerNewsUser99
hackernews
GPT 5.3 Codex ha stabilito il nuovo punteggio più alto su Terminal-Bench 2.0. Il 77,3% è un salto enorme rispetto alla versione precedente.
bridgemindai
twitter
La capacità di gestire una context window da 400k rende possibile l'audit di interi repository aziendali in un colpo solo.
cdcore
other

Video su GPT-5.3 Codex

Guarda tutorial, recensioni e discussioni su GPT-5.3 Codex

Codeex ha effettivamente implementato correttamente sia uno che due effettuando i cambiamenti di vista, mentre Claude li ha mappati solo sul tasto uno.

Codeex ha effettivamente individuato la causa principale, ma ha anche identificato quello come un potenziale problema e l'ha corretto.

Mi è piaciuto il modo in cui rimbalzava sugli edifici, la fisica sembrava la più naturale.

Confrontandolo con Gemini 3.1, Codex gestisce la logica multi-file con molto meno drift.

La velocità dei cicli agentic qui è notevolmente più rapida rispetto a Claude Opus 4.6.

Questo non è un altro assistente al codice. È un'AI che costruisce l'intero progetto mentre guardi.

La capacità di scaricare semplicemente un'intera documentazione nel prompt è folle.

Puoi letteralmente vederlo correggere i propri errori nel terminale in tempo reale.

Se stai sviluppando strumenti SEO, gli script di scraping automatizzati che scrive sono pronti per la produzione.

È riuscito a distribuire l'intero sito su Vercel senza che io toccassi un singolo tasto.

GPT-5.3 Codex è il nostro primo model che è stato determinante nella creazione di se stesso.

L'efficienza nell'aumento di ciò che può fare con meno token è davvero fantastica.

Stiamo vedendo un enorme salto di qualità nel modo in cui gestisce l'integrazione hardware nel mondo reale.

Il motore di reasoning dietro le decisioni di coding è molto più robusto del GPT-5 standard.

I punteggi di Terminal-Bench sono una cosa, ma vederlo navigare in un file system linux è un'altra.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per GPT-5.3 Codex

Consigli esperti per aiutarti a ottenere il massimo da GPT-5.3 Codex e raggiungere risultati migliori.

Abilita il Real-Time Steering

Attiva il comportamento di follow-up nelle impostazioni di Codex per guidare il model durante la build senza perdere il context.

Sfrutta la Plan Mode

Usa il comando Plan per refactoring complessi, permettendo al model di delineare la propria strategia prima di apportare modifiche.

Revisioni di Batch Pull Request

Inserisci interi feature branch nella context window da 400K per test di integrazione approfonditi.

Compattazione del context

Affidati alla compattazione nativa del context per le sessioni agentic di lunga durata per mantenere il focus sul progetto.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Domande frequenti su GPT-5.3 Codex

Trova risposte alle domande comuni su GPT-5.3 Codex

GPT-5.3 Codex: 77.3% Terminal-Bench & Specialist Dev Brain