openai

GPT-5.3 Codex

GPT-5.3 Codex es el agente de programación frontier model de OpenAI de 2026, con un context window de 400K, puntuación de 77,3% en Terminal-Bench y lógica...

Agente de programaciónGPT-5OpenAIIngeniería de softwareIA autónoma
openai logoopenaiGPT-55 de febrero de 2026
Contexto
400Ktokens
Salida máx.
128Ktokens
Precio entrada
$1.75/ 1M
Precio salida
$14.00/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
81%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.3 Codex obtuvo 81% en este benchmark.
HLE
36%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.3 Codex obtuvo 36% en este benchmark.
MMLU
93%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.3 Codex obtuvo 93% en este benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.3 Codex obtuvo 83% en este benchmark.
SimpleQA
58%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.3 Codex obtuvo 58% en este benchmark.
IFEval
94%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.3 Codex obtuvo 94% en este benchmark.
AIME 2025
94%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.3 Codex obtuvo 94% en este benchmark.
MATH
96%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.3 Codex obtuvo 96% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.3 Codex obtuvo 99% en este benchmark.
MGSM
96%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.3 Codex obtuvo 96% en este benchmark.
MathVista
78%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.3 Codex obtuvo 78% en este benchmark.
SWE-Bench
57%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.3 Codex obtuvo 57% en este benchmark.
HumanEval
93%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.3 Codex obtuvo 93% en este benchmark.
LiveCodeBench
71%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.3 Codex obtuvo 71% en este benchmark.
MMMU
84%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.3 Codex obtuvo 84% en este benchmark.
MMMU Pro
64%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.3 Codex obtuvo 64% en este benchmark.
ChartQA
91%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.3 Codex obtuvo 91% en este benchmark.
DocVQA
95%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.3 Codex obtuvo 95% en este benchmark.
Terminal-Bench
77.3%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.3 Codex obtuvo 77.3% en este benchmark.
ARC-AGI
54%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.3 Codex obtuvo 54% en este benchmark.

Acerca de GPT-5.3 Codex

Conoce las capacidades, características y formas de uso de GPT-5.3 Codex.

Una nueva era de desarrollo autónomo

GPT-5.3 Codex es el model de programación agentic más capaz de OpenAI, diseñado para cerrar la brecha entre la generación de código estático y la ingeniería de software autónoma. Construido sobre la arquitectura GPT-5 de próxima generación, integra conocimiento profesional especializado con reasoning avanzado para manejar tareas de largo alcance como la administración de sistemas, el monitoreo de despliegues y la refactorización arquitectónica. El model se distingue por su capacidad de 'dirección a mitad de la tarea', lo que permite a los desarrolladores interactuar con el agente y guiarlo en tiempo real mientras navega por proyectos complejos.

Inteligencia recursiva y rendimiento

Habiendo sido entrenado utilizando sus propias iteraciones anteriores para depurar y optimizar su propio despliegue, GPT-5.3 Codex representa un paso significativo hacia los sistemas de IA que mejoran a sí mismos. Destaca en entornos Terminal-Bench 2.0, demostrando capacidad para gestionar terminales en vivo, ejecutar pruebas unitarias y corregir errores de forma iterativa sin intervención humana. Este enfoque de entrenamiento recursivo ha dado como resultado un uso de tokens altamente eficiente y un masivo context window de 400,000 tokens, capaz de digerir repositorios empresariales completos en una sola pasada.

Integración profesional fluida

Disponible a través de una aplicación Codex dedicada, CLI y extensiones de IDE, el model está diseñado para una integración profunda en los flujos de trabajo modernos. Es particularmente eficaz en la identificación de exploits de día cero, la optimización de arquitecturas de tuberías de datos y la realización de auditorías de grado de producción en bases de código heredadas. Con su lógica superior y precios competitivos, se ha convertido rápidamente en el estándar de oro para tareas de ingeniería de software de alto riesgo.

GPT-5.3 Codex

Casos de uso de GPT-5.3 Codex

Descubre las diferentes formas de usar GPT-5.3 Codex para lograr excelentes resultados.

Ingeniería de software autónoma

Arquitectura y construcción de proyectos de software modulares y multifichero a partir de especificaciones de alto nivel.

Auditoría de código en producción

Análisis de bases de código en vivo para detectar problemas de concurrencia, fugas de memoria y deuda técnica arquitectónica.

Automatización de DevOps en tiempo real

Gestión de flujos de trabajo basados en terminal, incluyendo configuración de servidores, despliegue de contenedores y escalado de clústeres.

Remediación de vulnerabilidades de ciberseguridad

Identificación y corrección de exploits de día cero y vulnerabilidades de software con lógica defensiva de alta capacidad.

Prototipado interactivo

Generación de páginas de aterrizaje y aplicaciones web listas para producción a partir de bocetos hechos a mano o prompts poco especificados.

Arquitectura de tuberías de datos

Rastreo y optimización de flujos de datos complejos a través de múltiples capas de procesamiento y entornos asíncronos.

Fortalezas

Limitaciones

Lógica de programación state-of-the-art: Puntuación líder en la industria de 77,3% en Terminal-Bench 2.0 y rendimiento superior en SWE-Bench Pro.
Detalle comprimido: En ocasiones prioriza la brevedad funcional sobre la profundidad arquitectónica extrema que se encuentra en models como o3-pro.
Relación precio-rendimiento inigualable: Ofrece capacidades agentic de frontier model a aproximadamente 1/7 del coste de su rival más cercano, Opus 4.6.
Estética por defecto: Aunque es lógicamente impecable, los diseños iniciales de la interfaz de usuario para aplicaciones a veces pueden carecer de un pulido visual moderno.
Autooptimización recursiva: Construido utilizando su propia arquitectura para identificar errores y optimizar el entrenamiento, lo que resulta en una alta eficiencia.
Brechas de recursos en situaciones críticas: Ocasionalmente omite tareas específicas de limpieza de recursos en simulaciones complejas de hardware-software.
Dirección interactiva en tiempo real: Capacidad única para recibir instrucciones de humanos a mitad de la tarea, reduciendo la necesidad de largos bucles iterativos.
Fricción del ecosistema: El acceso principal está restringido a la aplicación especializada Codex y a la CLI, lo que supone una curva de aprendizaje para usuarios estándar.

Inicio rápido de API

openai/gpt-5.3-codex

Ver documentación
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.3 Codex

Mira lo que la comunidad piensa sobre GPT-5.3 Codex

"Lanzaron GPT-5.3 Codex en el minuto exacto en que salió Opus 4.6 JAJA"
ShreckAndDonkey123
reddit
"Codex ofrece mejor código a aproximadamente 1/7 del precio"
sergeykarayev
reddit
"El rendimiento por precio de GPT-5.3 Codex es simplemente absurdo"
VraserX
x
"Hice que GPT-5.3-Codex-Spark leyera su propio sitio de servicio y construyera un nuevo sitio web. Terminó en un abrir y cerrar de ojos"
Yohei Takanashi
x
"Este model razonó correctamente sobre el aislamiento de actores en Swift... el mismo día que se lanzó"
HeroicTardigrade
reddit
"Acabo de migrar toda nuestra orquestación de backend a agentes de Codex y la fiabilidad es aterradoramente alta"
HackerNewsUser99
hackernews

Videos sobre GPT-5.3 Codex

Mira tutoriales, reseñas y discusiones sobre GPT-5.3 Codex

GPT-5.3 Codex es nuestro primer model que fue fundamental para crearse a sí mismo

La eficiencia en el aumento de lo que puede hacer con menos tokens es realmente fantástica

Este carrete realmente está girando correctamente mientras la boquilla se mueve justo aquí en la simulación

Estamos viendo un salto masivo en cómo maneja la integración con hardware del mundo real

El bucle de entrenamiento recursivo aquí es un cambio literal de las reglas del juego para la precisión

No he querido volver a GPT 5.2 porque simplemente se sienten lentos

Realmente se siente como un gran impulso de velocidad... me dijeron que es un 25% más rápido que el model anterior

La latency en pequeñas ediciones de código es prácticamente inexistente ahora

El manejo de grandes bases de código heredadas es donde el context window de 400K realmente brilla

Esta es la primera vez que siento que una IA entiende verdaderamente la arquitectura de mi proyecto

Esto no es otro asistente de código. Esta es una IA que construye tu proyecto entero mientras lo observas

Lo que antes me llevaba días, ahora me lleva horas con esta cosa

La capacidad de simplemente volcar un conjunto completo de documentación en el prompt es una locura

Literalmente puedes verlo corrigiendo sus propios errores en la terminal en tiempo real

Para cualquiera que esté construyendo un SaaS, este va a ser su empleado más valioso

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.3 Codex

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.3 Codex.

Activa la dirección en tiempo real

Habilita el comportamiento de seguimiento en la configuración de Codex para guiar al model durante la construcción.

Aprovecha el modo de planificación

Usa el comando 'Plan' para refactorizaciones complejas para que el model esboce su estrategia antes de editar.

Revisiones de Pull Request por lotes

Utiliza el context window de 400K para alimentar al model con ramas de funcionalidades completas para pruebas de integración profunda.

Compactación de contexto

Confía en la compactación de contexto nativa para sesiones agentic de larga duración para mantener el enfoque del proyecto.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

Preguntas Frecuentes Sobre GPT-5.3 Codex

Encuentra respuestas a preguntas comunes sobre GPT-5.3 Codex