openai

GPT-5.3 Codex

GPT-5.3 Codex es el agente de programación frontier de OpenAI en 2026, con una context window de 400K, puntuación de 77.3% en Terminal-Bench y lógica superior...

Agente de programaciónGPT-5OpenAIIngeniería de softwareAI autónoma
openai logoopenaiGPT5 de febrero de 2026
Contexto
400Ktokens
Salida máx.
128Ktokens
Precio entrada
$1.75/ 1M
Precio salida
$14.00/ 1M
Modalidad:TextImageAudioVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
81%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.3 Codex obtuvo 81% en este benchmark.
HLE
36%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.3 Codex obtuvo 36% en este benchmark.
MMLU
93%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.3 Codex obtuvo 93% en este benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.3 Codex obtuvo 83% en este benchmark.
SimpleQA
58%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.3 Codex obtuvo 58% en este benchmark.
IFEval
94%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.3 Codex obtuvo 94% en este benchmark.
AIME 2025
94%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.3 Codex obtuvo 94% en este benchmark.
MATH
96%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.3 Codex obtuvo 96% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.3 Codex obtuvo 99% en este benchmark.
MGSM
96%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.3 Codex obtuvo 96% en este benchmark.
MathVista
78%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.3 Codex obtuvo 78% en este benchmark.
SWE-Bench
57%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.3 Codex obtuvo 57% en este benchmark.
HumanEval
93%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.3 Codex obtuvo 93% en este benchmark.
LiveCodeBench
71%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.3 Codex obtuvo 71% en este benchmark.
MMMU
84%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.3 Codex obtuvo 84% en este benchmark.
MMMU Pro
64%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.3 Codex obtuvo 64% en este benchmark.
ChartQA
91%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.3 Codex obtuvo 91% en este benchmark.
DocVQA
95%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.3 Codex obtuvo 95% en este benchmark.
Terminal-Bench
77.3%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.3 Codex obtuvo 77.3% en este benchmark.
ARC-AGI
54%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.3 Codex obtuvo 54% en este benchmark.

Acerca de GPT-5.3 Codex

Conoce las capacidades, características y formas de uso de GPT-5.3 Codex.

Una nueva era del desarrollo autónomo

GPT-5.3 Codex es el model de programación agentic más capaz de OpenAI. Cierra la brecha entre la generación de código estático y la ingeniería de software autónoma. Construido sobre la arquitectura de GPT-5, integra conocimiento profesional especializado con un reasoning avanzado para manejar tareas de largo plazo como administración de sistemas, monitoreo de despliegues y refactorización arquitectónica. El model incluye dirección a mitad de tarea, lo que permite a los desarrolladores interactuar y guiar al agente en tiempo real mientras navega por proyectos complejos.

Inteligencia recursiva y rendimiento

OpenAI entrenó este model usando sus propias iteraciones anteriores para depurar y optimizar su propio despliegue. Representa un paso significativo hacia sistemas que se auto-mejoran. Destaca en entornos de Terminal-Bench 2.0, demostrando su capacidad para gestionar terminales en vivo, ejecutar pruebas unitarias y corregir errores de forma iterativa sin intervención humana. Este enfoque de entrenamiento recursivo resultó en un uso eficiente de tokens y una context window de 400 000 tokens. Puede digerir repositorios empresariales enteros en una sola pasada.

Integración profesional fluida

Disponible a través de una aplicación dedicada de Codex, CLI y extensiones de IDE, el model se integra en flujos de trabajo modernos. Es eficaz para identificar exploits de día cero, optimizar arquitecturas de pipelines de datos y realizar auditorías de grado de producción en bases de código heredadas. Con una lógica superior y precios competitivos, sirve como una herramienta de alto rendimiento para tareas de ingeniería de software de alto riesgo.

GPT-5.3 Codex

Casos de uso de GPT-5.3 Codex

Descubre las diferentes formas de usar GPT-5.3 Codex para lograr excelentes resultados.

Ingeniería de software autónoma

Arquitectura y construcción de proyectos de software modulares y multiarchivo a partir de especificaciones de alto nivel.

Auditoría de código de producción

Análisis de bases de código en vivo para detectar problemas de concurrencia, fugas de memoria y deuda técnica arquitectónica.

Automatización DevOps en tiempo real

Gestión de flujos de trabajo basados en terminal, incluyendo configuración de servidores, despliegue de contenedores y escalado de clústeres.

Remediación de vulnerabilidades de ciberseguridad

Identificación y corrección de exploits de día cero y vulnerabilidades de software con lógica defensiva de alta capacidad.

Prototipado interactivo

Generación de landing pages y aplicaciones web listas para producción a partir de wireframes dibujados a mano o prompts poco específicos.

Arquitectura de pipeline de datos

Seguimiento y optimización de flujos de datos complejos a través de múltiples capas de procesamiento y entornos asíncronos.

Fortalezas

Limitaciones

Lógica de programación state-of-the-art: Puntuación líder en la industria del 77.3% en Terminal-Bench 2.0 y rendimiento superior en SWE-Bench Pro.
Brevedad funcional: Ocasionalmente prioriza la brevedad funcional sobre la extrema profundidad arquitectónica que se encuentra en modelos como o3-pro.
Relación rendimiento-precio inigualable: Ofrece capacidades agentic de frontier model a aproximadamente 1/7 del costo de rivales como Opus 4.6.
Valores predeterminados estéticos: Aunque es impecable lógicamente, los diseños de UI iniciales para aplicaciones a veces pueden carecer de pulido visual moderno.
Auto-optimización recursiva: Construido usando su propia arquitectura para identificar errores y optimizar el entrenamiento para una alta eficiencia.
Brechas de recursos en tareas de alto riesgo: Ocasionalmente omite tareas específicas de limpieza de recursos en simulaciones complejas de hardware-software.
Dirección interactiva en tiempo real: Capacidad única para recibir instrucciones humanas a mitad de tarea, reduciendo la necesidad de largos bucles iterativos.
Fricción del ecosistema: El acceso principal está optimizado para la aplicación y CLI de Codex, lo que supone una curva de aprendizaje para los usuarios estándar de la API.

Inicio rápido de API

openai/gpt-5.3-codex

Ver documentación
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audita este actor de Swift en busca de condiciones de carrera (race conditions)' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.3 Codex

Mira lo que la comunidad piensa sobre GPT-5.3 Codex

GPT-5.3 Codex se siente menos como un chatbot general y más como un model puro de ingeniería.
Federal-Piano8695
reddit
Codex entrega mejor código a aproximadamente 1/7 del precio. El rendimiento por precio es simplemente absurdo.
sergeykarayev
reddit
No solo estaba ejecutando mis instrucciones. Estaba tomando decisiones inteligentes. Tenía algo que se sentía como juicio.
mattshumer_
twitter
Acabamos de migrar toda nuestra orquestación de backend a agentes de Codex y la fiabilidad es aterradoramente alta.
HackerNewsUser99
hackernews
GPT 5.3 Codex estableció la nueva puntuación más alta en Terminal-Bench 2.0. 77.3% es un salto masivo sobre la versión anterior.
bridgemindai
twitter
La capacidad de manejar una context window de 400k hace posible auditar repositorios empresariales completos de una sola vez.
cdcore
other

Videos sobre GPT-5.3 Codex

Mira tutoriales, reseñas y discusiones sobre GPT-5.3 Codex

Codeex implementó correctamente tanto el uno como el dos haciendo los cambios de vista, mientras que Claude solo los mapeó a la tecla uno.

Codeex descubrió la causa principal, pero también identificó eso como un problema potencial y lo corrigió.

Me gustó la forma en que rebotó en los edificios, la física se sintió de lo más natural.

Comparando esto con Gemini 3.1, Codex maneja la lógica multiarchivo con mucha menos desviación.

La velocidad de los bucles agentic aquí es notablemente más rápida que en Claude Opus 4.6.

Esto no es otro ayudante de código. Es un AI que construye todo tu proyecto mientras observas.

La capacidad de simplemente volcar todo un conjunto de documentación en el prompt es una locura.

Literalmente puedes verlo corregir sus propios errores en la terminal en tiempo real.

Si estás desarrollando herramientas SEO, los scripts de scraping automatizados que escribe están listos para producción.

Logró desplegar todo el sitio en Vercel sin que yo tocara un solo botón.

GPT-5.3 Codex es nuestro primer model que fue fundamental para crearse a sí mismo.

La eficiencia en el aumento de lo que puede hacer con menos tokens es realmente fantástica.

Estamos viendo un salto masivo en cómo maneja la integración de hardware en el mundo real.

El motor de reasoning detrás de las decisiones de programación es mucho más robusto que el de GPT-5 estándar.

Las puntuaciones de Terminal-Bench son una cosa, pero verlo navegar por un sistema de archivos linux es otra.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.3 Codex

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.3 Codex.

Habilitar la dirección en tiempo real

Active el comportamiento de seguimiento en la configuración de Codex para guiar al model durante la construcción sin perder el contexto.

Aprovechar el modo Plan

Use el comando Plan para refactorizaciones complejas y haga que el model describa su estrategia antes de editar.

Revisión de Pull Requests por lotes

Introduzca ramas de funciones completas en la context window de 400K para pruebas de integración profunda.

Compactación de contexto

Confíe en la compactación de contexto nativa para sesiones agentic de larga duración y mantener el enfoque en el proyecto.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre GPT-5.3 Codex

Encuentra respuestas a preguntas comunes sobre GPT-5.3 Codex