openai

GPT-5.4

GPT-5.4 es el frontier model de OpenAI con un context window de 1.05M y Extreme Reasoning. Destaca en la interacción autónoma con UI y análisis de datos de...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-54 de marzo de 2026
Contexto
1.1Mtokens
Salida máx.
128Ktokens
Precio entrada
$2.50/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
84.2%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.4 obtuvo 84.2% en este benchmark.
HLE
42%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.4 obtuvo 42% en este benchmark.
MMLU
91%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.4 obtuvo 91% en este benchmark.
MMLU Pro
76%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.4 obtuvo 76% en este benchmark.
SimpleQA
56.7%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.4 obtuvo 56.7% en este benchmark.
IFEval
92%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.4 obtuvo 92% en este benchmark.
AIME 2025
100%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.4 obtuvo 100% en este benchmark.
MATH
88.6%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.4 obtuvo 88.6% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.4 obtuvo 99% en este benchmark.
MGSM
96%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.4 obtuvo 96% en este benchmark.
MathVista
74%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.4 obtuvo 74% en este benchmark.
SWE-Bench
52.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.4 obtuvo 52.8% en este benchmark.
HumanEval
85.1%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.4 obtuvo 85.1% en este benchmark.
LiveCodeBench
72.5%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.4 obtuvo 72.5% en este benchmark.
MMMU
84.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.4 obtuvo 84.2% en este benchmark.
MMMU Pro
61%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.4 obtuvo 61% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.4 obtuvo 89% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.4 obtuvo 94% en este benchmark.
Terminal-Bench
55%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.4 obtuvo 55% en este benchmark.
ARC-AGI
52.9%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.4 obtuvo 52.9% en este benchmark.

Acerca de GPT-5.4

Conoce las capacidades, características y formas de uso de GPT-5.4.

La frontera del Reasoning de Context Largo

GPT-5.4 representa la evolución de alto rendimiento de la serie GPT-5, caracterizada por su context window de 1.05 millones de tokens, líder en la industria. Este model está específicamente diseñado para manejar conjuntos de datos expansivos, como repositories de código masivos o registros históricos de varios años, sin perder la capacidad de realizar reasoning de alta fidelidad. Una característica destacada es el "Mid-Response Steering" interactivo, que permite a los usuarios monitorear visualmente y ajustar el plan de pensamiento del model en tiempo real, asegurando que el resultado se alinee perfectamente con intenciones complejas de múltiples pasos.

Inteligencia unificada y acción autónoma

Técnicamente, GPT-5.4 unifica las fortalezas de programación de clase mundial de las ramas anteriores específicas de Codex con los matices creativos de la serie estándar GPT-5. Presenta un modo "Thinking" especializado con niveles de esfuerzo ajustables (Standard, Extended y Heavy) que utiliza un procesamiento de chain-of-thought reforzado para resolver problemas de lógica y ciencia de nivel de doctorado. Más allá del texto, GPT-5.4 introduce capacidades nativas de computer use, logrando una puntuación del 75% en tareas de OSWorld-Verified al interpretar capturas de pantalla visuales de alta fidelidad y ejecutar clics basados en coordenadas.

Eficiencia y fiabilidad

OpenAI reporta una disminución significativa del 33% en errores a nivel de afirmación en comparación con sus predecesores, lo que convierte a GPT-5.4 en una opción de primer nivel para agentes autónomos y soporte en decisiones críticas. A pesar de su potencia, está diseñado para la eficiencia energética y de tokens, permitiendo un procesamiento de context largo más económico que las iteraciones anteriores. Ya sea gestionando una base de código empresarial completa o actuando como un agente de programación autónomo, GPT-5.4 establece un nuevo estándar de fiabilidad y rendimiento agentic en el panorama de la IA generativa.

GPT-5.4

Casos de uso de GPT-5.4

Descubre las diferentes formas de usar GPT-5.4 para lograr excelentes resultados.

Refactorización de grandes bases de código

Ingesta y análisis de cientos de archivos fuente simultáneamente para asegurar la consistencia entre módulos e identificar errores semánticos profundos en repositories completos.

Programación agentic autónoma

Interacción con correos electrónicos y calendarios mediante referencias visuales para coordinar de forma autónoma agendas de eventos complejos y enviar comunicaciones de seguimiento.

Diseño arquitectónico de alta fidelidad

Generación de escenas 3D intrincadas y planes estructurales, como estaciones de metro funcionales, utilizando más de 1,000 líneas de código preciso y listo para simulación.

Planificación científica de largo horizonte

Uso de Extreme Reasoning para resolver problemas científicos de nivel de doctorado y realizar análisis de múltiples pasos que requieren horas de gestión de estado constante.

Investigación de incidentes de ciberseguridad

Procesamiento de vastas cantidades de datos de registros (logs) sin procesar en una sola sesión de context de 1.05M para identificar, investigar y reportar brechas de seguridad de forma autónoma.

Mid-Response Steering interactivo

Corrección del rumbo del model durante la fase interna de 'thinking' para ajustar decisiones arquitectónicas o rutas lógicas sin necesidad de reiniciar el prompt.

Fortalezas

Limitaciones

Frontier Context Window de 1.05M: Proporciona una capacidad líder en la industria para aplicar reasoning sobre conjuntos de datos y bases de código masivos en un solo prompt sin pérdida inmediata de coherencia.
Degradación en Context largos: Se ha observado que el rendimiento en tareas de reasoning de alta complejidad disminuye significativamente una vez que el context window supera la marca de los 256K tokens.
Precisión extrema en Reasoning: Alcanza conocimientos científicos de nivel de doctorado (84.2% en GPQA) y puntuaciones perfectas en matemáticas (100% en AIME 2025) utilizando su modo de reasoning de alto esfuerzo.
Esquema de versiones confuso: La compleja alineación de las variantes 5.1, 5.2 Thinking, 5.3 Codex y 5.4 genera una carga cognitiva significativa para los desarrolladores de API y usuarios de Chat.
Interacción autónoma con UI: El posicionamiento visual de vanguardia permite al model interactuar con software y navegadores con un 75% de precisión en el benchmark OSWorld.
Alta Latency en modo Heavy: Los modos de esfuerzo de reasoning más altos pueden tardar más de 8 minutos en procesar el chain-of-thought interno, lo que los hace inadecuados para tareas interactivas en tiempo real.
Eficiencia energética y de tokens: Diseñado como el frontier model más eficiente de OpenAI hasta la fecha, reduciendo el costo energético necesario para reasoning complejo en comparación con el lanzamiento de GPT-5.2.
Alineación neurótica: El fine-tuning de seguridad agresivo puede provocar un comportamiento contradictorio en el que el model contradice innecesariamente al usuario en temas fácticos inofensivos.

Inicio rápido de API

openai/gpt-5.4

Ver documentación
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.4

Mira lo que la comunidad piensa sobre GPT-5.4

GPT-5 está haciendo un regreso brutal... cada línea de código que generó funcionaba perfectamente.
immortalsol
reddit
La característica estrella es obviamente el context window de 1M, comparado con los ~200k que soportan otros models.
Developer
hackernews
Vaya, GPT 5.4 es increíblemente bueno. Debería ser un salto de versión a 6.0. Cuesta creer que Codex haya llegado tan lejos.
Rahul Sood
twitter
GPT-5.4 obtiene puntuaciones extra altas de 94.0 en NYT Connections. Simplemente acierta las cosas al primer intento.
senko
hackernews
GPT-5.4 ya está en el Artificial Analysis Intelligence Index... Empatado con Gemini 3.1 Pro.
AiBattle
twitter
La profundidad de reasoning está finalmente al nivel donde puede manejar problemas arquitectónicos a escala empresarial.
CloudArchitect99
reddit

Videos sobre GPT-5.4

Mira tutoriales, reseñas y discusiones sobre GPT-5.4

Un context window de 1 millón 50,000 tokens... este es un context window muy largo.

En 5 minutos y 22 segundos de thinking, recibimos nuestro resultado... lo probó de una manera más agentic.

Actualizando la capacidad de esto para analizar imágenes de alta fidelidad... hasta 10.24 millones de píxeles totales.

El model realmente realiza investigaciones a través de la web para verificar su propia lógica.

Este es un salto masivo para flujos de trabajo agentic donde el estado necesita persistir.

GPT 5.4 lo tiene todo... básicamente dijeron, vale, 5.2 y GPT 5.3 Codex, adelante, tengan un hijo.

Las capacidades de programación son ridículas. Es esencialmente impecable.

El gusto por el front-end está muy por detrás de Opus 4.6 y Gemini 3.1 Pro.

Se siente como si tuviera una comprensión mucho mejor de la intención matizada del desarrollador.

El punto de precio es competitivo considerando el tamaño del window de 1M de tokens.

Claramente está presionando a OpenAI para responder con un model que iguale esa capacidad de 1 millón de context.

El hecho de que este model sea capaz de crear este clon de Minecraft en un solo intento es simplemente extraordinario.

Estamos viendo una reducción del 33 por ciento en las tasas de alucinaciones fácticas.

Los modos de reasoning se categorizan en niveles Standard, Extended y Heavy.

El posicionamiento visual en el benchmark OSWorld es líder en la industria en este momento.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.4

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.4.

Ajustar el esfuerzo de Reasoning

Utiliza los niveles de esfuerzo Standard, Extended o Heavy de reasoning dependiendo de la complejidad de la tarea para equilibrar el costo computacional y la calidad del resultado.

Monitorear el plan inicial

Al usar la variante Thinking, observa el plan inicial; puedes intervenir a mitad de la generación si la ruta lógica propuesta por el model parece errónea.

Prompt Caching estratégico

Coloca bloques de context grandes y estáticos al principio de tu prompt para aprovechar el prompt caching automático de OpenAI y ahorrar costos.

Gestionar la estabilidad del Context

Aunque el window de 1.05M es robusto, se informa que el rendimiento es más estable dentro de los primeros 256K tokens; mantén los resúmenes críticos cerca del final del prompt.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre GPT-5.4

Encuentra respuestas a preguntas comunes sobre GPT-5.4