openai

GPT-5.4

GPT-5.4 es el frontier model de OpenAI con una context window de 1.05M y Extreme Reasoning. Destaca en la interacción autónoma con la UI y el análisis de datos...

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-55 de marzo de 2026
Contexto
1.1Mtokens
Salida máx.
128Ktokens
Precio entrada
$2.50/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
84.2%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.4 obtuvo 84.2% en este benchmark.
HLE
42%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.4 obtuvo 42% en este benchmark.
MMLU
91%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.4 obtuvo 91% en este benchmark.
MMLU Pro
76%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.4 obtuvo 76% en este benchmark.
SimpleQA
56.7%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.4 obtuvo 56.7% en este benchmark.
IFEval
92%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.4 obtuvo 92% en este benchmark.
AIME 2025
100%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.4 obtuvo 100% en este benchmark.
MATH
88.6%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.4 obtuvo 88.6% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.4 obtuvo 99% en este benchmark.
MGSM
96%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.4 obtuvo 96% en este benchmark.
MathVista
74%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.4 obtuvo 74% en este benchmark.
SWE-Bench
52.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.4 obtuvo 52.8% en este benchmark.
HumanEval
85.1%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.4 obtuvo 85.1% en este benchmark.
LiveCodeBench
72.5%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.4 obtuvo 72.5% en este benchmark.
MMMU
84.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.4 obtuvo 84.2% en este benchmark.
MMMU Pro
61%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.4 obtuvo 61% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.4 obtuvo 89% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.4 obtuvo 94% en este benchmark.
Terminal-Bench
55%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.4 obtuvo 55% en este benchmark.
ARC-AGI
52.9%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.4 obtuvo 52.9% en este benchmark.

Acerca de GPT-5.4

Conoce las capacidades, características y formas de uso de GPT-5.4.

La frontera del razonamiento de contexto largo

GPT-5.4 representa la evolución de alto rendimiento de la serie GPT-5. Cuenta con una context window líder en la industria de 1,05 millones de tokens. Este model maneja conjuntos de datos expansivos, como repositorios de código masivos o registros históricos de varios años, sin perder la fidelidad del razonamiento. El Mid-Response Steering interactivo permite a los usuarios monitorear y ajustar el plan de pensamiento del model en tiempo real, asegurando que la salida se alinee con intenciones complejas de varios pasos.

Inteligencia unificada y acción autónoma

Desde el punto de vista técnico, GPT-5.4 unifica las fortalezas de codificación de clase mundial de las ramas anteriores de Codex con los matices creativos de la serie GPT-5 estándar. Incluye un modo de pensamiento especializado con niveles de esfuerzo ajustables (modos Standard, Extended y Heavy). Utiliza un procesamiento de chain-of-thought reforzado para resolver problemas científicos y lógicos de nivel de doctorado. Más allá del texto, GPT-5.4 introduce capacidades nativas de uso de computadora, logrando una puntuación del 75% en tareas verificadas de OSWorld al interpretar capturas de pantalla y ejecutar clics basados en coordenadas.

Eficiencia y confiabilidad

OpenAI reporta una disminución del 33% en errores de nivel de afirmación en comparación con sus predecesores, convirtiendo a GPT-5.4 en la opción principal para agentes autónomos y soporte de decisiones de alto riesgo. Está diseñado para la eficiencia energética y de tokens, permitiendo un procesamiento de contexto largo más económico que las iteraciones anteriores. Ya sea gestionando una base de código empresarial completa o actuando como un agente de programación autónomo, GPT-5.4 establece un nuevo estándar de confiabilidad y rendimiento agentic.

GPT-5.4

Casos de uso de GPT-5.4

Descubre las diferentes formas de usar GPT-5.4 para lograr excelentes resultados.

Refactorización de código a gran escala

Reescritura sistemática de bases de código heredadas que superan las 300.000 líneas con estricto cumplimiento de estándares arquitectónicos.

Modelado financiero autónomo

Creación de modelos complejos de tres estados financieros donde la IA reconcilia estados de resultados, balances y flujos de caja.

Diseño interactivo de sistemas

Desarrollo de simulaciones 3D o juegos basados en física mediante el control de la ruta lógica del model durante el proceso de generación.

Uso de computadora (Agentic)

Ejecución de tareas de escritorio de varios pasos, como entrada masiva de datos, gestión de correos electrónicos y pruebas de software mediante interacción nativa con la UI.

Análisis legal de contexto largo

Referencia cruzada de cientos de documentos legales para identificar inconsistencias o extraer cláusulas específicas con alta precisión de recuperación.

Apoyo a la investigación de nivel de doctorado

Resolución de demostraciones matemáticas complejas y problemas científicos utilizando el modo Heavy Reasoning para cadenas lógicas verificadas.

Fortalezas

Limitaciones

Contexto masivo de 1.05M: Proporciona una capacidad líder en la industria para el análisis profundo de enormes bases de código y conjuntos de documentos sin degradación del contexto.
Latency de razonamiento: Activar el modo Heavy Thinking puede resultar en tiempos de espera de varios minutos para lógicas complejas o grandes generaciones de código.
Pensamiento interactivo: La navegación única durante la respuesta permite a los usuarios dirigir las rutas de reasoning, reduciendo significativamente el desperdicio de generaciones y tokens.
Límites de tasa (Rate Limiting): Durante el lanzamiento inicial, los usuarios pueden encontrar límites de mensajes agresivos o errores temporales en la cuenta a medida que la capacidad escala.
Uso nativo de computadora: La interacción de alta precisión con la UI (75% en OSWorld) permite que el model trabaje directamente en entornos de escritorio y navegadores.
Escalamiento no lineal: En algunas tareas creativas, se ha descubierto que los modos de reasoning más ligeros superan a los modos pesados en detalle estético.
Eficiencia extrema de tokens: La arquitectura optimizada ofrece un rendimiento de vanguardia para 2026 con menor latency y consumo de energía que las versiones anteriores de GPT-5.
Degradación del contexto a 1M: Aunque la ventana es grande, la precisión de recuperación cae significativamente al pasar de 256K a 1M de tokens.

Inicio rápido de API

openai/gpt-5.4

Ver documentación
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.4

Mira lo que la comunidad piensa sobre GPT-5.4

GPT 5.4 en Codex es una gran mejora... realmente lo he visto trabajar durante 150 minutos seguidos sin perder el contexto.
ArchMeta1868
reddit
Las capacidades de diseño 3D de GPT 5.4 son inigualables. La forma en que manejó la transparencia y la física en mi simulador de naves fue inquietantemente precisa.
AI_Creative_Daily
twitter
La corrección de rumbo a mitad de respuesta es increíble. Realmente puedo ver hacia dónde va el model y corregirlo antes de que desperdicie tokens.
dev_guru_99
reddit
Superó a los humanos el 83% de las veces en 44 trabajos diferentes. Abogado, contador, analista financiero, administrador.
Josh Kale
twitter
OpenAI finalmente arregló el cuello de botella de salida. 128k tokens de salida son un sueño para los desarrolladores que construyen aplicaciones full-stack.
TheCodeChannel
youtube
La latency en el uso de computadora todavía existe, pero la precisión es lo suficientemente alta para manejar flujos de trabajo SAP complejos, lo cual es una locura.
enterprise_sysadmin
hackernews

Videos sobre GPT-5.4

Mira tutoriales, reseñas y discusiones sobre GPT-5.4

GPT 5.4 ya está aquí y es posible que tengamos el nuevo mejor model del planeta.

El pensamiento de GPT 5.4 ahora puede proporcionar un plan inicial de su razonamiento... permitiéndote guiar al model.

Este elemento interactivo resuelve el problema de la "caja negra" en los models de reasoning.

La velocidad en comparación con o1-preview es abismal para tareas estándar.

Estás viendo un razonamiento que realmente se siente consistente en conversaciones largas.

GPT 5.4... no fue construido para chatear. Fue construido para trabajar.

La carga diferida... redujo el uso total de tokens en un 47% sin pérdida de precisión.

La funcionalidad de uso de computadora rastrea elementos de la UI con un sistema basado en coordenadas.

Lo probé con una base de código Java antigua y realmente entendió las dependencias entre archivos.

Estamos entrando en un mundo donde la IA es el controlador del sistema operativo.

1 millón 50 mil tokens de context window. Es una ventana muy larga.

Navega mientras está pensando, lo cual es definitivamente más eficiente de usar.

El precio es elevado, pero para grandes conjuntos de documentos, es el único model que funciona.

El modo de pensamiento se puede ajustar según la complejidad de tu prompt.

Se siente más confiable en la recuperación de hechos que cualquier versión anterior de GPT.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.4

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.4.

Ajustar el nivel de razonamiento

Utiliza los parámetros Standard, Extended o Heavy para equilibrar la necesidad de precisión frente a la velocidad de generación y el costo.

Revisar el plan de razonamiento

Monitorea el plan inicial proporcionado por el model y utiliza el Mid-Response Steering para corregirlo si la lógica se desvía.

Aprovechar la carga diferida de herramientas

Para flujos de trabajo agentic, utiliza el registro de carga diferida para reducir los costos iniciales de tokens hasta en un 47%.

Usar contratos de completitud

Define explícitamente qué significa "terminado" en tu prompt para que el model sea más persistente durante tareas de larga duración.

Visión de máxima resolución

Sube imágenes de alta fidelidad de hasta 10,24 Mpx para inspecciones visuales precisas de elementos de la UI o diagramas técnicos.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Preguntas Frecuentes Sobre GPT-5.4

Encuentra respuestas a preguntas comunes sobre GPT-5.4