openai

GPT-5.5

GPT-5.5 es el model flagship de OpenAI con un context window de 1M y cinco niveles de reasoning effort, optimizado para flujos de trabajo agentic autónomos y...

Agentic AIOpenAIGPT-5Codificación AutónomaFrontier Models
openai logoopenaiGPT-523 de abril de 2026
Contexto
1.0Mtokens
Salida máx.
128Ktokens
Precio entrada
$5.00/ 1M
Precio salida
$30.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
93.6%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.5 obtuvo 93.6% en este benchmark.
HLE
52.2%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.5 obtuvo 52.2% en este benchmark.
MMLU
92.5%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.5 obtuvo 92.5% en este benchmark.
MMLU Pro
88.1%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.5 obtuvo 88.1% en este benchmark.
SimpleQA
57%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.5 obtuvo 57% en este benchmark.
IFEval
92.1%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.5 obtuvo 92.1% en este benchmark.
AIME 2025
100%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.5 obtuvo 100% en este benchmark.
MATH
98%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.5 obtuvo 98% en este benchmark.
GSM8k
98.5%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.5 obtuvo 98.5% en este benchmark.
MGSM
96.4%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.5 obtuvo 96.4% en este benchmark.
MathVista
76%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.5 obtuvo 76% en este benchmark.
SWE-Bench
58.6%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.5 obtuvo 58.6% en este benchmark.
HumanEval
94.2%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.5 obtuvo 94.2% en este benchmark.
LiveCodeBench
78%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.5 obtuvo 78% en este benchmark.
MMMU
88.3%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.5 obtuvo 88.3% en este benchmark.
MMMU Pro
62%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.5 obtuvo 62% en este benchmark.
ChartQA
94%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.5 obtuvo 94% en este benchmark.
DocVQA
95%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.5 obtuvo 95% en este benchmark.
Terminal-Bench
82.7%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.5 obtuvo 82.7% en este benchmark.
ARC-AGI
85%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.5 obtuvo 85% en este benchmark.

Acerca de GPT-5.5

Conoce las capacidades, características y formas de uso de GPT-5.5.

Transición a la inteligencia agentic

GPT-5.5 representa la transición de los modelos de lenguaje a large agentic models. Está diseñado para funcionar como un compañero de equipo autónomo en lugar de un simple chatbot, capaz de planificar, ejecutar y verificar de forma autónoma flujos de trabajo complejos en entornos digitales. La innovación principal del model es la implementación de niveles de reasoning effort variables, que otorgan a los desarrolladores un control granular sobre el tiempo de procesamiento del model y los costos de cómputo asociados.

Eficiencia técnica y visión

Desde el punto de vista técnico, GPT-5.5 mantiene el context window de 1 millón de tokens de la familia GPT-5, pero introduce una mejora del 40% en la eficiencia de tokens. Esto significa que, si bien el precio por token se ha duplicado en relación con la serie 5.4, el costo efectivo para tareas complejas es solo un 20% más alto. Las capacidades de visión del model también se han actualizado significativamente, alcanzando ahora un rendimiento cercano al humano en diagramas técnicos y tareas de razonamiento espacial como ARC-AGI v2.

Optimización para la autonomía

Es particularmente efectivo para la codificación autónoma, donde puede gestionar repositorios completos y verificar sus propias correcciones de errores. Al utilizar el nuevo parámetro reasoning_effort, los usuarios pueden alternar entre cinco profundidades de lógica distintas, lo que lo convierte en el primer model en ofrecer una escala móvil de inteligencia para la resolución de problemas de alto riesgo.

GPT-5.5

Casos de uso de GPT-5.5

Descubre las diferentes formas de usar GPT-5.5 para lograr excelentes resultados.

Ingeniería de software autónoma

Gestionar repositorios de código completos, corregir errores y desplegar actualizaciones sin supervisión humana.

Análisis de investigación científica

Procesar miles de artículos de investigación en una ventana de 1M para sintetizar hipótesis novedosas.

Modelado financiero complejo

Construir y auditar estructuras de finanzas corporativas complejas con precisión matemática de nivel doctoral.

Flujos de trabajo agentic de múltiples pasos

Crear y ejecutar listas de tareas recursivas para alcanzar objetivos digitales a largo plazo de forma autónoma.

Análisis visual técnico

Interpretar planos de ingeniería complejos y diagramas de circuitos para el aseguramiento de calidad automatizado.

Compresión de datos de alta fidelidad

Convertir conjuntos de datos masivos en resúmenes densos en tokens que preservan matices semánticos profundos.

Fortalezas

Limitaciones

Rendimiento agentic de élite: Alcanza una puntuación líder en la industria de 82.7 en Terminal-Bench 2.0 para tareas de computadora y terminal.
Alta tasa de alucinación: Presenta una tasa de alucinación del 86% en benchmark de conocimientos factuales a pesar de sus altas capacidades de reasoning.
Massive context window: Admite un context window de entrada de 1M tokens, lo que permite el análisis de repositorios de código completos y grandes corpus de investigación.
Estrategia de precios premium: A $5/$30 por cada 1M de tokens, es significativamente más caro que las generaciones anteriores y que los rivales open-source.
Reasoning matemático perfecto: Obtuvo una puntuación perfecta del 100% en el benchmark de reasoning matemático de nivel olímpico AIME 2025.
Sin entrada de video: A diferencia de competidores multimodales como Gemini, GPT-5.5 carece de capacidad nativa de procesamiento de video a texto.
Reasoning effort flexible: Cuenta con 5 niveles distintos de reasoning effort, lo que permite a los desarrolladores equilibrar latency, costo e inteligencia.
Brechas en escritura creativa: El rendimiento en el benchmark de escritura creativa y expresión poética está por detrás de los modelos flagship de Anthropic.

Inicio rápido de API

openai/gpt-5.5

Ver documentación
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const response = await openai.chat.completions.create({
    model: "gpt-5.5",
    messages: [
      { role: "system", content: "Eres un agente de codificación autónomo." },
      { role: "user", content: "Depura este repositorio de Python y verifica las correcciones." }
    ],
    reasoning_effort: "xhigh"
  });

  console.log(response.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.5

Mira lo que la comunidad piensa sobre GPT-5.5

La tasa de alucinación es una locura, ¿86% en hechos? Es como un genio que se niega a decir 'no lo sé'.
@ArtificialAnlys
twitter
GPT-5.5 Pro cuesta $180 por millón de salida. Hemos entrado oficialmente en la era de lujo de la AI.
@skeptrune
twitter
La era de la proto-AGI ha llegado. Ya no es un chatbot; es un compañero de equipo.
lostlifon
reddit
La escalera de reasoning con 5 niveles de esfuerzo es el lanzamiento de función más útil desde el function calling.
DataLearnerAI
hackernews
OpenAI se lució con este. Es caro, pero realmente funciona para trabajo agentic de alto nivel.
David Ondrej
youtube
En 20 benchmark, GPT-5.5 obtiene una puntuación ligeramente superior a Opus 4.7, pero ahora también cuesta $5/millón de tokens.
@rxhit05
twitter

Videos sobre GPT-5.5

Mira tutoriales, reseñas y discusiones sobre GPT-5.5

La capacidad de reasoning de este model es como el día y la noche comparado con todo lo que hemos visto antes.

Literalmente construyó una aplicación SaaS completa de una vez sin que yo tuviera que corregir ni un solo error.

A $5 por millón de tokens, realmente tienes que estar seguro de que necesitas este nivel de inteligencia.

Comparándolo con modelos abiertos, todavía hay una brecha significativa en la autonomía agentic.

Los parámetros de reasoning effort son la verdadera noticia aquí para los desarrolladores.

OpenAI se lució con este. Es caro, pero realmente funciona para trabajo agentic de alto nivel.

La comprensión visual de los diseños de UI ahora es perfectamente precisa.

Gestiona su propio estado a través de múltiples pasos mucho mejor que GPT-5.4.

Básicamente puedes entregarle una terminal y dejar que trabaje durante veinte minutos.

El precio es elevado, pero el tiempo ahorrado en depuración vale la pena.

Que el context window sea de un millón de tokens completo cambia las reglas del juego para el análisis de documentos largos.

Si estás construyendo agentes autónomos, este es actualmente el único model que se siente verdaderamente autónomo.

Noté una alta tasa de alucinación en hechos históricos muy específicos.

Las ganancias en eficiencia significan que usas menos tokens para la misma tarea compleja.

Es una herramienta especializada para desarrolladores más que un chatbot casual.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.5

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.5.

Usa reasoning_effort xhigh

Configura el parámetro reasoning_effort en 'xhigh' para tareas que requieren mucha lógica, como matemáticas y diseño arquitectónico.

Aprovecha el context window grande

Proporciona la documentación completa y el contexto de la codebase en el prompt del sistema inicial para aprovechar al máximo la ventana de 1M.

Implementa bucles de autocrítica

Solicita una revisión recursiva donde el model critique su propia salida inicial para mitigar la tasa nativa de alucinación.

Verificación agentic

Utiliza el nivel de esfuerzo xhigh para tareas agentic a fin de garantizar que el model verifique automáticamente cada paso antes de pasar al siguiente.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

Preguntas Frecuentes Sobre GPT-5.5

Encuentra respuestas a preguntas comunes sobre GPT-5.5