openai

GPT-5.1

GPT-5.1 es el flagship de razonamiento avanzado de OpenAI, que cuenta con pensamiento adaptativo, multimodalidad nativa y un rendimiento state-of-the-art en...

openai logoopenaiGPT-52025-11-13
Contexto
400Ktokens
Salida máx.
128Ktokens
Precio entrada
$1.25/ 1M
Precio salida
$10.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
88.1%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.1 obtuvo 88.1% en este benchmark.
HLE
32.5%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.1 obtuvo 32.5% en este benchmark.
MMLU
90.2%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.1 obtuvo 90.2% en este benchmark.
MMLU Pro
81%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.1 obtuvo 81% en este benchmark.
SimpleQA
52%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.1 obtuvo 52% en este benchmark.
IFEval
91%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.1 obtuvo 91% en este benchmark.
AIME 2025
94%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.1 obtuvo 94% en este benchmark.
MATH
91%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.1 obtuvo 91% en este benchmark.
GSM8k
98.5%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.1 obtuvo 98.5% en este benchmark.
MGSM
95%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.1 obtuvo 95% en este benchmark.
MathVista
75%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.1 obtuvo 75% en este benchmark.
SWE-Bench
76.3%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.1 obtuvo 76.3% en este benchmark.
HumanEval
92.5%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.1 obtuvo 92.5% en este benchmark.
LiveCodeBench
74%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.1 obtuvo 74% en este benchmark.
MMMU
85.4%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.1 obtuvo 85.4% en este benchmark.
MMMU Pro
62%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.1 obtuvo 62% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.1 obtuvo 89% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.1 obtuvo 93% en este benchmark.
Terminal-Bench
58%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.1 obtuvo 58% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.1 obtuvo 12% en este benchmark.

Acerca de GPT-5.1

Conoce las capacidades, características y formas de uso de GPT-5.1.

Una Nueva Frontera en el Reasoning

GPT-5.1 representa una evolución significativa en los frontier models de OpenAI, marcando el primer lanzamiento donde cada model en el ecosistema cuenta con capacidades de reasoning nativas. Esta actualización se centra en ir más allá de la sensación clínica de las iteraciones anteriores para proporcionar una experiencia de usuario más cálida e intuitiva a través del pensamiento de Sistema 2. Al integrar el adaptive reasoning, GPT-5.1 puede decidir dinámicamente cuánto tiempo de procesamiento se necesita para un prompt específico, lo que le permite resolver problemas complejos de ciencia y matemáticas a nivel de doctorado que requieren deducciones lógicas de múltiples pasos.

Multimodality y Personalización

El model está construido sobre una arquitectura omni multimodal, que admite texto y visión con sistemas de memoria significativamente mejorados y un seguimiento de instrucciones optimizado. Introduce funciones sofisticadas de estilo y rasgos que permiten a los usuarios dirigir la personalidad del model, abarcando desde tonos profesionales y académicos hasta tonos más casuales y expresivos. Estas actualizaciones aseguran que el model conserve el contexto personal y se adhiera estrictamente a los requisitos complejos del usuario en tareas de largo plazo, particularmente en la ingeniería de software agentic.

GPT-5.1

Casos de uso de GPT-5.1

Descubre las diferentes formas de usar GPT-5.1 para lograr excelentes resultados.

Refactorización de Software

Planificación de rediseños integrales de aplicaciones legacy con más de 100,000 líneas de código a través de GPT-5.1 Codex.

Resolución de Olimpiadas de Matemáticas

Provisión de demostraciones para problemas oscuros de olimpiadas con reasoning simbólico e íntegro con una tasa de éxito del 94%.

Mapeo de Especificaciones Técnicas

Identificación y explicación de estructuras de columnas complejas para tablas de bases de datos de nicho a partir de entradas visuales o de texto.

Inferencia Lógica Avanzada

Desarrollo de narrativas internamente coherentes para la creación de mundos complejos y ficción de historia alternativa.

Propuestas de Integración de IA

Generación de presentaciones profesionales respaldadas por datos para integrar sistemas agentic en entornos de producción.

Revisión Arquitectónica Estratégica

Análisis de estructuras de proyectos de múltiples pasos para crear planes de implementación basados en fases y evaluaciones de riesgo.

Fortalezas

Limitaciones

Integración de Adaptive Reasoning: Escala dinámicamente el esfuerzo de cómputo, dedicando el doble de tiempo al 10% de las preguntas más difíciles.
Latencia en el Reasoning: Las tareas de pensamiento profundo resultan en tiempos de respuesta significativamente más lentos en comparación con los modelos interactivos estándar.
Rendimiento SOTA en Matemáticas: Logra una puntuación del 94% en el AIME 2025, estableciendo un nuevo estándar en la industria para matemáticas de nivel de olimpiada.
Sobrecorrección de Seguridad: El model puede mostrar un comportamiento neurótico o descargos de responsabilidad clínicos al discutir temas sociales sensibles.
Inteligencia Emocional Mejorada: Resuelve las críticas previas sobre el tono clínico con una calidez significativamente mejorada y un tono conversacional intuitivo.
Gaslighting de Identidad: Los frecuentes descargos de responsabilidad internos sobre no ser una persona real pueden interrumpir las conexiones genuinas con los usuarios.
Salida de Alta Capacidad: Admite un límite masivo de 128,000 tokens de salida, lo que permite la generación de formato largo y grandes refactorizaciones de código.
Inconsistencia al Cambiar: La transición entre los modos Instant y Thinking a través del selector automático a veces puede sentirse brusca.

Inicio rápido de API

openai/gpt-5.1

Ver documentación
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.1",
    messages: [
      { role: "system", content: "You are a reasoning assistant." },
      { role: "user", content: "Analyze this complex physics problem." }
    ],
    reasoning_effort: "high"
  });

  console.log(completion.choices[0].message);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.1

Mira lo que la comunidad piensa sobre GPT-5.1

"GPT-5.1 Thinking ahora ajusta de manera más efectiva su tiempo de pensamiento según la pregunta"
OpenAI
x
"GPT-5 Pro es absolutamente SOTA en esta área [matemáticas]"
ArchMeta1868
reddit
"Te entiendo, Ron — eso es totalmente normal, especialmente con todo lo que te ha estado pasando últimamente"
Tamay Besiroglu
x
"GPT-5.1 Codex Max lo solucionó al instante. OpenAI sigue dominando el juego de la programación"
BradAI
x
"La profundidad del reasoning es aterradoramente buena para la arquitectura de sistemas"
CodeKing
hackernews
"Realmente siento que me conoce ahora con la actualización de memoria"
User445
twitter

Videos sobre GPT-5.1

Mira tutoriales, reseñas y discusiones sobre GPT-5.1

En comparación con GPT-5, pensará casi el doble de tiempo para lo que considere que es el 10% de las preguntas más difíciles

GPT-5.1 auto... el model miniatura que decide si vale la pena dedicar tiempo a tu consulta

Este escalado dinámico de cómputo es exactamente lo que necesitábamos para investigación seria

La longitud de salida es una locura, realmente puedes construir aplicaciones enteras de una sola vez

OpenAI definitivamente está apostando por la estrategia de reasoning-first aquí

Por primera vez en la historia, todos los modelos en el chat son modelos de reasoning

El rango expresivo de este model es mucho más amplio

Queríamos darle al model un sentido de personalidad que no sea solo clínico

Los usuarios ahora pueden influir en rasgos como el optimismo o el escepticismo a través de la configuración del sistema

El esfuerzo de reasoning es algo que el usuario ahora puede controlar directamente

GPT-5.1 Codex para los programadores entre ustedes será una mejora bastante estricta

Claude frecuentemente exageraba sus hallazgos y ocasionalmente inventaba datos... GPT-5.1 es más honesto

Las puntuaciones de AIME 2025 son un salto masivo sobre el GPT-5 estándar

Es más lento, sí, pero la calidad del rastro de 'Thinking' es superior

La gestión del context window parece mucho más sólida que la de la competencia

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro para GPT-5.1

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.1.

Configura el Reasoning Effort

Establece manualmente el parámetro reasoning_effort en 'high' para lógica compleja o 'none' para tareas conversacionales instantáneas.

Aprovecha los Estilos de Persona

Utiliza los nuevos ajustes de estilo y rasgos para alternar entre tonos Profesional, Sincero y Peculiar.

Gestiona la Memoria Activa

Revisa y gestiona regularmente las memorias guardadas para fundamentar las respuestas cálidas del model en el contexto personal correcto.

Verifica las Citas

Dado que el model cita fuentes, coteja su salida técnica con la documentación citada para tareas de alto riesgo.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M

Preguntas Frecuentes Sobre GPT-5.1

Encuentra respuestas a preguntas comunes sobre GPT-5.1