openai

GPT-5.1

GPT-5.1 es el avanzado flagship model de reasoning de OpenAI, que cuenta con pensamiento adaptativo, multimodalidad nativa y un rendimiento state-of-the-art en...

openai logoopenaiGPT-512 de noviembre de 2025
Contexto
400Ktokens
Salida máx.
128Ktokens
Precio entrada
$1.25/ 1M
Precio salida
$10.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
88.1%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.1 obtuvo 88.1% en este benchmark.
HLE
32.5%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.1 obtuvo 32.5% en este benchmark.
MMLU
90.2%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.1 obtuvo 90.2% en este benchmark.
MMLU Pro
81%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.1 obtuvo 81% en este benchmark.
SimpleQA
52%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.1 obtuvo 52% en este benchmark.
IFEval
91%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.1 obtuvo 91% en este benchmark.
AIME 2025
94%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.1 obtuvo 94% en este benchmark.
MATH
91%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.1 obtuvo 91% en este benchmark.
GSM8k
98.5%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.1 obtuvo 98.5% en este benchmark.
MGSM
95%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.1 obtuvo 95% en este benchmark.
MathVista
75%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.1 obtuvo 75% en este benchmark.
SWE-Bench
76.3%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.1 obtuvo 76.3% en este benchmark.
HumanEval
92.5%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.1 obtuvo 92.5% en este benchmark.
LiveCodeBench
74%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.1 obtuvo 74% en este benchmark.
MMMU
85.4%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.1 obtuvo 85.4% en este benchmark.
MMMU Pro
62%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.1 obtuvo 62% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.1 obtuvo 89% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.1 obtuvo 93% en este benchmark.
Terminal-Bench
58%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.1 obtuvo 58% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.1 obtuvo 12% en este benchmark.

Acerca de GPT-5.1

Conoce las capacidades, características y formas de uso de GPT-5.1.

Arquitectura de reasoning

GPT-5.1 presenta una arquitectura de pensamiento de Sistema 2. Esto permite al model ajustar su tiempo de procesamiento en función de la complejidad de la consulta. Para demostraciones matemáticas, aplica deducciones lógicas profundas, mientras que las tareas conversacionales simples mantienen una baja latency. El sistema de reasoning adaptativo garantiza que la capacidad de cómputo se asigne donde aporta más valor.

Rendimiento multimodal

El model utiliza un framework omni multimodal para inputs de texto y visión. Ofrece un 84% menos de latency en tareas de extracción de documentos empresariales en comparación con su predecesor. La retención de memoria mejorada garantiza que el contexto se mantenga a lo largo de flujos de trabajo agentic de largo horizonte, lo que lo hace adecuado para proyectos de ingeniería de software a gran escala.

Sistemas de personalización

Un nuevo motor permite el control de tono y rasgos. Los usuarios pueden configurar el model para que sea profesional, casual o expresivo mediante instrucciones de sistema explícitas. Estos rasgos permiten a los desarrolladores desplegar bots que se ajustan mejor a identidades de marca específicas y preferencias de usuario sin necesidad de un extenso few-shot prompting.

GPT-5.1

Casos de uso de GPT-5.1

Descubre las diferentes formas de usar GPT-5.1 para lograr excelentes resultados.

Ingeniería de software agentic

El model automatiza refactorizaciones complejas en grandes bases de código mediante un reasoning de alta precisión.

Investigación a nivel de doctorado

Resuelve problemas complejos en biología y física que requieren deducciones verificadas de varios pasos.

Análisis de documentos empresariales

El sistema extrae datos estructurados de grandes conjuntos de documentos tabulares con alta precisión visual.

Atención al cliente personalizada

Los desarrolladores despliegan bots con rasgos de marca específicos, como un tono desenfadado o profesional, para adaptarse al sentimiento del usuario.

Resolución de problemas matemáticos

El model utiliza sus puntuaciones AIME del 99.6% para verificar demostraciones y dar tutorías a estudiantes en matemáticas avanzadas.

Business Intelligence basado en visión

Analiza gráficos complejos e informes financieros para generar resúmenes ejecutivos con contexto visual.

Fortalezas

Limitaciones

Reasoning matemático de élite: El model logró una puntuación del 99.6% en AIME 2025, superando a casi todos los modelos competitivos anteriores.
Alta latency de salida: El reasoning de alto esfuerzo puede extender los tiempos de respuesta a más de 20 segundos en consultas complejas.
Procesamiento adaptativo: El escalado dinámico de computación reduce la latency en un 84% en tareas sencillas de documentos empresariales.
Sin audio nativo: Carece de las capacidades de speech-to-speech integradas que se encuentran en competidores como Gemini 2.0.
Control mejorado de personalidad: El control nativo del tono hace que las interacciones se sientan más cálidas y humanas que en el GPT-5 original.
Precios de salida: A 10 dólares por millón de tokens, el coste de los output de reasoning de formato largo es significativamente mayor que el de los modelos instantáneos.
Context window a gran escala: Una context window de 400,000 tokens combinada con un caché de 24 horas permite flujos de trabajo agentic masivos.
Quirks estilísticos persistentes: Los usuarios informan que el model todavía tiene dificultades para evitar patrones de puntuación específicos a pesar de las instrucciones de memoria explícitas.

Inicio rápido de API

openai/gpt-5.1

Ver documentación
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

const response = await openai.chat.completions.create({
  model: "gpt-5.1",
  messages: [{ role: "user", content: "Analyze the security of this smart contract." }],
  reasoning_effort: "high",
});

console.log(response.choices[0].message.content);

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.1

Mira lo que la comunidad piensa sobre GPT-5.1

GPT-5.1 en Codex sigue siendo el mejor revisor para tareas de planificación y revisión de código.
darrenjr
twitter
Nuestras evaluaciones encontraron que GPT-5 superó hasta en un 190% a otros modelos líderes en reasoning complejo.
CodeRabbit
twitter
GPT-5.1 está mejor calibrado según la dificultad del prompt, consumiendo muchos menos tokens en inputs fáciles.
Tech Titans
facebook
Este lanzamiento se centra en la personalidad y en hacer que ChatGPT se sienta menos clínico y estéril.
Theo
youtube
La context window de 400k es un salvavidas para el análisis de todo nuestro repositorio.
RedditUser99
reddit
Que aún no tenga audio nativo es una pena, pero las ganancias en reasoning son reales.
HackerNewsGuy
hackernews

Videos sobre GPT-5.1

Mira tutoriales, reseñas y discusiones sobre GPT-5.1

GPT 5.1 ya está aquí. Es más rápido, más preciso y más conversacional.

Por primera vez, GPT 5.1 Instant puede usar reasoning adaptativo para decidir cuándo pensar.

La lógica aquí es significativamente mejor que la del model GPT 5 estándar.

Consigue mantener un tono más cálido que el que vimos en las versiones previas.

Si eres desarrollador, el prompt caching extendido te va a ahorrar mucho dinero.

Es aún más personalizable que nunca.

El tono suena mucho más natural... 5.1 es mucho mejor en cuanto a energía.

He notado que no alucina tanto durante los pasos complejos del flujo de trabajo.

La velocidad del modo instantáneo es casi equivalente a la de GPT 4o mini pero con más inteligencia.

Las funciones de personalización significan que realmente puedes decirle que deje de ser tan formal.

Esta es probablemente una de las actualizaciones iterativas más relajadas para un frontier model.

Produjo un resultado exitoso en el juego de coche de choque en comparación con el pensamiento de GPT5.

El procesamiento de visión en documentos escritos a mano es notablemente más nítido.

Creo que el interruptor de reasoning effort es la mejor característica para gestionar los costes de la API.

Finalmente se siente como un model con el que puedes hablar sin que suene como un libro de texto.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.1

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.1.

Ajustar el reasoning effort

Utilice el parámetro reasoning_effort para establecer el nivel de pensamiento en 'alto' para matemáticas, pero en 'ninguno' para chats simples, ahorrando así en latency.

Aprovechar la gran context window

Utilice la context window de 400k para carpetas de proyectos completas, ya que el model retiene muy bien la información en prompt largos.

Control de tono

Active rasgos de tono en sus instrucciones de sistema para que el model suene menos clínico y más como un compañero de equipo.

Prompt caching

Aproveche el prompt caching de 24 horas para reducir costes al ejecutar agentic loops repetitivos sobre el mismo código base.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M

Preguntas Frecuentes Sobre GPT-5.1

Encuentra respuestas a preguntas comunes sobre GPT-5.1