openai

GPT-5.2

GPT-5.2 es el model flagship de OpenAI para tareas profesionales, con una context window de 400K, codificación de élite y capacidades profundas de reasoning de...

openai logoopenaiGPT-511 de diciembre de 2025
Contexto
400Ktokens
Salida máx.
100Ktokens
Precio entrada
$1.75/ 1M
Precio salida
$14.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
93%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GPT-5.2 obtuvo 93% en este benchmark.
HLE
45%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GPT-5.2 obtuvo 45% en este benchmark.
MMLU
88%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GPT-5.2 obtuvo 88% en este benchmark.
MMLU Pro
83%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GPT-5.2 obtuvo 83% en este benchmark.
SimpleQA
58%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GPT-5.2 obtuvo 58% en este benchmark.
IFEval
95%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GPT-5.2 obtuvo 95% en este benchmark.
AIME 2025
100%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GPT-5.2 obtuvo 100% en este benchmark.
MATH
98%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GPT-5.2 obtuvo 98% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GPT-5.2 obtuvo 99% en este benchmark.
MGSM
98%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GPT-5.2 obtuvo 98% en este benchmark.
MathVista
78%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GPT-5.2 obtuvo 78% en este benchmark.
SWE-Bench
80%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GPT-5.2 obtuvo 80% en este benchmark.
HumanEval
95%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GPT-5.2 obtuvo 95% en este benchmark.
LiveCodeBench
80%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GPT-5.2 obtuvo 80% en este benchmark.
MMMU
75%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GPT-5.2 obtuvo 75% en este benchmark.
MMMU Pro
65%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GPT-5.2 obtuvo 65% en este benchmark.
ChartQA
93%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GPT-5.2 obtuvo 93% en este benchmark.
DocVQA
95%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GPT-5.2 obtuvo 95% en este benchmark.
Terminal-Bench
60%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GPT-5.2 obtuvo 60% en este benchmark.
ARC-AGI
52.9%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GPT-5.2 obtuvo 52.9% en este benchmark.

Acerca de GPT-5.2

Conoce las capacidades, características y formas de uso de GPT-5.2.

GPT-5.2 es el model flagship de razonamiento de OpenAI diseñado para el trabajo de conocimiento profesional de alto impacto y la ingeniería autónoma. Lanzado el 11 de diciembre de 2025, marca una evolución significativa respecto a las series GPT-4 y GPT-o1 al integrar un Thinking mode dedicado con controles de esfuerzo (Medio, Alto, Extra Alto). Esto permite que el model haga una pausa y verifique la lógica de múltiples pasos antes de generar una respuesta.

Con una context window de 400K masiva y casi un 100% de recuperación, está diseñado para revisiones de código de nivel senior, refactorizaciones complejas e investigación científica. La arquitectura del model está construida para soportar flujos de trabajo agentic, presentando llamadas a herramientas nativas y visión multimodal que puede procesar diagramas técnicos complejos y codebases simultáneamente.

Aunque sobresale en precisión lógica y benchmarks de ingeniería, alcanzando un 100% de puntuación en AIME 2025, adopta un tono más formal y mecánico en comparación con competidores como Claude. Actualmente tiene un precio de $1.75 por millón de tokens de entrada y $14.00 por millón de tokens de salida, lo que lo convierte en una alternativa rentable para tareas de deep reasoning que anteriormente requerían supervisión humana de alto costo computacional.

GPT-5.2

Casos de uso de GPT-5.2

Descubre las diferentes formas de usar GPT-5.2 para lograr excelentes resultados.

Refactorizaciones de ingeniería complejas

Realizar refactorizaciones profundas en codebases críticas para el rendimiento mientras se mantienen invariantes de tipo estrictas y consistencia arquitectónica.

Tareas autónomas en terminal

Ejecutar flujos de trabajo de CLI de múltiples pasos y gestionar despliegues en la nube complejos mediante un alto rendimiento en entornos de Terminal-Bench.

Síntesis de conocimiento a nivel de doctorado

Analizar cientos de fuentes técnicas y artículos académicos simultáneamente para crear informes de investigación exhaustivos sobre temas científicos especializados.

Resolución de errores de concurrencia

Identificar y corregir sutiles condiciones de carrera o fugas de memoria que requieren una inference lógica de alto nivel sobre segmentos largos de código.

Procesamiento de código mecánico

Manejar migraciones de código a gran escala y repetitivas en repositorios completos sin la pereza observada a menudo en los LLM de propósito general.

Revisión técnica senior

Actuar como un ingeniero senior virtual para revisar planes de diseño e identificar casos extremos en la lógica de sistemas de producción.

Fortalezas

Limitaciones

Precisión de ingeniería superior: Alcanzó una puntuación del 77.3% en Terminal-Bench 2.0, superando a la competencia en tareas complejas de interfaz de línea de comandos.
Alta latencia de respuesta: La sobrecarga significativa del reasoning implica que el model es notablemente más lento que las iteraciones anteriores, lo que genera tiempos de espera prolongados.
Reasoning matemático de élite: Obtuvo un 100% en el benchmark AIME 2025, demostrando capacidad para matemáticas de nivel de competencia sin herramientas externas.
Tono de experiencia de usuario artificial: Criticado por los usuarios por una ayuda pretenciosa y excesivamente estructurada que se siente menos natural que la serie Claude.
Baja tasa de alucinación: Las pruebas de la comunidad y los benchmarks internos muestran una reducción del 30% en la fabricación de hechos en comparación con las generaciones flagship anteriores.
Proceso de pensamiento opaco: A diferencia de algunos models de reasoning transparentes, GPT-5.2 a menudo oculta su chain-of-thought interno, proporcionando solo la respuesta verificada final.
Persistencia de tareas extendida: Capaz de mantener sesiones de trabajo autónomo activas durante más de dos horas, lo que lo hace ideal para labores de desarrollo a gran escala.
Costos premium de reasoning: El precio de salida de $14.00 puede escalar rápidamente durante tareas de reasoning largas donde se cobra por altos volúmenes de thinking tokens.

Inicio rápido de API

openai/gpt-5.2

Ver documentación
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function solveCodeProblem() {
  const response = await openai.chat.completions.create({
    model: 'gpt-5.2',
    messages: [{ role: 'user', content: 'Debug this race condition in my Rust service.' }],
    reasoning_effort: 'high',
    temperature: 0,
  });
  console.log(response.choices[0].message.content);
}

solveCodeProblem();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GPT-5.2

Mira lo que la comunidad piensa sobre GPT-5.2

GPT 5.2 en Codex es una gran mejora, está más dispuesto a manejar esas tareas mecánicas que normalmente volverían perezosos a los models.
ArchMeta1868
reddit
La mayor deliberación y el tiempo dedicado a verificar los hechos de su salida son dignos de elogio... la fiabilidad ha mejorado mucho.
Thomas Randall
techopedia
El model que potencia la investigación profunda mostró un enfoque humano al buscar eficazmente información especializada cuando fue necesario.
OpenAI Official
twitter
El enfoque de OpenAI en el 'cuidado del usuario' estructurado se siente como una máscara corporativa para un núcleo frío en comparación con las discusiones naturales de Claude.
Anonymous Developer
hackernews
Por fin un model que no se vuelve perezoso a mitad de una refactorización de 500 líneas.
CodeWizard
reddit
El parámetro reasoning effort es el verdadero MVP para problemas de lógica complejos.
AIBuilder
twitter

Videos sobre GPT-5.2

Mira tutoriales, reseñas y discusiones sobre GPT-5.2

Esto es realmente una locura. Mira este intento.

El diseño no me impresiona mucho en GPT 5.2... fue mucho peor que Gemini 3.

La recuperación de contexto es casi perfecta en todo el rango de 400k.

Se siente mucho más como un motor de reasoning que como un chatbot.

La latencia es el único factor determinante para algunas aplicaciones en tiempo real.

GPT 5.2 ahora puede crear hojas de cálculo y presentaciones completamente formateadas directamente dentro de ChatGPT.

Es como si el model finalmente hubiera madurado y empezado a tomarse su trabajo en serio.

Utiliza la configuración de reasoning alto solo para tareas con mucha lógica.

Las alucinaciones han disminuido significativamente en comparación con la serie 4o.

Los flujos de trabajo agentic son finalmente viables sin necesidad de supervisión constante.

GPT 5.2 es en realidad un 40% más caro que el 5.1, pero sigue siendo significativamente más barato que Opus.

GPT 5.2 tardó 11 minutos y 20 segundos [en construir la aplicación]. Así que el doble de tiempo [en comparación con Opus].

La calidad de salida es mucho mayor cuando permites que el modo de pensamiento se ejecute.

Manejó la refactorización de múltiples archivos sin perder las definiciones de tipo.

Si necesitas velocidad pura, este no es el model para ti.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GPT-5.2

Consejos de expertos para ayudarte a sacar el máximo provecho de GPT-5.2.

Aprovecha el Thinking Effort

Utiliza el parámetro reasoning_effort (medium, high, xhigh) para ajustar el tiempo de deliberación del model a la complejidad de la tarea.

Habilita Codex para la persistencia

Al trabajar en repositorios grandes, utiliza el entorno dedicado de Codex para mantener sesiones de procesamiento activas por hasta 150 minutos.

Proporciona contexto detallado

Incluye documentación de fondo detallada en los system prompts, ya que el model funciona mejor cuando se le cuestiona sobre el contexto que necesita.

Itera sobre los requisitos

Instruye explícitamente al model para que realice comprobaciones de verificación contra el codebase actual para asegurar que los requisitos sean validados.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre GPT-5.2

Encuentra respuestas a preguntas comunes sobre GPT-5.2