deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale es un LLM enfocado en reasoning con rendimiento de medalla de oro en matemáticas, DeepSeek Sparse Attention y context window de 131K....

DeepSeekReasoningAIOpenSourceOlimpiadaMatematicaSparseAttention
deepseek logodeepseekDeepSeek-V32025-12-01
Contexto
131Ktokens
Salida máx.
131Ktokens
Precio entrada
$0.28/ 1M
Precio salida
$0.42/ 1M
Modalidad:Text
Capacidades:HerramientasStreamingRazonamiento
Benchmarks
GPQA
91.5%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). DeepSeek-V3.2-Speciale obtuvo 91.5% en este benchmark.
HLE
30.6%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. DeepSeek-V3.2-Speciale obtuvo 30.6% en este benchmark.
MMLU
88.5%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. DeepSeek-V3.2-Speciale obtuvo 88.5% en este benchmark.
MMLU Pro
78.4%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. DeepSeek-V3.2-Speciale obtuvo 78.4% en este benchmark.
SimpleQA
45.8%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. DeepSeek-V3.2-Speciale obtuvo 45.8% en este benchmark.
IFEval
91.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. DeepSeek-V3.2-Speciale obtuvo 91.2% en este benchmark.
AIME 2025
96%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. DeepSeek-V3.2-Speciale obtuvo 96% en este benchmark.
MATH
90.1%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. DeepSeek-V3.2-Speciale obtuvo 90.1% en este benchmark.
GSM8k
98.9%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. DeepSeek-V3.2-Speciale obtuvo 98.9% en este benchmark.
MGSM
92.5%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. DeepSeek-V3.2-Speciale obtuvo 92.5% en este benchmark.
MathVista
68.5%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. DeepSeek-V3.2-Speciale obtuvo 68.5% en este benchmark.
SWE-Bench
73.1%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). DeepSeek-V3.2-Speciale obtuvo 73.1% en este benchmark.
HumanEval
94.1%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. DeepSeek-V3.2-Speciale obtuvo 94.1% en este benchmark.
LiveCodeBench
71.4%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. DeepSeek-V3.2-Speciale obtuvo 71.4% en este benchmark.
MMMU
70.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. DeepSeek-V3.2-Speciale obtuvo 70.2% en este benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. DeepSeek-V3.2-Speciale obtuvo 58% en este benchmark.
ChartQA
85%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. DeepSeek-V3.2-Speciale obtuvo 85% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. DeepSeek-V3.2-Speciale obtuvo 93% en este benchmark.
Terminal-Bench
46.4%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. DeepSeek-V3.2-Speciale obtuvo 46.4% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. DeepSeek-V3.2-Speciale obtuvo 12% en este benchmark.

Acerca de DeepSeek-V3.2-Speciale

Conoce las capacidades, características y formas de uso de DeepSeek-V3.2-Speciale.

Una nueva frontera en el Reasoning

DeepSeek-V3.2-Speciale es un reasoning-first large language model (LLM) de state-of-the-art que sirve como la variante de alto cómputo de la familia V3.2. Arquitectónicamente diseñado para rivalizar con sistemas de frontera como GPT-5 y Gemini 3 Pro, logra un rendimiento excepcional al relajar las penalizaciones de longitud durante el reinforcement learning y escalar el cómputo post-entrenamiento a más del 10% del presupuesto de pre-entrenamiento. Esto permite al model generar trayectorias de chain-of-thought extremadamente largas —superando los 47.000 tokens por respuesta— para resolver problemas complejos de múltiples pasos.

Innovación Arquitectónica

Técnicamente, el model introduce DeepSeek Sparse Attention (DSA), un mecanismo revolucionario que utiliza un indexador ultrarrápido para identificar los tokens más relevantes dentro de su context window de 131K. Al centrarse en un subconjunto específico de tokens, el model reduce significativamente la carga computacional para la inferencia de contexto largo, manteniendo la precisión de las arquitecturas densas. Es notablemente el primer model open-source en obtener resultados de medalla de oro en la Olimpiada Internacional de Matemática (IMO) 2025 y la Olimpiada Internacional de Informática (IOI).

Eficiencia e Integración

Más allá de la lógica pura, el model prioriza la rentabilidad y la utilidad para el desarrollador. Con un precio que es una fracción del de sus homólogos de closed-source, soporta Thinking in Tool-Use, un modo donde el reasoning se integra directamente en el bucle de llamada a herramientas. Esto permite crear agentes autónomos más robustos que pueden planificar, verificar y corregir acciones en tiempo real dentro de entornos simulados complejos.

DeepSeek-V3.2-Speciale

Casos de uso de DeepSeek-V3.2-Speciale

Descubre las diferentes formas de usar DeepSeek-V3.2-Speciale para lograr excelentes resultados.

Demostraciones matemáticas de nivel de olimpiada

Resolución de problemas de nivel de competición de la IMO y CMO que requieren docenas de pasos lógicos.

Ingeniería de software agentic

Resolución de problemas reales de GitHub navegando de forma autónoma por bases de código complejas y aplicando parches.

Simulación de sistemas complejos

Emulación de sistemas físicos o matemáticos, como la propagación de radiofrecuencias o física de ondas, con alta precisión.

Flujos de trabajo de reasoning profundo

Realización de investigaciones exhaustivas y análisis de chain-of-thought para la planificación estratégica o el descubrimiento científico.

Planificación de agentes autónomos

Utilización de "Thinking in Tool-Use" para planificar, ejecutar y verificar acciones de múltiples pasos en más de 1.800 entornos simulados.

Programación competitiva zero-shot

Generación de algoritmos eficientes para desafíos de programación de nivel CodeForces o IOI con autocorrección automatizada.

Fortalezas

Limitaciones

Reasoning de medalla de oro: Obtención de resultados de nivel de oro en la Olimpiada Internacional de Matemática (IMO) 2025, superando a casi cualquier model de closed-source en lógica.
Ineficiencia de tokens: Para lograr su alta precisión, el model a menudo genera de 3 a 4 veces más tokens que sus competidores, lo que conlleva tiempos de espera más largos.
Asequibilidad imbatible: Con un precio de 0,28 $/0,42 $ por cada 1M de tokens, ofrece reasoning de frontier model a un precio que hace viables los despliegues de agentes a gran escala.
Intensidad de hardware: Al ser un model de 671B de parameters, ejecutarlo localmente requiere configuraciones de VRAM masivas que superan a la mayoría de los ordenadores de sobremesa de consumo.
Contexto largo eficiente: El mecanismo DeepSeek Sparse Attention (DSA) le permite procesar 131K tokens con un coste de cómputo mucho menor que los transformers densos estándar.
Latencia de inferencia: Las extensas cadenas de reasoning significan que el model puede tardar varios minutos en producir una respuesta final para problemas matemáticos altamente complejos.
Integración avanzada de herramientas: Presenta el primer modo "Thinking in Tool-Use" de su clase, donde el reasoning se integra directamente en el bucle de llamada a herramientas.
Beta optimizada solo para API: Aunque los pesos están disponibles, la experiencia "Speciale" más optimizada se prioriza actualmente a través de los endpoints de la API de DeepSeek.

Inicio rápido de API

deepseek/deepseek-v3.2-speciale

Ver documentación
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: "TU_API_KEY_DE_DEEPSEEK",
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "Resuelve el Problema 1 de la IMO 2025 con un reasoning paso a paso." }],
    model: "deepseek-v3.2-speciale",
    max_tokens: 16384, 
  });

  console.log("Cadena de Reasoning:", completion.choices[0].message.reasoning_content);
  console.log("Respuesta Final:", completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre DeepSeek-V3.2-Speciale

Mira lo que la comunidad piensa sobre DeepSeek-V3.2-Speciale

"DeepSeek V3.2 Speciale domina mi bench de matemáticas siendo unas 15 veces más barato que GPT-5.1 High"
gum1h0x
x
"Son los primeros en lanzar un model con nivel de Oro en la IMO 2025 y las finales mundiales de la ICPC al que todo el mundo puede acceder realmente"
Chubby
reddit
"Realmente aplica reasoning durante una cantidad de tiempo insana... pero el script que generó era matemáticamente sólido"
Bijan Bowen
youtube
"Speciale es para problemas difíciles; rivaliza con Gemini-3.0-Pro con resultados de medalla de oro en la IMO 2025"
nick-baumann
reddit
"El ratio de validez es altísimo, lo que significa que cuando produce una transición de palabra errónea no cae en un bucle catastrófico"
Lisan al Gaib
x
"Esto es básicamente el rendimiento de o1-pro a precios de GPT-4o-mini. Un trabajo increíble de DeepSeek"
tech-enthusiast
hackernews

Videos sobre DeepSeek-V3.2-Speciale

Mira tutoriales, reseñas y discusiones sobre DeepSeek-V3.2-Speciale

Básicamente dicen que tiene capacidades de reasoning al máximo y está diseñado para rivalizar con Gemini 3 Pro.

La razón por la que me convenció fue cuando Gemini 2.5 deepthink solo obtuvo resultados de nivel bronce mientras que este model de DeepSeek obtiene el oro.

Tener un model de este nivel de potencia que sea, entre comillas, open-source es realmente genial.

Va a estar pensando durante mucho tiempo... no está pensado para preguntas simples de 'cuánto es 2+2'.

La precisión en los problemas de la olimpiada matemática de 2025 es simplemente inaudita para un model a este precio.

La especialidad del V3.2 son sus capacidades de reasoning al máximo y es más un rival para Gemini 3 Pro.

DeepSeek es el primero en integrar el pensamiento directamente en el uso de herramientas.

Un model open-source comparable a estos models de closed-source tan caros.

Las cifras de benchmark que están alcanzando están básicamente barriendo a la mayoría de los pesos abiertos.

Realmente redoblaron la apuesta por el reinforcement learning para esta variante.

Speciale está diseñado específicamente para el reasoning... deja que el model piense todo el tiempo que necesite.

Ahora utiliza su arquitectura DSA o Deepseek sparse para solucionar el cuello de botella de la atención.

Esto no es solo una optimización teórica. Significa que este model es increíblemente barato de ejecutar, incluso con contextos largos.

Cuando miras HumanEval, el 94,1% es simplemente asombroso para un model que puedes descargar.

Se siente más 'inteligente' en cómo maneja la refactorización de código en comparación con el V3 estándar.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro para DeepSeek-V3.2-Speciale

Consejos de expertos para ayudarte a sacar el máximo provecho de DeepSeek-V3.2-Speciale.

Desactiva las restricciones de longitud

Asegúrate de que tu llamada a la API no tenga límites de max_tokens restrictivos; el model necesita espacio para "pensar".

Monitorea el consumo de tokens

Este model prioriza la precisión sobre la brevedad y puede usar 3-4 veces más tokens que los models estándar para la misma tarea.

Aprovecha el razonamiento en el uso de herramientas: Utiliza el model para tareas de agentes complejos donde pueda aplicar reasoning durante la ejecución de herramientas en lugar de solo antes.

Cuantización local

Si lo ejecutas localmente, usa una cuantización Q5_K_M o superior para preservar los intrincados pesos de reasoning de la arquitectura 671B.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M

Preguntas Frecuentes Sobre DeepSeek-V3.2-Speciale

Encuentra respuestas a preguntas comunes sobre DeepSeek-V3.2-Speciale