deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale es un LLM centrado en el razonamiento con desempeño matemático de medalla de oro, DeepSeek Sparse Attention y una context window de...

DeepSeekReasoningAIOpenSourceMathOlympiadSparseAttention
deepseek logodeepseekDeepSeek-V31 de diciembre de 2025
Contexto
131Ktokens
Salida máx.
131Ktokens
Precio entrada
$0.28/ 1M
Precio salida
$0.42/ 1M
Modalidad:Text
Capacidades:HerramientasStreamingRazonamiento
Benchmarks
GPQA
91.5%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). DeepSeek-V3.2-Speciale obtuvo 91.5% en este benchmark.
HLE
30.6%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. DeepSeek-V3.2-Speciale obtuvo 30.6% en este benchmark.
MMLU
88.5%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. DeepSeek-V3.2-Speciale obtuvo 88.5% en este benchmark.
MMLU Pro
78.4%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. DeepSeek-V3.2-Speciale obtuvo 78.4% en este benchmark.
SimpleQA
45.8%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. DeepSeek-V3.2-Speciale obtuvo 45.8% en este benchmark.
IFEval
91.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. DeepSeek-V3.2-Speciale obtuvo 91.2% en este benchmark.
AIME 2025
96%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. DeepSeek-V3.2-Speciale obtuvo 96% en este benchmark.
MATH
90.1%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. DeepSeek-V3.2-Speciale obtuvo 90.1% en este benchmark.
GSM8k
98.9%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. DeepSeek-V3.2-Speciale obtuvo 98.9% en este benchmark.
MGSM
92.5%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. DeepSeek-V3.2-Speciale obtuvo 92.5% en este benchmark.
MathVista
68.5%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. DeepSeek-V3.2-Speciale obtuvo 68.5% en este benchmark.
SWE-Bench
73.1%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). DeepSeek-V3.2-Speciale obtuvo 73.1% en este benchmark.
HumanEval
94.1%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. DeepSeek-V3.2-Speciale obtuvo 94.1% en este benchmark.
LiveCodeBench
71.4%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. DeepSeek-V3.2-Speciale obtuvo 71.4% en este benchmark.
MMMU
70.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. DeepSeek-V3.2-Speciale obtuvo 70.2% en este benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. DeepSeek-V3.2-Speciale obtuvo 58% en este benchmark.
ChartQA
85%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. DeepSeek-V3.2-Speciale obtuvo 85% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. DeepSeek-V3.2-Speciale obtuvo 93% en este benchmark.
Terminal-Bench
46.4%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. DeepSeek-V3.2-Speciale obtuvo 46.4% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. DeepSeek-V3.2-Speciale obtuvo 12% en este benchmark.

Acerca de DeepSeek-V3.2-Speciale

Conoce las capacidades, características y formas de uso de DeepSeek-V3.2-Speciale.

Enfoque en razonamiento de alta computación

DeepSeek-V3.2-Speciale es un model de lenguaje de tipo Mixture-of-Experts que cuenta con 685 mil millones de parameters. Activa 37 mil millones de parameters por token para equilibrar el desempeño y la eficiencia. Esta variante está diseñada para resolver problemas de múltiples pasos que requieren un razonamiento interno significativo. Al escalar el cómputo post-entrenamiento a más del 10% del presupuesto de pre-entrenamiento, el model produce largas trayectorias de chain-of-thought que pueden superar los 47,000 tokens por respuesta. Esto lo hace adecuado para navegar pruebas lógicas complejas e investigación técnica.

Arquitectura Sparse Attention

El model utiliza DeepSeek Sparse Attention (DSA) para gestionar su context window de 131,072 tokens. Este mecanismo emplea un indexador relámpago para aislar los tokens más relevantes, reduciendo la carga computacional típicamente encontrada en sistemas densos de contexto largo. Mantiene la lógica mientras opera con menor sobrecarga. La arquitectura se dirige específicamente a entornos de alta computación donde la profundidad del razonamiento se prioriza sobre la flexibilidad multimodal amplia.

Desempeño técnico y académico

Speciale es el primer model de open-weights en lograr resultados de nivel de medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) de 2025. Destaca en benchmarks técnicos como AIME 2025 y HumanEval, a menudo igualando a los sistemas propietarios en tareas de lógica pura. Los desarrolladores pueden utilizarlo para generar bases de código complejas o sintetizar documentación técnica densa. El model se publica bajo la licencia MIT, facilitando una amplia utilidad en la comunidad open-source.

DeepSeek-V3.2-Speciale

Casos de uso de DeepSeek-V3.2-Speciale

Descubre las diferentes formas de usar DeepSeek-V3.2-Speciale para lograr excelentes resultados.

Generación de pruebas matemáticas

Resolución de pruebas matemáticas de nivel olímpico y problemas de lógica simbólica que requieren una alta profundidad cognitiva.

Diseño de arquitectura de software

Generación de arquitecturas de software complejas de múltiples archivos mediante el razonamiento a través de dependencias estructurales sin el uso de herramientas.

Síntesis de documentos técnicos

Análisis y referencias cruzadas de información en documentos técnicos masivos dentro de su context window de 131K.

Producción de datos sintéticos

Creación de datasets de entrenamiento ricos en razonamiento de alta calidad para destilar lógica en modelos de IA más pequeños y especializados.

Investigación científica profunda

Revisión y síntesis de literatura académica densa para extraer una progresión lógica matizada en campos STEM.

Planificación de agentes autónomos

Navegación por una planificación compleja de múltiples pasos y desarrollo de estrategias para agentes de IA en entornos simulados.

Fortalezas

Limitaciones

Desempeño matemático de élite: Logra un 96% en AIME 2025 y resultados de medalla de oro en la competencia internacional IMO.
Sin multimodalidad nativa: Carece de la capacidad de procesar imágenes o audio, limitando su uso a datos basados en texto.
Presupuesto de pensamiento masivo: Genera trayectorias de pensamiento que superan los 47,000 tokens para una exploración lógica profunda.
Tool calling desactivado: No admite llamadas a funciones, lo que limita su utilidad para la interacción autónoma con APIs.
Eficiencia DSA: El mecanismo de DeepSeek Sparse Attention gestiona un contexto de 128K con costos de cómputo inferiores a los de los modelos densos.
Inference latency: Los modos de pensamiento pueden causar tiempos de espera de varios minutos en pruebas lógicas complejas.
Ventaja en costos: Proporciona razonamiento de nivel frontier a $0.28 por millón de tokens, lo cual es significativamente más barato que las alternativas propietarias.
Requisitos de alojamiento: Requiere clústeres de GPU de nivel empresarial debido a su arquitectura MoE de 685 mil millones de parameters.

Inicio rápido de API

deepseek/deepseek-v3.2-speciale

Ver documentación
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: process.env.DEEPSEEK_API_KEY,
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "Solve for x in the complex plane: e^z = -1." }],
    model: "deepseek-v3.2-speciale",
  });

  console.log(completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre DeepSeek-V3.2-Speciale

Mira lo que la comunidad piensa sobre DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale es una bestia. Razonamiento al máximo que compite con Gemini 3 Pro.
OpenRouter
twitter
Las puntuaciones de HumanEval son reales. Escribe un código más limpio que muchos modelos propietarios que he probado este mes.
dev_guru_99
reddit
El precio es simplemente una locura. Razonamiento de nivel frontier a una fracción del costo de OpenAI o Anthropic.
AI_Builder_X
twitter
Es refrescante ver un model de open-weights desafiando a los 3 principales laboratorios. Las elecciones de arquitectura aquí son brillantes.
binary_explorer
hackernews

Videos sobre DeepSeek-V3.2-Speciale

Mira tutoriales, reseñas y discusiones sobre DeepSeek-V3.2-Speciale

Razona durante una cantidad de tiempo increíble... es un razonador profundo.

El model DeepSeek obtiene oro [en IMO] mientras que Deepthink solo obtuvo bronce.

Ver lo que hace puede ser extremadamente valioso desde el punto de vista educativo.

La lógica aquí está en otro nivel en comparación con los modelos estándar.

Realmente puedes ver al model iterando a través de fallos.

Todo lo que significa 'speciale' es pensamiento profundo. Tiene un modo de pensamiento profundo.

Piensa durante 63 segundos... eso es bastante increíble.

Es muy inteligente ahí... generando código realmente avanzado.

Escalar esto localmente será el mayor obstáculo para los usuarios.

Los tokens de razonamiento se facturan de forma diferente en la mayoría de las plataformas.

Speciale es la bestia. Razonamiento al máximo, chain of thought profundo.

Speciale está diseñado para razonamiento profundo, pruebas de múltiples pasos, investigación compleja.

La transparencia de DeepSeek es una ventaja masiva... ver el trabajo.

Logra mantenerse coherente durante respuestas mucho más largas que Gemini.

La tecnología Sparse Attention es cómo mantienen los precios tan bajos.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para DeepSeek-V3.2-Speciale

Consejos de expertos para ayudarte a sacar el máximo provecho de DeepSeek-V3.2-Speciale.

Optimice los parámetros de muestreo

Establezca la temperatura en 1.0 y top_p en 0.95 para tareas de alta lógica, garantizando que las rutas de razonamiento profundo sigan siendo diversas.

Proporcione detalles técnicos

Estructure las instrucciones en markdown para ayudar al model a organizar mejor su procesamiento interno de chain-of-thought.

Permita tiempo de pensamiento

Espere una mayor latency durante pruebas complejas, ya que el model genera cadenas de pensamiento internas masivas.

Utilice endpoints dedicados

Especifique la ruta de API 'speciale' en su configuración para acceder específicamente a la variante de razonamiento de alta computación.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

Preguntas Frecuentes Sobre DeepSeek-V3.2-Speciale

Encuentra respuestas a preguntas comunes sobre DeepSeek-V3.2-Speciale