deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale 是一款以 reasoning 为首要任务的 LLM,具有金牌数学表现、DeepSeek Sparse Attention 和 131K context window。足以媲美 GPT-5...

DeepSeekReasoningAIOpenSourceMathOlympiadSparseAttention
deepseek logodeepseekDeepSeek-V32025年12月1日
上下文
131Ktokens
最大输出
131Ktokens
输入价格
$0.28/ 1M
输出价格
$0.42/ 1M
模态:Text
能力:工具流式传输推理
基准测试
GPQA
91.5%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 DeepSeek-V3.2-Speciale 在此基准测试中得分 91.5%。
HLE
30.6%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 30.6%。
MMLU
88.5%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 DeepSeek-V3.2-Speciale 在此基准测试中得分 88.5%。
MMLU Pro
78.4%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 78.4%。
SimpleQA
45.8%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 45.8%。
IFEval
91.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 91.2%。
AIME 2025
96%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 96%。
MATH
90.1%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 DeepSeek-V3.2-Speciale 在此基准测试中得分 90.1%。
GSM8k
98.9%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 98.9%。
MGSM
92.5%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 DeepSeek-V3.2-Speciale 在此基准测试中得分 92.5%。
MathVista
68.5%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 68.5%。
SWE-Bench
73.1%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 73.1%。
HumanEval
94.1%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 DeepSeek-V3.2-Speciale 在此基准测试中得分 94.1%。
LiveCodeBench
71.4%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 71.4%。
MMMU
70.2%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 DeepSeek-V3.2-Speciale 在此基准测试中得分 70.2%。
MMMU Pro
58%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 DeepSeek-V3.2-Speciale 在此基准测试中得分 58%。
ChartQA
85%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 85%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 93%。
Terminal-Bench
46.4%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 46.4%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 12%。

关于 DeepSeek-V3.2-Speciale

了解 DeepSeek-V3.2-Speciale 的功能、特性以及它如何帮助您获得更好的效果。

专注于高算力 Reasoning

DeepSeek-V3.2-Speciale 是一个拥有 6850 亿参数的 Mixture-of-Experts 语言 model。它每个 token 激活 370 亿参数,以平衡性能和效率。该变体专为解决需要大量内部 reasoning 的多步问题而设计。通过将训练后计算量扩大到预训练预算的 10% 以上,该 model 可产生单次响应超过 47,000 个 token 的长 chain-of-thought 轨迹。这使其非常适合处理复杂的逻辑证明和技术研究。

Sparse Attention 架构

该 model 使用 DeepSeek Sparse Attention (DSA) 来管理其 131,072 个 token 的 context window。该机制利用闪电索引器 (lightning indexer) 来隔离最相关的 token,减少了 dense 长 context 系统中常见的计算负担。它在保持逻辑的同时降低了开销。该架构专门针对那些优先考虑 reasoning 深度而非广泛多模态灵活性的高算力环境。

技术与学术表现

Speciale 是第一个在 2025 年国际数学奥林匹克 (IMO) 中达到金牌水平的 open-weights model。它在 AIME 2025 和 HumanEval 等技术 benchmark 中表现出色,在纯逻辑任务上经常与闭源系统持平。开发者可以使用它来生成复杂的代码库或综合密集的学术技术文档。该 model 根据 MIT 协议发布,有助于在 open-source 社区中得到广泛应用。

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale 的使用案例

发现使用 DeepSeek-V3.2-Speciale 获得出色效果的不同方式。

数学证明生成

解决奥数级别的数学证明和需要高认知深度的符号逻辑问题。

软件架构设计

通过在不使用工具的情况下分析结构依赖关系,生成复杂的多文件软件架构。

技术文档综合

在其 131K context window 内对海量技术论文进行分析和交叉引用。

合成数据生产

创建高质量、富有 reasoning 的训练数据集,将逻辑提炼到更小、更专业的 AI model 中。

科学深度研究

审阅并综合密集的学术文献,提取 STEM 领域中细致的逻辑演进。

自主智能体规划

为模拟环境中的 AI 智能体规划复杂的步骤并制定策略。

优势

局限性

顶尖数学表现: 在 AIME 2025 上达到 96% 的分数,并在 IMO 国际比赛中获得金牌水平的结果。
无原生多模态能力: 缺乏处理图像或音频的能力,限制其仅能用于文本数据。
海量思考预算: 生成超过 47,000 个 token 的思考轨迹,用于深度逻辑探索。
禁用 Tool Calling: 不支持函数调用,限制了其在自主 API 交互中的效用。
DSA 效率: DeepSeek Sparse Attention 机制以低于 dense model 的计算成本处理 128K context。
推理延迟 (Inference Latency): 对于复杂的逻辑证明,思考模式可能导致数分钟的等待时间。
成本优势: 以每百万 token $0.28 的价格提供 frontier-level 的 reasoning,显著低于闭源竞品。
托管要求: 由于其 6850 亿参数的 MoE 架构,需要企业级的 GPU 集群。

API快速入门

deepseek/deepseek-v3.2-speciale

查看文档
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: process.env.DEEPSEEK_API_KEY,
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "Solve for x in the complex plane: e^z = -1." }],
    model: "deepseek-v3.2-speciale",
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 DeepSeek-V3.2-Speciale 的评价

看看社区对 DeepSeek-V3.2-Speciale 的看法

DeepSeek-V3.2-Speciale 是个怪兽。这种 reasoning 能力足以媲美 Gemini 3 Pro。
OpenRouter
twitter
HumanEval 的分数是真实的。它写出的代码比我本月测试的许多闭源 model 都要简洁。
dev_guru_99
reddit
定价简直疯狂。以 OpenAI 或 Anthropic 一小部分的价格提供 frontier-level 的 reasoning。
AI_Builder_X
twitter
看到一个 open-weights model 真正挑战前三大实验室,感觉很振奋。这里的架构选择非常出色。
binary_explorer
hackernews

关于 DeepSeek-V3.2-Speciale 的视频

观看关于 DeepSeek-V3.2-Speciale 的教程、评测和讨论

它确实进行了疯狂长时间的思考……它是一个深度的推理者。

DeepSeek model [在 IMO] 获得了金牌,而 Deepthink 只获得了铜牌。

观察它的工作方式极具教育价值。

与标准 model 相比,这里的逻辑处于另一个层次。

你可以亲眼看到 model 在不断迭代失败的过程。

Speciale 指的就是深度思考。它有一个深度思考模式。

它思考了 63 秒……这太令人惊叹了。

它非常聪明……写出了一些非常先进的代码。

在本地扩展它将是用户面临的最大障碍。

大多数平台对 reasoning token 的计费方式不同。

Speciale 是个怪兽。满血版 reasoning,深度 chain-of-thought。

Speciale 专为深度 reasoning、多步证明、复杂研究而设计。

DeepSeek 的透明度是一个巨大的优势……可以看到它的工作过程。

它在比 Gemini 长得多的响应中仍能保持逻辑连贯。

Sparse Attention 技术是他们保持低定价的原因。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

DeepSeek-V3.2-Speciale专业提示

专家提示助您充分利用DeepSeek-V3.2-Speciale。

优化采样参数

对于高逻辑任务,将 temperature 设置为 1.0,top_p 设置为 0.95,以确保深度的 reasoning 路径保持多样性。

提供技术细节

使用 markdown 结构化指令,以帮助 model 更好地组织其内部的 chain-of-thought 处理过程。

预留思考时间

由于 model 会生成大量的内部思考链,在处理复杂证明时请预期更高的 latency。

使用专用端点

在配置中指定 'speciale' API 路径,以专门访问高算力 reasoning 变体。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

关于DeepSeek-V3.2-Speciale的常见问题

查找关于DeepSeek-V3.2-Speciale的常见问题答案