deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale 是一款 reasoning 优先的 LLM,具备金牌级数学表现、DeepSeek 稀疏注意力机制和 131K context window。挑战 GPT-5...

DeepSeek逻辑推理 AI开源数学奥林匹克稀疏注意力
deepseek logodeepseekDeepSeek-V32025-12-01
上下文
131Ktokens
最大输出
131Ktokens
输入价格
$0.28/ 1M
输出价格
$0.42/ 1M
模态:Text
能力:工具流式传输推理
基准测试
GPQA
91.5%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 DeepSeek-V3.2-Speciale 在此基准测试中得分 91.5%。
HLE
30.6%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 30.6%。
MMLU
88.5%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 DeepSeek-V3.2-Speciale 在此基准测试中得分 88.5%。
MMLU Pro
78.4%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 78.4%。
SimpleQA
45.8%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 45.8%。
IFEval
91.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 91.2%。
AIME 2025
96%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 96%。
MATH
90.1%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 DeepSeek-V3.2-Speciale 在此基准测试中得分 90.1%。
GSM8k
98.9%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 98.9%。
MGSM
92.5%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 DeepSeek-V3.2-Speciale 在此基准测试中得分 92.5%。
MathVista
68.5%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 68.5%。
SWE-Bench
73.1%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 DeepSeek-V3.2-Speciale 在此基准测试中得分 73.1%。
HumanEval
94.1%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 DeepSeek-V3.2-Speciale 在此基准测试中得分 94.1%。
LiveCodeBench
71.4%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 71.4%。
MMMU
70.2%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 DeepSeek-V3.2-Speciale 在此基准测试中得分 70.2%。
MMMU Pro
58%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 DeepSeek-V3.2-Speciale 在此基准测试中得分 58%。
ChartQA
85%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 85%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 93%。
Terminal-Bench
46.4%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 46.4%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 DeepSeek-V3.2-Speciale 在此基准测试中得分 12%。

关于 DeepSeek-V3.2-Speciale

了解 DeepSeek-V3.2-Speciale 的功能、特性以及它如何帮助您获得更好的效果。

Reasoning 的新前沿

DeepSeek-V3.2-Speciale 是一款 state-of-the-art、以 reasoning 为核心的大语言 model (LLM),是 V3.2 家族中的高计算量变体。该 model 的架构设计明确旨在挑战 GPT-5 和 Gemini 3 Pro 等 frontier model。通过在 reinforcement learning 阶段放宽长度惩罚,并将训练后计算量提升至预训练预算的 10% 以上,它实现了卓越的性能。这使得 model 能够生成极长的 chain-of-thought 轨迹(单次响应超过 47,000 tokens),以解决复杂的多步骤问题。

架构创新

从技术角度看,该 model 引入了 DeepSeek Sparse Attention (DSA),这是一种革命性的机制,利用闪电索引器在其 131K context window 内识别最相关的 tokens。通过专注于 tokens 的特定子集,该 model 在保持 dense 架构准确性的同时,显著降低了长 context inference 的计算开销。值得注意的是,它是首个在 2025 年国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 中获得金牌级成绩的 open-source model。

效率与集成

除了纯粹的逻辑能力,该 model 还优先考虑成本效率和开发者实用性。它的价格仅为闭源同类产品的零头,并支持“工具调用中的思考”模式,即 reasoning 被直接整合到工具调用的循环中。这使得自主智能体更加健壮,能够在复杂的模拟环境中实时规划、验证和纠正操作。

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale 的使用案例

发现使用 DeepSeek-V3.2-Speciale 获得出色效果的不同方式。

奥数级数学证明

:解决 IMO 和 CMO 等竞赛级问题,这些问题通常需要数十个逻辑步骤。

Agentic 软件工程

:通过自主导航复杂的代码库并应用补丁,解决现实世界的 GitHub 问题。

复杂系统仿真

:高精度模拟物理或数学系统,如射频传播或波动物理学。

深度 Reasoning 工作流

:为战略规划或科学发现执行全面的研究和 chain-of-thought 分析。

自主智能体规划

:利用“工具调用中的思考”在 1,800 多个模拟环境中规划、执行并验证多步骤动作。

零样本竞赛编程

:为 CodeForces 或 IOI 级别的编程挑战生成高效算法,并具备自动纠错能力。

优势

局限性

金牌级 Reasoning: :在 2025 年国际数学奥林匹克 (IMO) 中达到金牌水平,逻辑表现超越了几乎所有的 closed-source model。
Token 利用率较低: :为了实现高准确度,该 model 生成的 tokens 数量往往是竞争对手的 3 到 4 倍,导致等待时间较长。
无可比拟的性价比: :价格仅为 $0.28/$0.42 每 1M tokens,以极低成本提供 frontier model 级别的 reasoning 能力,使大规模 agent 部署成为可能。
硬件需求极高: :作为一个拥有 671B parameters 的 model,本地运行需要极大的 VRAM 配置,超出了大多数消费级台式机的能力。
高效的长上下文处理: :DeepSeek Sparse Attention (DSA) 机制使其在处理 131K tokens 时,计算成本远低于标准的 dense transformer。
推理延迟: :漫长的 reasoning 链意味着 model 在处理高度复杂的数学问题时,可能需要几分钟才能给出最终答案。
高级工具集成: :首创“工具调用中的思考”模式,将 reasoning 直接整合到工具调用的循环中。
仅针对 API 优化的 Beta 版: :虽然权重已公开,但目前最完美的 Speciale 体验主要通过 DeepSeek 的 API 端点优先提供。

API快速入门

deepseek/deepseek-v3.2-speciale

查看文档
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: "YOUR_DEEPSEEK_API_KEY",
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "使用逐步 reasoning 解决 2025 年 IMO 第一题。" }],
    model: "deepseek-v3.2-speciale",
    max_tokens: 16384, 
  });

  console.log("Reasoning Chain:", completion.choices[0].message.reasoning_content);
  console.log("Final Answer:", completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 DeepSeek-V3.2-Speciale 的评价

看看社区对 DeepSeek-V3.2-Speciale 的看法

"DeepSeek V3.2 Speciale 在我的数学测试中称霸,而且比 GPT-5.1 High 便宜约 15 倍。"
gum1h0x
x
"他们是第一个发布能达到 2025 IMO 金牌和 ICPC 世界总决赛水平,且人人都可访问的 model。"
Chubby
reddit
"它的 reasoning 时间确实长得惊人……但它生成的脚本在数学上无懈可击。"
Bijan Bowen
youtube
"Speciale 是为难题而生的——在 2025 IMO 金牌表现上足以挑战 Gemini-3.0-Pro。"
nick-baumann
reddit
"有效率非常高,这意味着即使它产生了一个错误的词汇转换,也不会陷入死循环。"
Lisan al Gaib
x
"这基本上是以 GPT-4o-mini 的价格实现了 o1-pro 的性能。DeepSeek 的工作太不可思议了。"
tech-enthusiast
hackernews

关于 DeepSeek-V3.2-Speciale 的视频

观看关于 DeepSeek-V3.2-Speciale 的教程、评测和讨论

他们基本上是说它拥有极致的 reasoning 能力,旨在与 Gemini 3 Pro 竞争。

让我产生共鸣的是,Gemini 2.5 deepthink 只获得了铜牌成绩,而这款 DeepSeek model 拿到了金牌。

能拥有一个这种级别、且标榜为 open-source 的 model 真的很棒。

它会思考很长时间……它不是为了回答‘2+2等于几’这种简单问题而设计的。

在 2025 年奥数题上的准确率,对于这个价位的 model 来说简直闻所未闻。

V3.2 Speciale 拥有顶级的 reasoning 能力,更像是 Gemini 3 Pro 的对手。

DeepSeek 是第一个将思考过程直接整合到工具调用中的。

一个足以媲美那些闭源且昂贵 model 的 open-source model。

他们达到的 benchmark 数据基本上完胜大多数开源权重 model。

他们在这个变体上确实加倍投入了 reinforcement learning。

Speciale 专为 reasoning 设计……让 model 尽情思考,需要多久就多久。

它现在使用 DSA 或 DeepSeek 稀疏架构来解决注意力瓶颈问题。

这不只是理论上的优化。这意味着即使在长 context 下,这个 model 的运行成本也极低。

看看 HumanEval,94.1% 的分数对于一个可以下载的 model 来说太惊人了。

在处理代码重构方面,它感觉比标准版 V3 更加“智能”。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

DeepSeek-V3.2-Speciale专业提示

专家提示助您充分利用DeepSeek-V3.2-Speciale。

禁用长度限制:确保您的 API 调用没有严格的 max_tokens 限制;该 model 需要足够的空间进行“思考”。

监控 Token 消耗:该 model 优先考虑准确性而非简洁性,对于相同任务,其 tokens 使用量可能是标准 model 的 3-4 倍。

在工具调用中利用思考过程:将该 model 用于复杂的 agent 任务,使其在执行工具期间而不仅仅是执行前进行 reasoning。

本地量化:如果在本地运行,请使用 Q5_K_M 或更高等级的量化,以保留 671B 架构中复杂的 reasoning 权重。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M

关于DeepSeek-V3.2-Speciale的常见问题

查找关于DeepSeek-V3.2-Speciale的常见问题答案