anthropic

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 的 flagship model,具有 1M token context window、Adaptive Thinking 以及世界级的 coding 和 reasoning 表现。

ReasoningCodingMultimodalAgentic AI企业级
anthropic logoanthropicClaudeFebruary 5, 2026
上下文
200Ktokens
最大输出
128Ktokens
输入价格
$5.00/ 1M
输出价格
$25.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
91%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude Opus 4.6 在此基准测试中得分 91%。
HLE
53%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Claude Opus 4.6 在此基准测试中得分 53%。
MMLU
91%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude Opus 4.6 在此基准测试中得分 91%。
MMLU Pro
82%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude Opus 4.6 在此基准测试中得分 82%。
SimpleQA
72%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Claude Opus 4.6 在此基准测试中得分 72%。
IFEval
94%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude Opus 4.6 在此基准测试中得分 94%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude Opus 4.6 在此基准测试中得分 100%。
MATH
93%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude Opus 4.6 在此基准测试中得分 93%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude Opus 4.6 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude Opus 4.6 在此基准测试中得分 96%。
MathVista
75%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude Opus 4.6 在此基准测试中得分 75%。
SWE-Bench
81%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude Opus 4.6 在此基准测试中得分 81%。
HumanEval
95%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude Opus 4.6 在此基准测试中得分 95%。
LiveCodeBench
76%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude Opus 4.6 在此基准测试中得分 76%。
MMMU
77%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude Opus 4.6 在此基准测试中得分 77%。
MMMU Pro
77%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude Opus 4.6 在此基准测试中得分 77%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude Opus 4.6 在此基准测试中得分 89%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude Opus 4.6 在此基准测试中得分 93%。
Terminal-Bench
65%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude Opus 4.6 在此基准测试中得分 65%。
ARC-AGI
69%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude Opus 4.6 在此基准测试中得分 69%。

关于 Claude Opus 4.6

了解 Claude Opus 4.6 的功能、特性以及它如何帮助您获得更好的效果。

智能的新前沿

Claude Opus 4.6 代表了大语言 model 能力的重大飞跃,专门为最苛刻的认知任务而设计。它于 2026 年 2 月 5 日发布,引入了 Adaptive Thinking,这是一项突破性功能,允许 model 根据查询复杂度动态缩放其 reasoning 投入。这确保了在保持简单查询高效的同时,复杂的逻辑谜题和高风险的工程任务能得到所需的深度处理。

为 Agentic 时代而生

Opus 4.6 的设计初衷不仅限于简单的聊天,它是 自主 agentic 工作流 的强大动力。凭借在 Terminal-Bench 2.0 和 SWE-Bench Verified 上的行业领先评分,它可以浏览计算机环境、管理多步骤软件 debugging,并在极少人工干预的情况下编排复杂项目。其扩展的 100 万 token context window(在 beta 版中提供)使其能够同时在内存中保留整个技术生态系统。

Claude Opus 4.6 的使用案例

发现使用 Claude Opus 4.6 获得出色效果的不同方式。

自主 Agent 工作流

:利用 OSWorld 级别的 reasoning 在视觉桌面环境中编排多步骤的 agentic 任务。

全栈 Vibe Coding

:通过单个高层级 prompt 生成完整的 functional 应用,如 3D 游戏或复杂的仪表板。

大规模仓库管理

:利用 1M token context window 和 Model Context Protocol 分析和重构大规模代码库。

深度科学研究

:凭借顶尖的 GPQA Diamond 表现,综合生物、化学和物理领域的博士级信息。

专家级财务分析

:进行 agentic 财务建模和多源数据综合,辅助企业级决策。

长周期规划

:管理需要持续工具使用和任务执行的复杂、为期数月的项目或模拟。

优势

局限性

卓越的 Agentic Reasoning: :在 Terminal-Bench 2.0 (65%) 和 OSWorld 自主 agents 测试中表现达到 state-of-the-art 水平。
较高的 API Latency: :当使用最大 reasoning 投入或海量 context windows 时,该 model 的速度可能明显慢于 Sonnet 变体。
海量 Context 容量: :1M token window (beta) 允许处理整个库或大型软件仓库而不会丢失焦点。
溢价定价模式: :每百万 tokens 5 美元/25 美元的价格,与优化的 flash 或小型 models 相比,对于开发者来说仍然是一个高成本的选择。
动态 Adaptive Thinking: :缩放 reasoning 投入的能力,确保在快速查询和深度数学问题上都能获得最佳性能。
集成复杂性: :Adaptive Thinking 等功能需要更新 API 实现,并对 Anthropic 的特定工具集有更深入的了解。
卓越的技术精通度: :出色的数学和科学能力,在 AIME 2025 中获得 100% 满分,在 GPQA Diamond 中获得 91% 的评分。
多模态输出有限: :虽然 vision 输入是世界一流的,但该 model 目前缺乏原生的实时音频和视频生成能力。

API快速入门

anthropic/claude-opus-4-6

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env['ANTHROPIC_API_KEY'],
});

const message = await anthropic.messages.create({
  model: "claude-4-6-opus-20260205",
  max_tokens: 128000,
  messages: [
    { role: "user", content: "Create a fully functional 3D physics simulator using Three.js." }
  ],
});

console.log(message.content[0].text);

安装SDK并在几分钟内开始进行API调用。

人们对 Claude Opus 4.6 的评价

看看社区对 Claude Opus 4.6 的看法

"Claude Opus 4.6 的强大令人震撼。想想深度研究 + 高级 reasoning + 强大的 coding 能力。"
Awa K. Penn
x
"超越了 GPT-5.2 xhigh reasoning……相比 Opus 4.5 的 4.6% 分数有了巨大飞跃!"
Minyang Tian
x
"这个 model 目前在 coding 方面非常强势……不会迷失在细节中。"
Dinmukhanbet Aizharykov
x
"我已经用了一个星期,它的 context retention 简直好得吓人。"
CodeMaster99
reddit
"Adaptive thinking 是复杂任务成本管理的游戏规则改变者。"
AI_Strategy_Expert
hackernews
"Opus 4.6 基本上是一个真正听取你反馈的 AGI 实习生。"
TechVlogger2026
youtube

关于 Claude Opus 4.6 的视频

观看关于 Claude Opus 4.6 的教程、评测和讨论

“这个 model 领先于目前所有的 frontier 系统……它完全属于不同的重量级。”

“想象一下一个海量的文档库,而软件实际上能记住第 400 页上的脚注。”

“model 实际上会根据难度决定它需要付出多少努力……就像换挡一样。”

“这是我第一次看到 AI 真正理解复杂工程要求的‘氛围’。”

“这显然是为那些比起速度更追求零样本准确率的企业开发者打造的。”

“Claude 推出了新的 flagship model Opus 4.6……剧透一下,它比我目前见过的任何东西都要好。”

“这个 model 比之前的任何东西都要自主得多……agentic 力量是实实在在的。”

“我个人的感觉是,这本该是 Opus 5。我非常喜欢它的表现。”

“感觉他们终于解决了长对话中的‘偏移’问题。”

“Adaptive thinking 开关是 2026 年最被低估的功能。”

“这是 Opus 4.6,就个人而言我更兴奋,因为我一直使用 Opus models。”

“它给了我所有这些很棒的控制……这是目前为止在该项上最好的结果,领先幅度巨大。”

“一个 prompt……就做出了一个功能完整的游戏,我觉得它甚至可以在 Steam 上发布。”

“现在它调用工具的方式可靠得多,不会对参数产生幻觉。”

“对于重型 coding 项目,这已经正式完全取代了我之前的配置。”

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Claude Opus 4.6专业提示

专家提示助您充分利用Claude Opus 4.6。

利用 Adaptive Thinking

:使用 thinking parameter 在不同投入级别之间切换,以平衡不同任务的成本和认知深度。

Context Compaction

:对于长时间运行的 agentic 任务,启用 beta 版的 context compaction 功能,在不超出 token 限制的情况下保持性能。

利用 MCP 工具

:将 Opus 4.6 与 Model Context Protocol 配合使用,使 model 能够安全地访问本地文件系统和数据库。

单次生成复杂应用

:提供全面的 system prompt;Opus 4.6 能够一次性准确生成 1,000 多行的文件。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
moonshot

Kimi K2.5

moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M

关于Claude Opus 4.6的常见问题

查找关于Claude Opus 4.6的常见问题答案