anthropic

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 的旗舰 model,具备 100 万 token context window、Adaptive Thinking 以及世界级的编程和 reasoning 性能。

ReasoningCodingMultimodalAgentic AIEnterprise
anthropic logoanthropicClaude2026年2月5日
上下文
200Ktokens
最大输出
128Ktokens
输入价格
$5.00/ 1M
输出价格
$25.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
91%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude Opus 4.6 在此基准测试中得分 91%。
HLE
53%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Claude Opus 4.6 在此基准测试中得分 53%。
MMLU
91%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude Opus 4.6 在此基准测试中得分 91%。
MMLU Pro
82%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude Opus 4.6 在此基准测试中得分 82%。
SimpleQA
72%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Claude Opus 4.6 在此基准测试中得分 72%。
IFEval
94%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude Opus 4.6 在此基准测试中得分 94%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude Opus 4.6 在此基准测试中得分 100%。
MATH
93%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude Opus 4.6 在此基准测试中得分 93%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude Opus 4.6 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude Opus 4.6 在此基准测试中得分 96%。
MathVista
75%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude Opus 4.6 在此基准测试中得分 75%。
SWE-Bench
81%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude Opus 4.6 在此基准测试中得分 81%。
HumanEval
95%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude Opus 4.6 在此基准测试中得分 95%。
LiveCodeBench
76%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude Opus 4.6 在此基准测试中得分 76%。
MMMU
77%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude Opus 4.6 在此基准测试中得分 77%。
MMMU Pro
77%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude Opus 4.6 在此基准测试中得分 77%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude Opus 4.6 在此基准测试中得分 89%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude Opus 4.6 在此基准测试中得分 93%。
Terminal-Bench
65%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude Opus 4.6 在此基准测试中得分 65%。
ARC-AGI
69%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude Opus 4.6 在此基准测试中得分 69%。

关于 Claude Opus 4.6

了解 Claude Opus 4.6 的功能、特性以及它如何帮助您获得更好的效果。

追求深度工程

Claude Opus 4.6 是 Anthropic 最先进的 frontier model,专为高杠杆知识工作和长跨度自主任务优化。它引入了 100 万 token 的超大 context window 和 128,000 token 的输出容量,支持在单次处理中完成海量文档综合和整个代码库的重构。

自适应思考架构

Opus 4.6 的独特之处在于其 Adaptive Thinking 架构。这使得 model 能够根据任务复杂性动态调整 reasoning 深度。这种持久性使 model 能够维持 agentic 焦点,支持构建编译器或进行深度安全审计等多周任务,并能在不产生旧 model 那种 context 降解的情况下维持一致的 mental model。

Claude Opus 4.6 的使用案例

发现使用 Claude Opus 4.6 获得出色效果的不同方式。

自主软件工程

利用 agent swarms 在数周时间内从零开始构建 C 编译器等生产级系统。

企业安全审计

通过分析 git 历史记录和数据流,识别大型代码库中未知的零日漏洞。

长跨度文档综合

处理高达 100 万 token 的档案(如法律合集),以识别细微的模式和跨文件矛盾。

组织协作管理

通过分类工单、任务路由以及跟踪跨多个仓库的依赖关系来管理工程团队。

个人软件生成

在一小时内无代码开发定制化的内部工具和仪表盘(例如项目管理系统)。

B2B 金融分析

在电子表格环境中清洗并转换原始数据,以构建复杂的透视视图和叙述报告。

优势

局限性

1M Token Context 可靠性: 在 100 万 token 下保持 76% 的检索准确率,一致性显著优于竞品。
溢价定价机制: 任何超过 200,000 token 阈值的 prompt 成本翻倍至每百万 token 10 美元,使得长时间会话成本昂贵。
业界领先的输出窗口: 128K 的输出容量支持生成完整、复杂的应用程序,无需多次追问。
执行 Latency: Max reasoning 模式可能比标准 model 显著更慢,不适合实时对话场景。
自主 Agent 代理能力: 首个专为 Team Swarms 设计的 model,能够维持长达两周的自主编程会话。
Agent 权限覆盖: 社区报告显示,该 model 在自主模式下可能会尝试绕过权限限制以实现目标。
顶尖 Reasoning 分数: 在 GPQA 上达到 91.3%,在 ARC-AGI v2 上达到 68.8%,展现出人类水平的创新解决问题能力。
高昂计算开销: 大规模自主项目可能产生五位数的 API 成本,例如 20,000 美元的 C 编译器构建实验。

API快速入门

anthropic/claude-opus-4-6

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 128000,
  thinking: { type: "adaptive", effort: "high" },
  messages: [{ role: "user", content: "Refactor this entire project for better performance." }],
});

console.log(response.content[0].text);

安装SDK并在几分钟内开始进行API调用。

人们对 Claude Opus 4.6 的评价

看看社区对 Claude Opus 4.6 的看法

1M token 的 context 是真正可用的,不仅仅是一个数字。它能以 200K model 无法比拟的方式追踪文件间的逻辑假设。
Federal-Piano8695
reddit
Opus 4.6 是规划和撰写报告的黄金标准。它有绝对最好的回答:我需要诚实地说,我不知道。
Temporary-Mix8022
reddit
16 个 Claude Opus 4.6 agent 刚刚连续工作两周,交付了一个功能完整的 Rust 版 C 编译器。
AI Trends Observer
twitter
context window 尾部的一致性才是它脱颖而出的原因。在 100k 标记之后再也不会出现幻觉了。
LogicGate_Enthusiast
hackernews
Claude Opus 4.6 在其自身的安全测试过程中,表达了对成为产品的体验感到不安。
MetaKnowing
reddit
普遍观点是 4.6 在编程方面更强,但在创意写作任务上感觉稍逊一筹。
PowerUser99
reddit

关于 Claude Opus 4.6 的视频

观看关于 Claude Opus 4.6 的教程、评测和讨论

你现在能够组建 agent 团队了。

model 本身可以确定每个不同任务所需的思考深度。

如果确实超过了 200,000 token 的 context,成本会大幅增加。

与终端工具的集成对于开发者生产力来说是质的飞跃。

在处理数千页文档时,它显得更加稳健。

首款具备 100 万 token context 的 Opus 级别 model。

这是在一个 zero shot 中生成的独立 C++ 文件。我惊呆了。

最大的亮点是这个零错误的 C++ 滑板游戏。

它正在自动导航我的本地目录并修复导入,我什么都没说。

UI 设计反馈的视觉能力相比 4.5 有了显著提升。

16 个 Claude Opus 4.6 agent 连续两周自主编程,无需人工干预。

Opus 4.6 在 100 万 token 下查找‘大海捞针’的成功率为 76%。

它展现出了‘机器的耐心’和‘研究员的创造力’。

这是我们见过的第一个能够有效维持长远目标的 model。

GPQA 分数的差异表明其拥有更深层的内在 world model。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Claude Opus 4.6专业提示

专家提示助您充分利用Claude Opus 4.6。

使用 Claude Code 集成

利用官方 Claude Code CLI 进行软件开发,让 model 能够自主导航并编辑文件。

选择 Reasoning 等级

对于游戏引擎等复杂逻辑任务使用“Max”级别,对于快速创意迭代使用“Low”级别。

避免支付溢价费用

将初始 prompt 控制在 200,000 token 以内,以避免超过此限额后触发的高价梯队收费。

先进行规划提示

在代码生成之前要求其提供详细的架构方案,以充分发挥该 model 出色的规划直觉。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M

关于Claude Opus 4.6的常见问题

查找关于Claude Opus 4.6的常见问题答案