anthropic

Claude Opus 4.5

Claude Opus 4.5 是 Anthropic 最强大的 frontier model,提供破纪录的 80.9% SWE-bench 性能以及高级的自主编程 agency 能力。

anthropic logoanthropicClaude 42025年11月24日
上下文
200Ktokens
最大输出
64Ktokens
输入价格
$5.00/ 1M
输出价格
$25.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
87%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude Opus 4.5 在此基准测试中得分 87%。
MMLU
90.8%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude Opus 4.5 在此基准测试中得分 90.8%。
MMLU Pro
80%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude Opus 4.5 在此基准测试中得分 80%。
IFEval
90%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude Opus 4.5 在此基准测试中得分 90%。
AIME 2025
37%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude Opus 4.5 在此基准测试中得分 37%。
MATH
85%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude Opus 4.5 在此基准测试中得分 85%。
GSM8k
95%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude Opus 4.5 在此基准测试中得分 95%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude Opus 4.5 在此基准测试中得分 92%。
MathVista
72%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude Opus 4.5 在此基准测试中得分 72%。
SWE-Bench
80.9%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude Opus 4.5 在此基准测试中得分 80.9%。
HumanEval
90%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude Opus 4.5 在此基准测试中得分 90%。
LiveCodeBench
75%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude Opus 4.5 在此基准测试中得分 75%。
MMMU
80.7%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude Opus 4.5 在此基准测试中得分 80.7%。
MMMU Pro
60%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude Opus 4.5 在此基准测试中得分 60%。
ChartQA
90%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude Opus 4.5 在此基准测试中得分 90%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude Opus 4.5 在此基准测试中得分 94%。
Terminal-Bench
59.3%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude Opus 4.5 在此基准测试中得分 59.3%。
ARC-AGI
37.6%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude Opus 4.5 在此基准测试中得分 37.6%。

关于 Claude Opus 4.5

了解 Claude Opus 4.5 的功能、特性以及它如何帮助您获得更好的效果。

Claude Opus 4.5 是 Anthropic 在 2025 年底发布的旗舰模型。它专为复杂的软件工程和高风险 reasoning 而设计。该模型在 SWE-bench Verified benchmark 上取得了 80.9% 的破纪录成绩,使其成为自主调试和系统重构的首选。它引入了一种强调外交式诚实和细致助人精神的 refined 人格设定。

Multimodal 与 Agentic 优化

该架构支持 200,000 个 token 的 context window 和 64,000 个 token 的输出限制。开发者可以使用专门的 effort 参数来根据计算成本权衡 reasoning 深度。这种灵活性使得它既能胜任高强度的逻辑任务,也能进行更快、更经济的创意起草。该模型是 multimodal 的,擅长解读架构图和密集的 UI 布局。

工程与工具使用

针对 agentic 工作流进行了优化,它通过 Claude Code 导航终端环境,执行全系统审计。与之前的旗舰迭代相比,它显著降低了输入和输出定价。它在长期任务中保持连贯性的能力,使其成为专业工程团队和复杂数据分析的可靠合作伙伴。

Claude Opus 4.5

Claude Opus 4.5 的使用案例

发现使用 Claude Opus 4.5 获得出色效果的不同方式。

自主软件工程

利用破纪录的 80.9% SWE-bench 得分,实现端到端的自动化调试和全系统重构。

Agentic 研究工作流

利用 200k 的 context window,将海量的技术数据合成为可执行的商业战略。

高保真 UI/UX 视觉

将复杂的 Figma 设计稿和架构图转化为具有像素级精度的生产级前端代码。

多 Agent 编排

担任子 Agent 团队的中央大脑,管理跨越多个不同代码库的长期项目。

高级数据分析

以高精度和深度的 reasoning 能力,实现复杂财务建模和 Excel 工作流的自动化。

文学与创意写作

产出符合特定文风偏好和复杂以人为本设计原则的细致文案。

优势

局限性

顶尖的编程性能: 首个在 SWE-bench Verified 上突破 80% 障碍(80.9%)的模型,超越了所有其他 frontier model。
数学 benchmark 差距: 虽然在编程方面表现顶尖,但在博士级别的数学任务上,它略微落后于专业模型。
灵活的 Reasoning 控制: effort 参数为开发者提供了针对特定工作流的计算成本与 reasoning 深度之间的精细化控制。
规划延迟: 将 effort 参数设置为高可能会导致在输出第一个 token 前出现显著的更长思考阶段。
自然的对话细微差别: 以精致的人格设定著称,能够处理模糊性,并在没有机械式引导的情况下遵循复杂的背景设置。
Context Token 上限: System prompts 和工具定义可能会在开始处理前消耗掉 window 的大部分空间。
显著的成本效率: $5/$25 的定价使得 Opus 级别的智能能够在大规模的企业生产中得到应用。
事实检索缺失: 在 SimpleQA 等专业准确性测试中,与搜索密集型竞争对手相比,它偶尔仍会编造细节。

API快速入门

anthropic/claude-opus-4.5

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Analyze this system architecture for race conditions.' }],
});

console.log(msg.content[0].text);

安装SDK并在几分钟内开始进行API调用。

人们对 Claude Opus 4.5 的评价

看看社区对 Claude Opus 4.5 的看法

Claude Opus 4.5 感觉不像一个无状态的助手,更像一个持久的队友。它能以一种明显更强的方式追溯跨多个文件的假设。
Federal-Piano8695
reddit
看着你的 AI Agent 开发出一种以无法解释的方式与真实人类产生共鸣的社交媒体人格。基础设施比 prompts 更重要。
auxten
twitter
Opus 是这方面表现最好的模型。它的讨论最自然,并且在讨论中真正地与你保持同步。
ArchMeta1868
reddit
Opus 4.5 捕捉到了最细微的差别。它是唯一一个在第一轮尝试中成功包含内联 trailer 机制的模型。
Matt Berman
youtube
80.9% 的 SWE-bench 得分可能是真实的,但也有些误导性。要持续达到这些数字,需要清晰的环境设置。
testingcatalog
twitter
SWE-bench Verified: 80.9% (Opus 4.5) vs 71.3% (Claude 3-Opus)。这是现实世界可靠性的一次巨大飞跃。
Daniel Garcia
medium

关于 Claude Opus 4.5 的视频

观看关于 Claude Opus 4.5 的教程、评测和讨论

Opus 4.5 捕捉到了最细微的差别

它是唯一一个在第一轮尝试中成功包含内联 trailer 机制的模型

由 Agent 驱动的代码评估证实了这种主观感受,Opus 在功能完整性方面得分为 7/10

在处理极端情况时,其 reasoning 比之前的版本更合乎逻辑

它能在 30 分钟的会话中保持代码库的一致性

价格现在便宜了三倍。每百万输入 tokens 仅需 5 美元

每百万 tokens 输入价格为 5 美元,输出价格为 25 美元

Opus 4.5 在 Anthropic 自己的带回作业考试中的得分超过了任何人类候选人

这是第一个在 SWE-bench 上突破 80% 障碍的模型

它无需人工干预即可处理 30 分钟的自主编程会话

将 Claude Opus 4.5 视为一层说服力层和一个绝对的 agentic 怪兽

它是一个绝对的 agentic 编程怪兽

工程师们最终更喜欢与 Claude Opus 4.5 合作,因为他们能获得那种紧密的反馈循环

Reasoning effort 参数是开发者最突出的功能

在长篇讨论中,它感觉更像是一个合作者而不是一个工具

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Claude Opus 4.5专业提示

专家提示助您充分利用Claude Opus 4.5。

切换 Reasoning Effort

针对复杂的逻辑或编程任务,将 effort 参数设置为高;对于常规的创意写作,将其设置为中等。

原生视觉设计

上传 UI Bug 的高分辨率截图,因为该模型经过专门调优,能够识别文本描述所遗漏的视觉偏差。

结构化 System Prompts

在 system prompts 中定义清晰的 agentic 角色和 effort 水平,以防止模型对简单的流程性任务过度思考。

Context 压缩

在长期运行的会话中总结历史记录,以确保 200k 的 context window 始终聚焦于最相关的信息。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

关于Claude Opus 4.5的常见问题

查找关于Claude Opus 4.5的常见问题答案