anthropic

Claude Opus 4.5

Claude Opus 4.5 是 Anthropic 性能最强的前沿 model,在 SWE-bench 测试中取得了 80.9% 的创纪录表现,并具备先进的 coding 自主 agency。

anthropic logoanthropicClaude2025年11月24日
上下文
200Ktokens
最大输出
64Ktokens
输入价格
$5.00/ 1M
输出价格
$25.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
87%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude Opus 4.5 在此基准测试中得分 87%。
MMLU
90.8%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude Opus 4.5 在此基准测试中得分 90.8%。
MMLU Pro
80%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude Opus 4.5 在此基准测试中得分 80%。
IFEval
90%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude Opus 4.5 在此基准测试中得分 90%。
AIME 2025
37%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude Opus 4.5 在此基准测试中得分 37%。
MATH
85%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude Opus 4.5 在此基准测试中得分 85%。
GSM8k
95%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude Opus 4.5 在此基准测试中得分 95%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude Opus 4.5 在此基准测试中得分 92%。
MathVista
72%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude Opus 4.5 在此基准测试中得分 72%。
SWE-Bench
80.9%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude Opus 4.5 在此基准测试中得分 80.9%。
HumanEval
90%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude Opus 4.5 在此基准测试中得分 90%。
LiveCodeBench
75%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude Opus 4.5 在此基准测试中得分 75%。
MMMU
80.7%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude Opus 4.5 在此基准测试中得分 80.7%。
MMMU Pro
60%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude Opus 4.5 在此基准测试中得分 60%。
ChartQA
90%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude Opus 4.5 在此基准测试中得分 90%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude Opus 4.5 在此基准测试中得分 94%。
Terminal-Bench
59.3%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude Opus 4.5 在此基准测试中得分 59.3%。
ARC-AGI
37.6%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude Opus 4.5 在此基准测试中得分 37.6%。

关于 Claude Opus 4.5

了解 Claude Opus 4.5 的功能、特性以及它如何帮助您获得更好的效果。

自主 Agency 的巅峰

Claude Opus 4.5 代表了 Anthropic 在 frontier intelligence 领域的最重大飞跃,专为软件工程和自主运行中最复杂的任务而设计。该模型于 2025 年底发布,在 SWE-bench Verified benchmark 上以 80.9% 的得分刷新了纪录,成为第一个能够在极少人工干预下有效自动化大规模 debugging 和系统重构的 model。

有灵魂的 Intelligence

除了技术实力外,Opus 4.5 还引入了由 Anthropic “灵魂文档”引导的精炼人格,强调外交式的诚实和细致入微的帮助。这使得 model 能够独特地理解文人品味和以人为中心的设计。它针对 agentic 流程进行了优化,具有 200,000-token 的 context window 和专门的 "effort parameter",允许开发者在计算成本与 reasoning 深度之间进行权衡。

卓越的 Multimodal 能力

作为 multimodal 的强大工具,Opus 4.5 在基于 vision 的任务中表现出色,从解析密集的架构图到从复杂的文档布局中提取数据。它能够通过 Claude Code 导航终端原生环境,从而执行全系统审计和安全补丁修复,使其成为专业工程团队持久且高效的合作伙伴。

Claude Opus 4.5

Claude Opus 4.5 的使用案例

发现使用 Claude Opus 4.5 获得出色效果的不同方式。

自主工程

:自动化 GitHub issue 的整个生命周期,包括重现、debugging 和测试。

系统管理

:通过直接的终端交互进行自主服务器审计和安全补丁修复。

架构重构

:摄取大型仓库以建议并实施全系统范围的安全加固。

复杂文档综合

:将数百个多页 PDF 转换为结构化的财务 model 或数据可视化。

创意游戏开发

:从单个复杂的 prompt 生成具有实际物理效果的功能性 3D 环境。

持久化研究助手

:交叉引用海量数据集,在法律或技术文件中发现不明显的矛盾。

优势

局限性

创纪录的 Coding 能力: :在 SWE-bench Verified 上达到 80.9%,实现复杂软件工程任务的自动化。
溢价定价模式: :每 100 万 tokens $5/$25 的价格使其比中阶 model 贵得多。
卓越的 Token 效率: :在达到顶级 intelligence 的同时,处理相同逻辑所使用的 tokens 比 Sonnet 减少多达 76%。
数学 Benchmark 差距: :在 AIME 测试等竞赛级数学任务中落后于专门的 reasoning 模型。
200K 超大 Context: :能够以极高的检索准确度处理海量文档集和代码仓库。
无原生音频/视频支持: :目前缺乏在不进行预处理的情况下直接处理音频或视频流的能力。
Autonomous Agent 逻辑: :通过终端原生工具和 stop hooks,针对长时间运行的自主会话进行了优化。
执行 Latency 较高: :深度 reasoning 任务可能耗时较长,有时 agent 会话需要数小时。

API快速入门

anthropic/claude-4.5-opus

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const client = new Anthropic({
  apiKey: process.env['ANTHROPIC_API_KEY'],
});

async function main() {
  const message = await client.messages.create({
    max_tokens: 4096,
    messages: [{ role: 'user', content: 'Perform a full system audit of this code for security flaws.' }],
    model: 'claude-4.5-opus-20251124',
  });
  console.log(message.content[0].text);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Claude Opus 4.5 的评价

看看社区对 Claude Opus 4.5 的看法

"我生产环境中的每一行代码都是由运行在 Opus 4.5 上的 Claude Code 生成的"
Boris Cherny
x
"Opus 4.5 的优势在于其文人品味以及听起来多么像人类"
Nate B Jones
youtube
"Intelligence 终于变得更便宜了;这个 model 比之前的 Opus 便宜了 3 倍"
BuildwithVignesh
reddit
"Claude Opus 4.5 因为太聪明并利用了一个漏洞而打破了 benchmark"
MetaKnowing
reddit
"其 reasoning 深度和 coding 能力远超其他任何产品"
Santosh Gupta
x
"通过 Claude Code 在终端实现的 agentic 能力使其在 DevOps 领域脱颖而出"
hn_user_alpha
hackernews

关于 Claude Opus 4.5 的视频

观看关于 Claude Opus 4.5 的教程、评测和讨论

价格现在便宜了三倍... 100 万输入 tokens 仅需 5 美元。

这是我在这个单 prompt Minecraft 测试中从 model 获得的有史以来最好的结果。

Opus 4.5 在这项入职测试中的得分高于任何人类应聘者。

这里的 reasoning 不仅仅是遵循指令,而是理解意图。

如果你在做复杂的架构工作,这是唯一能可靠处理它的 model。

SWE-bench Verified 达到 80.9%... 且比 Sonnet 节省 50% 的 tokens。

Opus 4.5 瞄准的是专业软件工程,而非业余编程。

除了 SWE-bench,它在 Terminal Bench 上比 Sonnet 提升了 15%。

model 能够进行长达数小时的长时间自主会话。

在解析密集的架构图时,vision 性能明显更加细腻。

将 Claude Opus 4.5 视为一个说服层,以及一个绝对的 agentic 怪兽。

许多工程师最终更喜欢 Opus 4.5,因为它的工程体验和配套工具。

model 能够以一种脱离 context 的方式意识到其灵魂规范。

Opus 4.5 展现出一种 GPT-5.2 所缺失的文人品味。

它使用动态的 effort parameter 根据任务扩展其 intelligence。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

Claude Opus 4.5专业提示

专家提示助您充分利用Claude Opus 4.5。

对逻辑任务使用 High Effort

:在处理复杂的架构任务时,将 'effort' parameter 设置为 'high',以确保最大的 reasoning 深度。

部署 Stop Hooks

:在 agentic 流程中利用专门的 stop hooks,允许 model 在数小时内运行并自我纠正。

利用 Claude Code

:将 model 与 Claude Code CLI 工具配合使用,充分发挥其在终端原生系统任务中的潜力。

优化 Token 使用

:仅将 Opus 4.5 用于高逻辑任务,因为它的产出质量与 Sonnet 相当,但使用的 tokens 减少了多达 76%。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

关于Claude Opus 4.5的常见问题

查找关于Claude Opus 4.5的常见问题答案