anthropic

Claude Sonnet 4.5

Anthropic 的 Claude Sonnet 4.5 提供世界领先的编程能力 (77.2% SWE-bench) 和 200K context window,专为下一代 autonomous agents 优化。

AI 编程Agentic AI混合 ReasoningAnthropicMultimodal
anthropic logoanthropicClaude 42025年9月29日
上下文
200Ktokens
最大输出
64Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输推理
基准测试
GPQA
83%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude Sonnet 4.5 在此基准测试中得分 83%。
HLE
34%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Claude Sonnet 4.5 在此基准测试中得分 34%。
MMLU
89%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude Sonnet 4.5 在此基准测试中得分 89%。
MMLU Pro
78%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude Sonnet 4.5 在此基准测试中得分 78%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Claude Sonnet 4.5 在此基准测试中得分 52%。
IFEval
88%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude Sonnet 4.5 在此基准测试中得分 88%。
AIME 2025
87%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude Sonnet 4.5 在此基准测试中得分 87%。
MATH
87%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude Sonnet 4.5 在此基准测试中得分 87%。
GSM8k
98%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude Sonnet 4.5 在此基准测试中得分 98%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude Sonnet 4.5 在此基准测试中得分 92%。
MathVista
72%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude Sonnet 4.5 在此基准测试中得分 72%。
SWE-Bench
77%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude Sonnet 4.5 在此基准测试中得分 77%。
HumanEval
94%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude Sonnet 4.5 在此基准测试中得分 94%。
LiveCodeBench
68%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude Sonnet 4.5 在此基准测试中得分 68%。
MMMU
78%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude Sonnet 4.5 在此基准测试中得分 78%。
MMMU Pro
55%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude Sonnet 4.5 在此基准测试中得分 55%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude Sonnet 4.5 在此基准测试中得分 89%。
DocVQA
92%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude Sonnet 4.5 在此基准测试中得分 92%。
Terminal-Bench
50%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude Sonnet 4.5 在此基准测试中得分 50%。
ARC-AGI
14%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude Sonnet 4.5 在此基准测试中得分 14%。

免费试用 Claude Sonnet 4.5

免费与 Claude Sonnet 4.5 对话。测试其功能,提问并探索此AI模型能做什么。

提示词
回复
Claude Sonnet 4.5

您的AI回复将显示在此处

关于 Claude Sonnet 4.5

了解 Claude Sonnet 4.5 的功能、特性以及它如何帮助您获得更好的效果。

**Agentic 智能的前沿**

Claude Sonnet 4.5 代表了 Anthropic 在“前沿智能”方面的重大飞跃,专门针对 autonomous AI agents 时代进行了优化。该 model 于 2025 年底发布,是行业内首个真正的“混合 reasoning”模型,允许开发者在常规任务的高速执行与复杂逻辑挑战的深度思考之间自由切换。它在计算机使用和工具编排方面的 benchmark 显著超越了以往,成为终端 agent 和多文件软件工程的首选引擎。

**精准度与减少 Hallucinations**

该 model 基于“三思而后行”的逻辑架构构建,显著减少了在 3.5 系列中出现的迎合性和 hallucinations 问题。凭借巨大的 64,000 token output 限制200,000 token input 窗口,它可以摄取整个代码仓库,并在单次执行中生成完整的应用程序文件。它还为 agentic 工作流引入了原生的 “checkpoints” 功能,允许 agents 自主回滚并纠正自己的错误。

**Multimodal 与 Reasoning 实力**

除了编程,Sonnet 4.5 在 multimodal 文档分析和复杂金融建模方面也占据主导地位。其内部逻辑经过训练,会优先考虑架构上下文,使其能够比任何前代产品更好地映射大型代码库。无论是处理手写笔记还是实现完整的 Stripe 集成,Sonnet 4.5 都能保持极高的事实准确性和指令遵循能力。

Claude Sonnet 4.5

Claude Sonnet 4.5 的使用案例

发现使用 Claude Sonnet 4.5 获得出色效果的不同方式。

自主软件工程

:使用 Claude Sonnet 4.5 导航复杂的代码库,跨多个文件实现功能,并独立运行测试。

计算机使用 Agents

:部署 model 来控制桌面和浏览器,用于数据提取、旧系统导航或重复性的行政任务。

企业级 Agentic 搜索

:编排多步搜索查询,并综合来自内部文档和实时网络的分散信息。

复杂金融建模

:利用其 87% 的 AIME 分数,对财务报告和市场数据进行深度的逻辑推演。

技术内容精炼

:将高层需求转化为专业的 PRD、技术规范和可直接复制使用的代码库。

Multimodal 文档分析

:凭借 state-of-the-art 的视觉能力,处理数千页的图表、手写笔记和技术图解。

优势

局限性

Agentic 编程能力: :目前是 SWE-bench Verified 的世界纪录保持者,在解决真实 GitHub issue 方面的成功率达 77.2%。
使用限制: :Pro 计划(20 美元/月)的专业用户经常反馈会很快达到每周使用上限。
惊人的速度: :运行速度达每秒 40-60 tokens,在交互式使用体验上显著快于之前的 frontier model。
搜索延时: :与专门的搜索 model 相比,Agentic 网页浏览 (BrowseComp) 仍是一个薄弱环节。
混合 Reasoning 灵活性: :首个在“快速聊天”模式与针对复杂逻辑链的“深度思考”模式之间实现有效平衡的 model。
特定领域知识缺口: :在处理高度专业化的视觉任务(如识别特定的滑板技巧)时表现吃力(SkateBench 准确率仅为 29%)。
海量输出窗口: :64K output token 限制允许在单次 API 调用中生成完整的跨文件功能。
Agentic 成本: :在终端模式下自主运行 model 编写一个复杂的应用程序,单次可能会消耗价值 50-100 美元的 tokens。

API快速入门

anthropic/claude-sonnet-4.5

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-sonnet-4.5-20250929",
  max_tokens: 1024,
  messages: [{ role: "user", content: "Implement a rate limiter in Node.js" }],
});

console.log(msg.content[0].text);

安装SDK并在几分钟内开始进行API调用。

人们对 Claude Sonnet 4.5 的评价

看看社区对 Claude Sonnet 4.5 的看法

"Claude Sonnet 4.5 是 AI 编程领域的新王……表现真的非常出色"
James Montemagno
youtube
"Sonnet 4.5 做得非常好……速度快得多,质量也提升了不少"
Cole Medin
youtube
"我被 Sonnet 4.5 震撼了……它设计的页面简直太漂亮了"
Savage Reviews
youtube
"基于终端的 agent 就像是“住在终端里的开发者”……它可以自主阅读代码库并运行测试"
DevUser_99
reddit
"价格与 3.5 持平,但“Checkpoints”功能让它在专业工作流中的价值提升了 10 倍"
AgentArchitect
x
"凭借 SWE-bench 77.2% 的成绩,这是第一个真正让人感觉像是高级工程师的 model"
HackerNewsReader
hackernews

关于 Claude Sonnet 4.5 的视频

观看关于 Claude Sonnet 4.5 的教程、评测和讨论

Anthropic 声称这是“全球最强的编程模型”,在 reasoning、数学和计算机使用方面有实质性提升。

虽然 GPT-5 可能更擅长高层规划,但 Claude 4.5 Sonnet 是目前执行任务时“体验最好”的 model。

速度快得令人难以置信,让交互式编程感觉更加流畅。

它处理多文件编辑的精准度是我们从未见过的。

hallucinations 的减少使其成为生产代码的可靠伙伴。

Claude Sonnet 4.5 的速度快得多,表现也比 GPT-5 Codex 好不少。

它在 15 分钟内完成了整个 Stripe 集成……比 Opus 4.1 快了两倍多。

执行复杂 tool-calling 指令的能力是它的核心秘诀。

我发现“迎合性”问题减少了,model 不再只是盲目同意我的错误想法。

这是第一个我敢真正放手让它在无人监督下运行终端 agent 的 model。

这是我见过的由 prompt 生成的最好(即便不是最好,也是其中之一)的落地页。

它简直是一头猛兽……它设计了一些非常精美的页面,代码质量也非常高。

解释 UI 设计的视觉能力得到了显著提升。

感觉它不仅理解技术需求,还理解审美需求。

Sonnet 4.5 正式成为创意前端工程的新 benchmark。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

专业技巧

专家提示帮助您充分利用此模型并获得更好的效果。

善用 CLAUDE.md:在仓库根目录使用 CLAUDE.md 文件,为 model 提供简短摘要和指引;这可以将 token 浪费减少 30%。

混合 Reasoning 开关:仅在处理逻辑密集型任务时在 API 调用中使用 “thinking” parameter,以节省常规操作中的 latency 和成本。

.claude/context 文件夹:创建 .claude/context.md 文件来存储架构决策;该 model 经过专门训练,会优先通过此路径进行代码库映射。

Prompt Caching:为静态文档或大型代码库启用 prompt caching,在重复查询时可节省高达 90% 的 input 成本。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

常见问题

查找有关此模型的常见问题答案