anthropic

Claude Sonnet 4.5

Anthropic 的 Claude Sonnet 4.5 提供世界领先的 coding 能力(77.2% SWE-bench)和 200K context window,专为下一代自主 Agent 优化。

AI 编程Agentic AI混合推理AnthropicMultimodal
anthropic logoanthropicClaude2025年9月29日
上下文
200Ktokens
最大输出
64Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输推理
基准测试
GPQA
83%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude Sonnet 4.5 在此基准测试中得分 83%。
HLE
34%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Claude Sonnet 4.5 在此基准测试中得分 34%。
MMLU
89%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude Sonnet 4.5 在此基准测试中得分 89%。
MMLU Pro
78%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude Sonnet 4.5 在此基准测试中得分 78%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Claude Sonnet 4.5 在此基准测试中得分 52%。
IFEval
88%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude Sonnet 4.5 在此基准测试中得分 88%。
AIME 2025
87%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude Sonnet 4.5 在此基准测试中得分 87%。
MATH
87%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude Sonnet 4.5 在此基准测试中得分 87%。
GSM8k
98%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude Sonnet 4.5 在此基准测试中得分 98%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude Sonnet 4.5 在此基准测试中得分 92%。
MathVista
72%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude Sonnet 4.5 在此基准测试中得分 72%。
SWE-Bench
77%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude Sonnet 4.5 在此基准测试中得分 77%。
HumanEval
94%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude Sonnet 4.5 在此基准测试中得分 94%。
LiveCodeBench
68%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude Sonnet 4.5 在此基准测试中得分 68%。
MMMU
78%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude Sonnet 4.5 在此基准测试中得分 78%。
MMMU Pro
55%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude Sonnet 4.5 在此基准测试中得分 55%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude Sonnet 4.5 在此基准测试中得分 89%。
DocVQA
92%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude Sonnet 4.5 在此基准测试中得分 92%。
Terminal-Bench
50%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude Sonnet 4.5 在此基准测试中得分 50%。
ARC-AGI
14%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude Sonnet 4.5 在此基准测试中得分 14%。

关于 Claude Sonnet 4.5

了解 Claude Sonnet 4.5 的功能、特性以及它如何帮助您获得更好的效果。

**Agentic 智能的前沿**

Claude 4.5 Sonnet 代表了前沿智能的重大进展,专为 autonomous AI agents 时代而优化。它于 2025 年底发布,是一款混合推理 model,允许开发者在常规任务的高速执行和复杂逻辑挑战的深度思考之间切换。它在 computer use 和工具编排 benchmark 中处于领先地位,使其成为基于终端的 Agent 和多文件软件工程的首选引擎。

**精确度与减少幻觉**

该 model 架构优先考虑逻辑和精确度,减少了早期系列中观察到的盲从和幻觉。凭借 64,000 token 的输出限制200,000 token 的输入窗口,它能够处理整个代码库,并能在单次处理中生成完整的应用程序文件。它为 Agentic 工作流引入了原生检查点,允许系统在无人干预的情况下自主回滚并纠正错误。

**Multimodal 与推理能力**

除了软件开发,Sonnet 4.5 在 multimodal 文档分析和财务建模方面表现卓越。其内部逻辑优先考虑架构 context,使其比前代产品更有效地映射大规模系统。无论是处理手写笔记还是实现 API 集成,该 model 都能在长期任务中保持高度的事实准确性和严格的指令遵循能力。

Claude Sonnet 4.5

Claude Sonnet 4.5 的使用案例

发现使用 Claude Sonnet 4.5 获得出色效果的不同方式。

自主软件工程

使用终端接口管理从初始需求到自动提交代码的端到端开发过程。

基于 GUI 的自动化

利用原生的 computer use 功能,自动化完成网页浏览及在旧系统中的数据录入。

多 Agent 编排

在中央规划循环中,将专业化任务委托给审核员和构建员等子 Agent。

复杂代码重构

在重构多文件代码库的同时,确保 200,000 tokens 的活动 context 始终保持一致。

细致的财务分析

通过视觉能力分析季度报告和电子表格,识别数据差异并提取投资见解。

交互式数据可视化

利用嵌入式代码执行和实时构建,从复杂数据集中生成动态图表。

优势

局限性

原生 Computer Use: 该 model 通过光标移动和 GUI 操作与操作系统交互,准确率达 61.4%。
无原生音频输入: 该 model 无法直接处理音频文件作为原生模态,需要外部转录工具。
顶级的 Coding 性能: 它在 SWE-bench Verified 上达到了 77.2% 的成绩,在解决 GitHub 问题方面领先于所有其他 model。
推理 Token 成本: 内部 Extended Thinking 期间使用的 tokens 将按输出 tokens 收费,从而增加了复杂查询的成本。
30 小时任务跨度: 该架构支持 30 小时的连续自主工作,同时保持状态和专注力。
Thinking 模式下的延迟: 当启用 Extended Thinking 时,model 可能需要数分钟来处理复杂的架构方案。
64K 输出限制: 海量的输出能力使得在单次 API 调用中即可生成整个应用程序架构。
竞技编程差异: 尽管在 coding 领域处于领先地位,但在特定的竞技编程 benchmark 中,有时会略逊于专门的推理 model。

API快速入门

anthropic/claude-4-5-sonnet

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-4-5-sonnet-20250929",
  max_tokens: 1024,
  messages: [
    { role: "user", content: "Analyze this codebase for security flaws." }
  ],
});

console.log(response.content[0].text);

安装SDK并在几分钟内开始进行API调用。

人们对 Claude Sonnet 4.5 的评价

看看社区对 Claude Sonnet 4.5 的看法

Claude 4.5 Sonnet 今天已在全球范围内可用,这是世界上最好的 coding model。
ClaudeOfficial
reddit
这修复了 MCP 设置中最令人痛苦的扩展问题之一。我以前总是眼看着 context 在实际工作开始前就蒸发了。
Simon Willison
twitter
对于复杂的 Dockerized 重构任务,Claude Code-Sonnet 4.5 远远领先于 Gemini 3.0 Pro。
Comfortable-Friend96
reddit
一个模式:错误变成了文档。你只需在 CLAUDE.md 中添加一条规则,它就再也不会发生了。
Boris Cherny
twitter
对于调试普通 model 只会死循环的复杂异步逻辑,混合推理模式简直是救命稻草。
AsyncDev
hackernews
与 3.5 Sonnet 的价格平齐,使得我们所有的生产 Agent 流水线都能轻松升级。
StartupFounder2025
reddit

关于 Claude Sonnet 4.5 的视频

观看关于 Claude Sonnet 4.5 的教程、评测和讨论

这款新的 4.5 Sonnet model 在 Swaybench verified 测试中甚至超过了 Opus 4.1

它能够在复杂的跨步任务中保持超过 30 小时的专注

它在 OSWorld computer use benchmark 中以 61.4% 的得分领先

内部推理引擎处理 Python 环境的稳定性远高于 3.5

终端集成感觉更紧密,几乎没有幻觉产生的 shell 命令

Sonnet 4.5 现在在 Agentic 工具使用方面处于领先地位……提升了 20%,非常令人兴奋

使用 Sonnet 4.5 的 Claude Code 在 15 分钟内完成了整个 Stripe 集成

Claude Sonnet 4.5 的速度快了很多,质量也有相当大的提升

Thinking 开关允许你为特定的代码块投入更多的算力

即使你在处理 150,000 tokens 的大型项目时,它也能完美保留 context

它是目前控制电脑时表现最好的 model

Coding 错误率从 9% 降至几乎为零

Claude imagine 可能是最酷的功能……一种实时的应用程序构建体验

MCP 集成使其能够在不消耗 prompt context 的情况下搜索工具

在分析复杂 UI 布局时,视觉延迟显著降低

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Claude Sonnet 4.5专业提示

专家提示助您充分利用Claude Sonnet 4.5。

启用 MCP 工具搜索

使用 Model Context Protocol 工具搜索可将 context 使用量减少 85%,从而为活动文件留出更多空间。

利用 Agentic Checkpoints

在终端接口中使用 /checkpoint 命令,可在进行重大重构前保存进度,实现即时回滚。

Context 预算管理

在不相关的任务之间清除历史记录,以防止 context 冗余并保持逻辑的高准确性。

System Prompt 层级

在专用配置文件中定义 model 人格和严格的输出约束,以确保跨 Agent 的一致性。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

关于Claude Sonnet 4.5的常见问题

查找关于Claude Sonnet 4.5的常见问题答案