anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是 Anthropic 推出的首个混合 reasoning model,提供 state-of-the-art 的编程能力、200k context window 以及可见的思考过程。

anthropic logoanthropicClaude 3February 24, 2025
上下文
200Ktokens
最大输出
128Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
84.8%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Claude 3.7 Sonnet 在此基准测试中得分 84.8%。
HLE
34%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Claude 3.7 Sonnet 在此基准测试中得分 34%。
MMLU
89%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Claude 3.7 Sonnet 在此基准测试中得分 89%。
MMLU Pro
74%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Claude 3.7 Sonnet 在此基准测试中得分 74%。
SimpleQA
42%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Claude 3.7 Sonnet 在此基准测试中得分 42%。
IFEval
93.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Claude 3.7 Sonnet 在此基准测试中得分 93.2%。
AIME 2025
54.8%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Claude 3.7 Sonnet 在此基准测试中得分 54.8%。
MATH
96.2%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Claude 3.7 Sonnet 在此基准测试中得分 96.2%。
GSM8k
97%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Claude 3.7 Sonnet 在此基准测试中得分 97%。
MGSM
92%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Claude 3.7 Sonnet 在此基准测试中得分 92%。
MathVista
70%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Claude 3.7 Sonnet 在此基准测试中得分 70%。
SWE-Bench
70.3%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Claude 3.7 Sonnet 在此基准测试中得分 70.3%。
HumanEval
94%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Claude 3.7 Sonnet 在此基准测试中得分 94%。
LiveCodeBench
65%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Claude 3.7 Sonnet 在此基准测试中得分 65%。
MMMU
75%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Claude 3.7 Sonnet 在此基准测试中得分 75%。
MMMU Pro
55%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Claude 3.7 Sonnet 在此基准测试中得分 55%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Claude 3.7 Sonnet 在此基准测试中得分 89%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Claude 3.7 Sonnet 在此基准测试中得分 94%。
Terminal-Bench
35.2%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Claude 3.7 Sonnet 在此基准测试中得分 35.2%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Claude 3.7 Sonnet 在此基准测试中得分 12%。

关于 Claude 3.7 Sonnet

了解 Claude 3.7 Sonnet 的功能、特性以及它如何帮助您获得更好的效果。

混合 Reasoning 设计

Claude 3.7 Sonnet 采用了全新的架构,允许用户在速度和深度之间进行选择。这是首个提供“扩展思考”开关的 model,允许系统在给出答案前先进行复杂的逻辑推演。这种透明度让开发者可以精准查看 model 的结论推导过程,减少技术工作中隐藏错误的可能性。

技术问题解决能力

该 model 专为高级软件工程而生。在 SWE-bench Verified benchmark 上,它获得了 62.1% 的高分,展现出极强的修复真实 GitHub issues 的能力。配合 Claude Code 等工具,它能够管理大型代码库的文件编辑和命令执行。它处理数学和编程任务的精确度与当前最顶尖的 reasoning model 相当甚至更高。

海量 Context 容量

凭借 20 万 tokens 的 context window,该 model 可一次性处理海量文档或代码库。在开启 reasoning 模式时,它支持高达 12.8 万 tokens 的输出,非常适合生成长脚本或详细报告。该 model 同时具备 multimodal 特性,意味着它除了文本,还能解读图表和图解。

Claude 3.7 Sonnet

Claude 3.7 Sonnet 的使用案例

发现使用 Claude 3.7 Sonnet 获得出色效果的不同方式。

Agentic 软件工程

使用终端工具在庞大的文件结构中修复 Bug 并重构代码。

数学证明验证

让 model 逐步推导逻辑步骤,从而解决高难度数学问题。

代码库分析

通过一个 prompt 从整个技术代码库中提取数据并识别模式。

视觉数据解析

将复杂的图表、流程图和技术图解转换为结构化的 JSON 数据。

系统架构规划

利用扩展的 reasoning 模式,对软件系统进行详细的逻辑检查与设计。

自动化 Git 工作流

通过 agentic 工具调用管理提交信息、代码审查和测试执行。

优势

局限性

混合 Reasoning 选项: 这是首个允许用户在快速的标准响应与深度 reasoning 模式之间进行切换的 model。
Reasoning 延迟: 开启 thinking 模式会显著增加 model 的响应时间。
顶级编码 Agent: 在 SWE-bench Verified 上表现卓越,以 62.1% 的得分领先于修复生产环境问题的能力。
Reasoning 成本: 内部 reasoning tokens 按每百万输出 15 美元的费率计费,长任务中成本会累积。
超大输出容量: 单次响应可生成多达 12.8 万个 tokens,极大地促进了大规模代码和文档的生成。
不支持视频: 与部分竞品不同,它无法通过 API 直接读取或分析原始视频文件。
透明的逻辑: 外显的 chain-of-thought 让用户能够审计和调试 model 的内部推理过程。
知识截止日期: 训练数据仅截至 2024 年 10 月,缺失近期的行业动态。

API快速入门

anthropic/claude-3-7-sonnet

查看文档
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic();

const message = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 4096,
  thinking: {
    type: "enabled",
    budget_tokens: 2048
  },
  messages: [{ role: "user", content: "Analyze this architectural flaw..." }],
});

console.log(message.content);

安装SDK并在几分钟内开始进行API调用。

人们对 Claude 3.7 Sonnet 的评价

看看社区对 Claude 3.7 Sonnet 的看法

Claude Code 加上 3.7 Sonnet 简直就是我终端里的强力初级开发人员。这是我第一次感受到 agentic AI 如此真实。
dev_guru_99
reddit
混合 reasoning 是一个重大更新。我不总是需要它思考 30 秒,但当我在调试时,这简直不可思议。
TechLead_X
twitter
Anthropic 成功打造了一个在数学领域与 o1 竞争,同时在日常聊天中依然实用的 model。
logic_fanatic
hackernews
Claude 在五分钟内就能提供格式精美、带有引用的全面报告。
ThinkingDeeplyAI_mod
reddit
12.8 万的输出限制是一个被低估的功能。终于有一个不会在长脚本写到一半时中断的 model 了。
code_monk_42
reddit
Claude 3.7 + MCP 是目前最接近 Jarvis 的产品。它确实能正确地使用我的本地工具。
julie_codes_it
twitter

关于 Claude 3.7 Sonnet 的视频

观看关于 Claude 3.7 Sonnet 的教程、评测和讨论

Claude 3.7 简直太强了。新的基础 model 实现了自我超越,编程能力更进一步。

新的 3.7 model 完全碾压了包括 OpenAI o3 mini 在内的其他所有 model。

它有能力解决 70% 的 GitHub issues。

扩展思考能力允许 model 在输出代码前先进行深度推演。

这对开发者体验来说是一个巨大的胜利。

聊天机器人只会给你建议,但 Claude Code 可以采取行动。它可以创建文件、构建网站和安装包。

扩展思考是指 Claude 在实际执行操作之前的推理过程。

该工具针对终端环境进行了优化。

MCP 连接能力是它与普通 ChatGPT 的真正区别。

该 model 能理解模糊终端命令背后的真实意图。

通过 Claude Code 与终端的集成,展现了我们此前未见过的 agentic 能力级别。

Claude 3.7 Sonnet 展示其思考过程的能力远比竞争对手透明。

在 SWE-bench Verified 上,它达到了惊人的 62%。

混合 reasoning 意味着你在不需要时无需支付延迟代价。

它保持了此前 Claude model 一贯的高质量写作风格。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Claude 3.7 Sonnet专业提示

专家提示助您充分利用Claude 3.7 Sonnet。

设置 Reasoning 预算

使用 API 的 thinking 参数来限制 reasoning tokens 的数量,从而控制成本。

审查思考过程 (Thought Blocks)

查看响应中的内部 chain-of-thought,以验证复杂答案背后的逻辑。

使用 MCP 连接器

将 model 连接到本地数据库和云存储,以获取实时的项目 context。

刷新 Context

在长 agentic 循环中使用总结命令,确保 context window 专注于相关数据。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

关于Claude 3.7 Sonnet的常见问题

查找关于Claude 3.7 Sonnet的常见问题答案