anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet — первая модель гибридного reasoning от Anthropic, предлагающая state-of-the-art возможности программирования, context window на 200 тыс....

anthropic logoanthropicClaude 3February 24, 2025
Контекст
200Kтокенов
Макс. вывод
128Kтокенов
Цена ввода
$3.00/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
84.8%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Claude 3.7 Sonnet набрал 84.8% в этом бенчмарке.
HLE
34%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Claude 3.7 Sonnet набрал 34% в этом бенчмарке.
MMLU
89%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Claude 3.7 Sonnet набрал 89% в этом бенчмарке.
MMLU Pro
74%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Claude 3.7 Sonnet набрал 74% в этом бенчмарке.
SimpleQA
42%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Claude 3.7 Sonnet набрал 42% в этом бенчмарке.
IFEval
93.2%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Claude 3.7 Sonnet набрал 93.2% в этом бенчмарке.
AIME 2025
54.8%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Claude 3.7 Sonnet набрал 54.8% в этом бенчмарке.
MATH
96.2%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Claude 3.7 Sonnet набрал 96.2% в этом бенчмарке.
GSM8k
97%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Claude 3.7 Sonnet набрал 97% в этом бенчмарке.
MGSM
92%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Claude 3.7 Sonnet набрал 92% в этом бенчмарке.
MathVista
70%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Claude 3.7 Sonnet набрал 70% в этом бенчмарке.
SWE-Bench
70.3%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Claude 3.7 Sonnet набрал 70.3% в этом бенчмарке.
HumanEval
94%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Claude 3.7 Sonnet набрал 94% в этом бенчмарке.
LiveCodeBench
65%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Claude 3.7 Sonnet набрал 65% в этом бенчмарке.
MMMU
75%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Claude 3.7 Sonnet набрал 75% в этом бенчмарке.
MMMU Pro
55%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Claude 3.7 Sonnet набрал 55% в этом бенчмарке.
ChartQA
89%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Claude 3.7 Sonnet набрал 89% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Claude 3.7 Sonnet набрал 94% в этом бенчмарке.
Terminal-Bench
35.2%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Claude 3.7 Sonnet набрал 35.2% в этом бенчмарке.
ARC-AGI
12%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Claude 3.7 Sonnet набрал 12% в этом бенчмарке.

О модели Claude 3.7 Sonnet

Узнайте о возможностях, функциях и способах использования Claude 3.7 Sonnet.

Гибридный дизайн мышления

Claude 3.7 Sonnet использует новую архитектуру, которая позволяет пользователям выбирать между скоростью и глубиной. Это первая модель, предлагающая переключатель для расширенного мышления, позволяющий системе прорабатывать сложную логику перед предоставлением ответа. Такая прозрачность позволяет разработчикам видеть, как именно модель приходит к выводу, снижая вероятность скрытых ошибок в технической работе.

Решение технических задач

Эта модель создана для высокоуровневой разработки ПО. Она набирает 62,1% в benchmark SWE-bench Verified, демонстрируя сильную способность исправлять реальные GitHub issues. При использовании вместе с инструментами типа Claude Code, она управляет редактированием файлов и выполнением команд в крупных репозиториях. Она справляется с математическими и кодинговыми задачами с точностью, которая соответствует или превосходит текущие state-of-the-art модели.

Огромная емкость контекста

Благодаря context window на 200 000 tokens, модель обрабатывает огромные наборы документации или кодовые базы за один раз. Она поддерживает до 128 000 tokens вывода, когда включен режим мышления, что полезно для создания длинных скриптов или подробных отчетов. Модель также является multimodal, то есть может интерпретировать графики и диаграммы наряду с текстом.

Claude 3.7 Sonnet

Варианты использования Claude 3.7 Sonnet

Откройте для себя различные способы использования Claude 3.7 Sonnet для достижения отличных результатов.

Агентная разработка ПО

Использование инструментов терминала для исправления ошибок и рефакторинга кода в масштабных структурах файлов.

Проверка математических доказательств

Решение сложных математических задач за счет того, что модель пошагово прорабатывает логику.

Анализ репозиториев

Извлечение данных и выявление закономерностей во всей кодовой базе в рамках одного prompt.

Парсинг визуальных данных

Преобразование сложных графиков, блок-схем и технических чертежей в структурированные JSON данные.

Планирование архитектуры систем

Проектирование программных систем с детальной проверкой логики с использованием расширенного режима мышления.

Автоматизированные Git-воркфлоу

Управление сообщениями коммитов, ревью кода и выполнение тестов через агентное использование инструментов.

Преимущества

Ограничения

Опции гибридного мышления: Первая модель, позволяющая пользователям переключаться между быстрыми стандартными ответами и режимами глубокого reasoning.
Latency при мышлении: Включение режима thinking существенно увеличивает время ожидания ответа модели.
Премиальный AI-агент для кодинга: Лучшая в своем классе производительность на SWE-bench Verified с результатом 62,1% при исправлении production-ошибок.
Стоимость reasoning: Внутренние reasoning tokens тарифицируются по ставке $15 за миллион выходных tokens, что увеличивает затраты при выполнении длинных задач.
Экстремальная емкость вывода: Генерирует до 128 000 tokens в одном ответе, что упрощает создание объемного кода и документации.
Отсутствие поддержки видео: В отличие от некоторых конкурентов, модель не может нативно принимать или анализировать необработанные видеофайлы через API.
Прозрачная логика: Внешний chain-of-thought позволяет пользователям аудировать и отлаживать процесс внутреннего мышления модели.
Ограничение знаний: Данные для обучения ограничены октябрем 2024 года, поэтому модель не учитывает последние отраслевые события.

Быстрый старт API

anthropic/claude-3-7-sonnet

Посмотреть документацию
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic();

const message = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 4096,
  thinking: {
    type: "enabled",
    budget_tokens: 2048
  },
  messages: [{ role: "user", content: "Analyze this architectural flaw..." }],
});

console.log(message.content);

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Claude 3.7 Sonnet

Посмотрите, что думает сообщество о Claude 3.7 Sonnet

Claude Code в связке с 3.7 Sonnet, это по сути junior-разработчик на стероидах прямо в моем терминале. Впервые агентный AI ощущается по-настоящему.
dev_guru_99
reddit
Гибридный reasoning, это огромное обновление. Мне не всегда нужно, чтобы он думал 30 секунд, но при отладке это просто невероятно.
TechLead_X
twitter
Anthropic удалось сделать модель, которая конкурирует с o1 в математике, оставаясь при этом полезной для повседневного общения.
logic_fanatic
hackernews
Claude выдает полные, прекрасно оформленные отчеты с цитатами менее чем за пять минут.
ThinkingDeeplyAI_mod
reddit
Лимит вывода в 128k, это скрытая киллер-фича. Наконец-то модель, которая не обрывается на середине длинного скрипта.
code_monk_42
reddit
Claude 3.7 + MCP, это самое близкое к Jarvis, что есть на данный момент. Он действительно правильно использует мои локальные инструменты.
julie_codes_it
twitter

Видео о Claude 3.7 Sonnet

Смотрите обучающие материалы, обзоры и обсуждения о Claude 3.7 Sonnet

Claude 3.7, это просто огонь. Новая базовая модель превзошла саму себя и стала еще лучше в программировании.

Новая модель 3.7 буквально разгромила все другие модели, включая OpenAI o3 mini.

Она способна решать 70% issues на GitHub.

Расширенное мышление позволяет модели обдумать проблему перед выдачей кода.

Это огромная победа для опыта разработчиков.

Чат-боты дают советы, а Claude Code действует. Он может создавать файлы, строить сайты и устанавливать пакеты.

Расширенное мышление, это процесс, когда Claude размышляет перед тем, как совершить какое-либо действие.

Инструмент оптимизирован для работы в терминале.

Возможности подключения MCP, это то, что действительно отличает его от стандартного ChatGPT.

Модель понимает намерение за расплывчатыми командами терминала.

Интеграция с терминалом через Claude Code, это уровень агентности, который мы еще не видели.

Способность Claude 3.7 Sonnet демонстрировать свой мыслительный процесс гораздо прозрачнее, чем у конкурентов.

В бенчмарке SWE-bench Verified он достигает впечатляющих 62%.

Гибридный reasoning означает, что вам не нужно платить за latency, когда это не требуется.

Он сохраняет высокое качество стиля письма, присущее предыдущим моделям Claude.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Claude 3.7 Sonnet

Экспертные советы для максимальной эффективности Claude 3.7 Sonnet.

Установка бюджетов на reasoning

Используйте параметр thinking в API, чтобы ограничить количество reasoning tokens для контроля расходов.

Проверка блоков размышлений

Изучайте внутренний chain-of-thought в ответах, чтобы убедиться в логичности сложных выводов.

Использование коннекторов MCP

Подключайте модель к локальным базам данных и облачным хранилищам для учета контекста проекта в реальном времени.

Обновление контекста

Используйте команды суммирования в длинных агентных циклах, чтобы удерживать внимание context window на релевантных данных.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Часто задаваемые вопросы о Claude 3.7 Sonnet

Найдите ответы на частые вопросы о Claude 3.7 Sonnet