anthropic

Claude Sonnet 4.5

Claude Sonnet 4.5 от Anthropic обеспечивает лучший в мире уровень кодинга (77,2% в SWE-bench) и контекстное окно 200K, оптимизированное для следующего...

AI CodingAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude29 сентября 2025 г.
Контекст
200Kтокенов
Макс. вывод
64Kтокенов
Цена ввода
$3.00/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImageAudioVideo
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
83%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Claude Sonnet 4.5 набрал 83% в этом бенчмарке.
HLE
34%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Claude Sonnet 4.5 набрал 34% в этом бенчмарке.
MMLU
89%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Claude Sonnet 4.5 набрал 89% в этом бенчмарке.
MMLU Pro
78%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Claude Sonnet 4.5 набрал 78% в этом бенчмарке.
SimpleQA
52%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Claude Sonnet 4.5 набрал 52% в этом бенчмарке.
IFEval
88%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Claude Sonnet 4.5 набрал 88% в этом бенчмарке.
AIME 2025
87%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Claude Sonnet 4.5 набрал 87% в этом бенчмарке.
MATH
87%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Claude Sonnet 4.5 набрал 87% в этом бенчмарке.
GSM8k
98%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Claude Sonnet 4.5 набрал 98% в этом бенчмарке.
MGSM
92%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Claude Sonnet 4.5 набрал 92% в этом бенчмарке.
MathVista
72%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Claude Sonnet 4.5 набрал 72% в этом бенчмарке.
SWE-Bench
77%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Claude Sonnet 4.5 набрал 77% в этом бенчмарке.
HumanEval
94%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Claude Sonnet 4.5 набрал 94% в этом бенчмарке.
LiveCodeBench
68%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Claude Sonnet 4.5 набрал 68% в этом бенчмарке.
MMMU
78%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Claude Sonnet 4.5 набрал 78% в этом бенчмарке.
MMMU Pro
55%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Claude Sonnet 4.5 набрал 55% в этом бенчмарке.
ChartQA
89%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Claude Sonnet 4.5 набрал 89% в этом бенчмарке.
DocVQA
92%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Claude Sonnet 4.5 набрал 92% в этом бенчмарке.
Terminal-Bench
50%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Claude Sonnet 4.5 набрал 50% в этом бенчмарке.
ARC-AGI
14%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Claude Sonnet 4.5 набрал 14% в этом бенчмарке.

О модели Claude Sonnet 4.5

Узнайте о возможностях, функциях и способах использования Claude Sonnet 4.5.

**Рубеж агентского интеллекта**

Claude 4.5 Sonnet представляет собой значительный прогресс в сфере передового интеллекта, оптимизированный для эры автономных AI агентов. Выпущенная в конце 2025 года, это модель с гибридным reasoning, которая позволяет разработчикам переключаться между высокоскоростным выполнением рутинных задач и расширенным мышлением для сложных логических вызовов. Она лидирует в benchmark по управлению компьютером и оркестрации инструментов, что делает ее предпочтительным движком для терминальных агентов и многофайловой разработки программного обеспечения.

**Точность и снижение галлюцинаций**

Архитектура модели отдает приоритет логике и точности, снижая уровень поддакивания и галлюцинаций, наблюдаемых в ранних сериях. Благодаря лимиту вывода 64 000 tokens и контекстному окну 200 000 tokens, она может обрабатывать целые репозитории, генерируя полные файлы приложений за один проход. Модель внедряет нативные контрольные точки для агентских рабочих процессов, позволяя системам откатываться назад и исправлять ошибки автономно, без участия человека.

**Мультимодальность и мощь reasoning**

Помимо разработки ПО, Sonnet 4.5 превосходно справляется с мультимодальным анализом документов и финансовым моделированием. Ее внутренняя логика отдает приоритет архитектурному контексту, что позволяет ей более эффективно отображать крупномасштабные системы, чем предшественникам. Независимо от того, обрабатывает ли она рукописные заметки или реализует API интеграции, модель поддерживает высокую фактическую точность и строгое следование инструкциям при выполнении долгосрочных задач.

Claude Sonnet 4.5

Варианты использования Claude Sonnet 4.5

Откройте для себя различные способы использования Claude Sonnet 4.5 для достижения отличных результатов.

Автономная разработка ПО

Управление разработкой полного цикла от начальных требований до автоматизированных коммитов с использованием терминальных интерфейсов.

Автоматизация на основе графического интерфейса (GUI)

Автоматизация веб-серфинга и ввода данных в устаревшие приложения с помощью встроенных возможностей Computer Use.

Оркестрация мультиагентных систем

Делегирование специализированных задач субагентам (например, рецензентам и разработчикам) в рамках централизованного цикла планирования.

Сложный рефакторинг кода

Реорганизация многофайловых кодовых баз с поддержанием консистентности в рамках 200 000 tokens активного контекста.

Тонкий финансовый анализ

Анализ квартальных отчетов и электронных таблиц с помощью зрения (vision) для выявления расхождений и получения инвестиционных инсайтов.

Интерактивная визуализация данных

Генерация динамических диаграмм из сложных наборов данных с использованием встроенного исполнения кода и построения в режиме реального времени.

Преимущества

Ограничения

Встроенное управление компьютером: Модель взаимодействует с операционными системами путем перемещения курсора и манипуляций с GUI с точностью 61,4%.
Отсутствие встроенного ввода аудио: Модель не может напрямую обрабатывать аудиофайлы как нативную модальность и требует внешних инструментов транскрибации.
Элитная производительность в программировании: Модель достигает 77,2% в SWE-bench Verified, опережая все остальные модели в решении проблем GitHub.
Стоимость reasoning tokens: Tokens, используемые во время внутреннего расширенного мышления, тарифицируются как выходные tokens, что увеличивает стоимость сложных запросов.
30-часовой горизонт задач: Архитектура позволяет выполнять 30 часов непрерывной автономной работы, сохраняя состояние и фокус.
Latency в режиме Thinking: При включенном режиме расширенного мышления модели может потребоваться несколько минут для обработки сложных архитектурных планов.
Лимит вывода 64K: Огромная емкость вывода позволяет генерировать архитектуры целых приложений за один API вызов.
Вариативность в олимпиадной математике: Несмотря на лидерство в программировании, она иногда уступает специализированным моделям для reasoning в специфических benchmark по спортивному программированию.

Быстрый старт API

anthropic/claude-4-5-sonnet

Посмотреть документацию
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-4-5-sonnet-20250929",
  max_tokens: 1024,
  messages: [
    { role: "user", content: "Analyze this codebase for security flaws." }
  ],
});

console.log(response.content[0].text);

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Claude Sonnet 4.5

Посмотрите, что думает сообщество о Claude Sonnet 4.5

Claude 4.5 Sonnet доступна везде с сегодняшнего дня, это лучшая модель для программирования в мире.
ClaudeOfficial
reddit
Это исправляет одну из самых болезненных проблем масштабирования при настройке MCP. Раньше наблюдал, как контекст испарялся до того, как начиналась реальная работа.
Simon Willison
twitter
Claude Code-Sonnet 4.5 значительно опережает Gemini 3.0 Pro в сложных задачах рефакторинга Docker-контейнеров.
Comfortable-Friend96
reddit
Паттерн такой: ошибки становятся документацией. Добавляешь правило в CLAUDE.md, и это больше никогда не повторяется.
Boris Cherny
twitter
Режим hybrid reasoning, просто спасение при отладке сложной асинхронной логики, где обычные модели просто зацикливаются.
AsyncDev
hackernews
Паритет цен с 3.5 Sonnet делает переход на эту модель простым решением для всех наших производственных агентских конвейеров.
StartupFounder2025
reddit

Видео о Claude Sonnet 4.5

Смотрите обучающие материалы, обзоры и обсуждения о Claude Sonnet 4.5

Эта новая модель 4.5 Sonnet превосходит даже Opus 4.1 в тесте Swaybench verified

Она способна сохранять фокус на сложных многоэтапных задачах более 30 часов

Лидирует в benchmark OS world по управлению компьютером с результатом 61,4%

Внутренний механизм reasoning работает со средами Python гораздо стабильнее, чем 3.5

Интеграция с терминалом стала намного плотнее, практически без галлюцинируемых команд shell

Sonnet 4.5 сейчас лидирует в использовании агентских инструментов... скачок на 20 процентов, что очень впечатляет

Claude code с Sonnet 4.5 закончил всю реализацию Stripe за 15 минут

Claude Sonnet 4.5 был значительно быстрее и заметно лучше

Переключатель thinking позволяет выделить больше вычислительной мощности на конкретные блоки кода

Она идеально сохраняет контекст, даже когда вы находитесь на глубине 150 000 tokens в огромном проекте

Это лучшая модель в истории по управлению компьютером

Снижение уровня ошибок в коде с 9 процентов практически до нуля

Claude imagine, возможно, самая крутая функция... опыт создания приложений в реальном времени

Интеграция MCP позволяет ей искать инструменты, не съедая ваш контекст prompt

Latency зрения значительно снижена при анализе сложных макетов UI

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Claude Sonnet 4.5

Экспертные советы для максимальной эффективности Claude Sonnet 4.5.

Включите поиск инструментов через MCP

Используйте Model Context Protocol Tool Search, чтобы сократить использование контекста на 85% и оставить место для активных файлов.

Используйте агентские контрольные точки (Checkpoints)

Используйте команду /checkpoint в интерфейсах терминала, чтобы сохранять прогресс перед серьезным рефакторингом для мгновенного отката.

Управление бюджетом контекста

Очищайте историю между несвязанными задачами, чтобы предотвратить «засорение» контекста и поддерживать высокую точность логики.

Иерархия системного prompt

Определите личность модели и строгие ограничения вывода в отдельном конфигурационном файле для обеспечения согласованности между всеми агентами.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Часто задаваемые вопросы о Claude Sonnet 4.5

Найдите ответы на частые вопросы о Claude Sonnet 4.5