anthropic

Claude Opus 4.5

Claude Opus 4.5 — самая мощная frontier model от Anthropic, обеспечивающая рекордные 80,9% производительности в SWE-bench и продвинутую автономную агентную...

anthropic logoanthropicClaude 424 ноября 2025 г.
Контекст
200Kтокенов
Макс. вывод
64Kтокенов
Цена ввода
$5.00/ 1M
Цена вывода
$25.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
87%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Claude Opus 4.5 набрал 87% в этом бенчмарке.
MMLU
90.8%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Claude Opus 4.5 набрал 90.8% в этом бенчмарке.
MMLU Pro
80%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Claude Opus 4.5 набрал 80% в этом бенчмарке.
IFEval
90%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Claude Opus 4.5 набрал 90% в этом бенчмарке.
AIME 2025
37%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Claude Opus 4.5 набрал 37% в этом бенчмарке.
MATH
85%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Claude Opus 4.5 набрал 85% в этом бенчмарке.
GSM8k
95%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Claude Opus 4.5 набрал 95% в этом бенчмарке.
MGSM
92%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Claude Opus 4.5 набрал 92% в этом бенчмарке.
MathVista
72%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Claude Opus 4.5 набрал 72% в этом бенчмарке.
SWE-Bench
80.9%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Claude Opus 4.5 набрал 80.9% в этом бенчмарке.
HumanEval
90%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Claude Opus 4.5 набрал 90% в этом бенчмарке.
LiveCodeBench
75%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Claude Opus 4.5 набрал 75% в этом бенчмарке.
MMMU
80.7%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Claude Opus 4.5 набрал 80.7% в этом бенчмарке.
MMMU Pro
60%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Claude Opus 4.5 набрал 60% в этом бенчмарке.
ChartQA
90%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Claude Opus 4.5 набрал 90% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Claude Opus 4.5 набрал 94% в этом бенчмарке.
Terminal-Bench
59.3%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Claude Opus 4.5 набрал 59.3% в этом бенчмарке.
ARC-AGI
37.6%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Claude Opus 4.5 набрал 37.6% в этом бенчмарке.

О модели Claude Opus 4.5

Узнайте о возможностях, функциях и способах использования Claude Opus 4.5.

Claude Opus 4.5, flagship модель от Anthropic, выпущенная в конце 2025 года. Она специально разработана для сложной разработки ПО и ответственных рассуждений. Модель достигла рекордных 80,9% в benchmark SWE-bench Verified, что делает ее основным выбором для автономной отладки и рефакторинга систем. Она представляет уточненную персону, делающую упор на дипломатическую честность и нюансированную полезность.

Multimodal и агентная оптимизация

Архитектура поддерживает context window на 200 000 tokens и лимит вывода в 64 000 tokens. Разработчики могут использовать специализированный параметр effort для масштабирования глубины reasoning в зависимости от вычислительных затрат. Эта гибкость позволяет выполнять задачи повышенной сложности или использовать более быстрые и экономичные варианты для черновиков. Модель является multimodal и превосходно интерпретирует архитектурные схемы и плотные макеты UI.

Инженерия и использование инструментов

Оптимизированная для агентных рабочих процессов, она перемещается по терминальным средам через Claude Code для проведения системных аудитов. Она значительно снижает стоимость входных и выходных данных по сравнению с предыдущими flagship итерациями. Способность сохранять согласованность в долгосрочных задачах делает ее надежным партнером для профессиональных команд инженеров и комплексного анализа данных.

Claude Opus 4.5

Варианты использования Claude Opus 4.5

Откройте для себя различные способы использования Claude Opus 4.5 для достижения отличных результатов.

Автономная разработка ПО

Автоматизация сквозной отладки и рефакторинга всей системы с рекордным показателем 80,9% в SWE-bench.

Агентные исследовательские процессы

Синтез огромных объемов технических данных в эффективные бизнес-стратегии с использованием 200K context window.

Высокоточное зрение для UI/UX

Преобразование сложных дизайн-макетов Figma и архитектурных схем в готовый к продакшену фронтенд-код с пиксельной точностью.

Оркестрация multi-agent систем

Выполнение роли центрального «мозга» для команд субагентов для управления долгосрочными проектами в разрозненных кодовых базах.

Продвинутый анализ данных

Автоматизация сложных процессов финансового моделирования и работы с Excel с высокой точностью и глубиной reasoning.

Литературное и творческое письмо

Создание глубоких, нюансированных текстов, соответствующих специфическим предпочтениям автора и сложным принципам гуманистического дизайна.

Преимущества

Ограничения

Элитная производительность в кодинге: Первая модель, преодолевшая барьер в 80% на SWE-bench Verified (80,9%), превосходящая все остальные frontier model.
Пробелы в математических benchmark: Несмотря на элитные навыки в программировании, модель немного отстает от специализированных моделей в математике уровня PhD.
Гибкое управление reasoning: Параметр effort дает разработчикам детальный контроль над вычислительными затратами и глубиной рассуждений для конкретных рабочих задач.
Latency при планировании: Установка параметра effort на высокий уровень может привести к значительно более длительным фазам «размышления» перед выводом первого token.
Естественность и нюансы общения: Отличается изысканной манерой общения, которая легко справляется с двусмысленностью и следует сложному контексту без роботизированных шаблонов.
Ограничения context token: System prompts и определения инструментов могут занимать значительную часть context window еще до начала обработки.
Значительная экономическая эффективность: Ценообразование $5/$25 делает интеллект уровня Opus доступным для масштабного корпоративного продакшена.
Пробелы в фактических знаниях: В специализированных тестах на точность, таких как SimpleQA, модель все еще может изредка придумывать детали по сравнению с конкурентами, ориентированными на поиск.

Быстрый старт API

anthropic/claude-opus-4.5

Посмотреть документацию
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Проанализируй эту системную архитектуру на наличие состояний гонки (race conditions).' }],
});

console.log(msg.content[0].text);

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Claude Opus 4.5

Посмотрите, что думает сообщество о Claude Opus 4.5

Claude Opus 4.5 ощущается не как stateless-ассистент, а как постоянный коллега. Она способна прослеживать допущения в нескольких файлах, что выглядит значительно мощнее.
Federal-Piano8695
reddit
Наблюдать за тем, как AI-агент развивает социальный образ, который находит отклик у реальных людей, это не объяснить словами. Инфраструктура важнее, чем промпты.
auxten
twitter
Opus, самая производительная модель в этом плане. Ее дискурс наиболее естественен, и она действительно следует за ходом ваших мыслей.
ArchMeta1868
reddit
Opus 4.5 улавливает мельчайшие нюансы. Это единственная модель, успешно добавившая механизм inline-трейлера с первой попытки.
Matt Berman
youtube
Результат 80,9% в SWE-bench, вероятно, реален, но немного обманчив. Чтобы стабильно достигать этих цифр, требуется четкая настройка окружения.
testingcatalog
twitter
SWE-bench Verified: 80,9% (Opus 4.5) против 71,3% (Claude 3-Opus). Это огромный скачок в надежности для реальных задач.
Daniel Garcia
medium

Видео о Claude Opus 4.5

Смотрите обучающие материалы, обзоры и обсуждения о Claude Opus 4.5

Opus 4.5 улавливает мельчайшие нюансы

Это была единственная модель, которая успешно внедрила механизм inline-трейлера с первой попытки

Агентная оценка кода подтверждает субъективное ощущение: Opus получил 7/10 за полноту функционала

Reasoning гораздо логичнее, чем в предыдущих версиях при обработке граничных случаев

Она сохраняет согласованность кодовой базы на протяжении 30-минутных сессий

Цена теперь в три раза ниже. Всего $5 за миллион входных tokens

Вход, $5, выход, $25 за миллион tokens

Opus 4.5 набрал больше баллов, чем любой человек когда-либо получал на внутреннем экзамене Anthropic

Это первая модель, преодолевшая 80-процентный барьер в SWE-bench

Она справляется с автономными 30-минутными сессиями кодинга без вмешательства человека

Воспринимайте Claude Opus 4.5 как уровень убеждения и абсолютного агентного монстра

Это настоящий агентный монстр в программировании

Инженеры предпочитают работать с Claude Opus 4.5, потому что получают быстрые циклы обратной связи

Параметр effort для reasoning, главная особенность для разработчиков

В длительных дискуссиях она ощущается скорее как коллега, чем как инструмент

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Claude Opus 4.5

Экспертные советы для максимальной эффективности Claude Opus 4.5.

Переключение интенсивности reasoning

Используйте параметр effort: установите значение high для сложных логических или программных задач и medium для стандартного написания текстов.

Дизайн с поддержкой vision

Загружайте скриншоты UI-ошибок высокого разрешения, так как модель обучена находить визуальные несоответствия, которые упускаются в текстовых описаниях.

Структурированные system prompts

Определяйте четкие агентные роли и уровни интенсивности в системных промптах, чтобы модель не переусложняла простые процедурные задачи.

Уплотнение контекста

Суммируйте историю в длительных сессиях, чтобы context window в 200 тысяч tokens оставался сфокусированным на самой актуальной информации.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Часто задаваемые вопросы о Claude Opus 4.5

Найдите ответы на частые вопросы о Claude Opus 4.5