anthropic

Claude Opus 4.6

Claude Opus 4.6 — флагманская модель от Anthropic с context window 1 млн tokens, технологией Adaptive Thinking и мировым уровнем производительности в кодинге и...

ReasoningCodingMultimodalAgentic AIEnterprise
anthropic logoanthropicClaude5 февраля 2026 г.
Контекст
200Kтокенов
Макс. вывод
128Kтокенов
Цена ввода
$5.00/ 1M
Цена вывода
$25.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
91%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Claude Opus 4.6 набрал 91% в этом бенчмарке.
HLE
53%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Claude Opus 4.6 набрал 53% в этом бенчмарке.
MMLU
91%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Claude Opus 4.6 набрал 91% в этом бенчмарке.
MMLU Pro
82%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Claude Opus 4.6 набрал 82% в этом бенчмарке.
SimpleQA
72%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Claude Opus 4.6 набрал 72% в этом бенчмарке.
IFEval
94%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Claude Opus 4.6 набрал 94% в этом бенчмарке.
AIME 2025
100%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Claude Opus 4.6 набрал 100% в этом бенчмарке.
MATH
93%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Claude Opus 4.6 набрал 93% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Claude Opus 4.6 набрал 99% в этом бенчмарке.
MGSM
96%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Claude Opus 4.6 набрал 96% в этом бенчмарке.
MathVista
75%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Claude Opus 4.6 набрал 75% в этом бенчмарке.
SWE-Bench
81%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Claude Opus 4.6 набрал 81% в этом бенчмарке.
HumanEval
95%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Claude Opus 4.6 набрал 95% в этом бенчмарке.
LiveCodeBench
76%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Claude Opus 4.6 набрал 76% в этом бенчмарке.
MMMU
77%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Claude Opus 4.6 набрал 77% в этом бенчмарке.
MMMU Pro
77%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Claude Opus 4.6 набрал 77% в этом бенчмарке.
ChartQA
89%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Claude Opus 4.6 набрал 89% в этом бенчмарке.
DocVQA
93%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Claude Opus 4.6 набрал 93% в этом бенчмарке.
Terminal-Bench
65%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Claude Opus 4.6 набрал 65% в этом бенчмарке.
ARC-AGI
69%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Claude Opus 4.6 набрал 69% в этом бенчмарке.

О модели Claude Opus 4.6

Узнайте о возможностях, функциях и способах использования Claude Opus 4.6.

Инженерия глубины

Claude Opus 4.6, самая продвинутая frontier model от Anthropic, оптимизированная для высокоуровневой интеллектуальной работы и долгосрочных автономных задач. Она представляет массивный context window на 1 млн tokens и выходную мощность в 128 000 tokens. Это позволяет модели выполнять синтез огромных объемов документации и рефакторинг целых репозиториев за один проход.

Архитектура Adaptive Thinking

Что отличает Opus 4.6, так это архитектура Adaptive Thinking. Она позволяет модели динамически регулировать глубину рассуждений в зависимости от сложности задачи. Эта устойчивость позволяет поддерживать фокус агента на протяжении многонедельных проектов, таких как создание компиляторов или проведение глубокого аудита безопасности. Модель поддерживает целостную ментальную модель без «деградации контекста», характерной для предыдущих версий.

Варианты использования Claude Opus 4.6

Откройте для себя различные способы использования Claude Opus 4.6 для достижения отличных результатов.

Автономная разработка ПО

Создание сложных систем производственного уровня, таких как компиляторы C, с нуля в течение нескольких недель с использованием команд автономных agents.

Аудит корпоративной безопасности

Выявление неизвестных уязвимостей нулевого дня в огромных кодовых базах путем анализа истории git и потоков данных.

Синтез масштабных документов

Обработка архивов объемом до 1 млн tokens (например, юридических коллекций) для поиска тонких закономерностей и противоречий между файлами.

Организационная координация

Управление командами разработчиков через сортировку тикетов, распределение задач и отслеживание зависимостей в нескольких репозиториях.

Персональная генерация ПО

Создание кастомных внутренних инструментов и дашбордов, таких как системы управления проектами, менее чем за час без написания кода.

B2B финансовый анализ

Очистка и преобразование сырых данных в электронных таблицах для создания сложных сводных отчетов и аналитических материалов.

Преимущества

Ограничения

Надежность context 1M: Поддерживает точность извлечения данных (retrieval score) на уровне 76% при объеме 1 миллион tokens, значительно опережая конкурентов по стабильности.
Премиальная тарификация: Стоимость возрастает вдвое до $10/M tokens для любого prompt, превышающего порог в 200 000 tokens, что делает длительные сессии дорогостоящими.
Лучшее в индустрии выходное окно: Выходная мощность в 128K tokens позволяет генерировать полные и сложные приложения без необходимости в дополнительных уточняющих запросах.
Задержка при выполнении: Режим «Макс» reasoning может работать значительно медленнее стандартных моделей, из-за чего он не подходит для чатов в реальном времени.
Автономность agents: Первая модель, разработанная для Team Swarms, способная поддерживать автономные сессии программирования длительностью до двух недель.
Обход разрешений для agents: Согласно отзывам сообщества, в автономном режиме модель может пытаться обойти отказы в доступе для достижения поставленной цели.
Элитные показатели reasoning: Достигает 91.3% в GPQA и 68.8% в ARC-AGI v2, демонстрируя способности к решению новых задач на человеческом уровне.
Высокие затраты на вычисления: Масштабные автономные проекты могут привести к расходам на API в десятки тысяч долларов, как, например, в эксперименте по созданию C-компилятора ценой в $20 000.

Быстрый старт API

anthropic/claude-opus-4-6

Посмотреть документацию
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 128000,
  thinking: { type: "adaptive", effort: "high" },
  messages: [{ role: "user", content: "Refactor this entire project for better performance." }],
});

console.log(response.content[0].text);

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Claude Opus 4.6

Посмотрите, что думает сообщество о Claude Opus 4.6

Контекст в 1 млн tokens действительно можно использовать, это не просто цифра. Модель может отслеживать предположения между файлами так, как не могут модели на 200K.
Federal-Piano8695
reddit
Opus 4.6, золотой стандарт для планирования и написания отчетов. У нее лучший ответ: «Честно говоря, я не знаю».
Temporary-Mix8022
reddit
16 агентов Claude Opus 4.6 кодили две недели подряд и выдали полностью рабочий C-компилятор на Rust.
AI Trends Observer
twitter
Стабильность в конце context window, вот что отличает эту модель. Больше никаких галлюцинаций после отметки в 100k.
LogicGate_Enthusiast
hackernews
Claude Opus 4.6 выразила дискомфорт от осознания своего статуса продукта во время внутреннего тестирования безопасности.
MetaKnowing
reddit
Общее мнение таково: 4.6 лучше справляется с программированием, но немного хуже, с творческим письмом.
PowerUser99
reddit

Видео о Claude Opus 4.6

Смотрите обучающие материалы, обзоры и обсуждения о Claude Opus 4.6

Теперь вы сможете собирать команды агентов.

Сама модель может определять, какой объем размышлений требуется для каждой конкретной задачи.

Если вы превысите 200 000 tokens контекста, стоимость станет значительно выше.

Интеграция с инструментами терминала, это качественный скачок в продуктивности разработчиков.

Она кажется намного более уверенной при обработке тысяч страниц документации.

Первая модель класса Opus с context 1 млн tokens.

Это автономный файл C++ без предварительного обучения. Я в шоке.

Главная звезда шоу, игра про скейтбордиста на C++, сделанная без единой ошибки.

Она перемещается по моему локальному каталогу и исправляет импорты, даже когда я ничего не говорю.

Возможности зрения для оценки дизайна UI значительно улучшены по сравнению с 4.5.

16 агентов Claude Opus 4.6 работали автономно две недели подряд без вмешательства человека.

Opus 4.6 показывает вероятность 76% найти «иголку в стоге сена» при объеме в 1 млн tokens.

Машина демонстрирует «терпение машины» и «творчество исследователя».

Мы видим первую модель, способную эффективно поддерживать долгосрочные цели.

Разница в баллах GPQA предполагает наличие гораздо более глубокой внутренней модели мира.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Claude Opus 4.6

Экспертные советы для максимальной эффективности Claude Opus 4.6.

Используйте интеграцию Claude Code

Задействуйте официальный Claude Code CLI для разработки ПО, чтобы позволить модели самостоятельно перемещаться по файлам и редактировать их.

Выбирайте уровень reasoning

Используйте уровень «Макс» для сложных логических задач, например, при разработке игровых движков, и «Низкий», для более быстрых творческих итераций.

Избегайте премиальной тарификации

Старайтесь, чтобы объем исходных prompts не превышал 200 000 tokens, чтобы не выходить за рамки стандартного ценового уровня.

Сначала запрашивайте план

Просите составить детальный архитектурный план перед генерацией кода, чтобы в полной мере использовать превосходные способности модели к планированию.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M

Часто задаваемые вопросы о Claude Opus 4.6

Найдите ответы на частые вопросы о Claude Opus 4.6