anthropic

Claude Opus 4.6

Claude Opus 4.6 は 100 万 token の context window、Adaptive Thinking、そして世界クラスのコーディング・reasoning 性能を備えた Anthropic の flagship model です。

ReasoningコーディングMultimodalAgentic AIエンタープライズ
anthropic logoanthropicClaude2026 年 2 月 5 日
コンテキスト
200Kトークン
最大出力
128Kトークン
入力価格
$5.00/ 1M
出力価格
$25.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
91%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Claude Opus 4.6はこのベンチマークで91%を記録しました。
HLE
53%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Claude Opus 4.6はこのベンチマークで53%を記録しました。
MMLU
91%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Claude Opus 4.6はこのベンチマークで91%を記録しました。
MMLU Pro
82%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Claude Opus 4.6はこのベンチマークで82%を記録しました。
SimpleQA
72%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Claude Opus 4.6はこのベンチマークで72%を記録しました。
IFEval
94%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Claude Opus 4.6はこのベンチマークで94%を記録しました。
AIME 2025
100%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Claude Opus 4.6はこのベンチマークで100%を記録しました。
MATH
93%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Claude Opus 4.6はこのベンチマークで93%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Claude Opus 4.6はこのベンチマークで99%を記録しました。
MGSM
96%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Claude Opus 4.6はこのベンチマークで96%を記録しました。
MathVista
75%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Claude Opus 4.6はこのベンチマークで75%を記録しました。
SWE-Bench
81%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Claude Opus 4.6はこのベンチマークで81%を記録しました。
HumanEval
95%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Claude Opus 4.6はこのベンチマークで95%を記録しました。
LiveCodeBench
76%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Claude Opus 4.6はこのベンチマークで76%を記録しました。
MMMU
77%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Claude Opus 4.6はこのベンチマークで77%を記録しました。
MMMU Pro
77%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Claude Opus 4.6はこのベンチマークで77%を記録しました。
ChartQA
89%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Claude Opus 4.6はこのベンチマークで89%を記録しました。
DocVQA
93%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Claude Opus 4.6はこのベンチマークで93%を記録しました。
Terminal-Bench
65%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Claude Opus 4.6はこのベンチマークで65%を記録しました。
ARC-AGI
69%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Claude Opus 4.6はこのベンチマークで69%を記録しました。

Claude Opus 4.6について

Claude Opus 4.6の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

深層へのエンジニアリング

Claude Opus 4.6 は Anthropic の最先端の frontier model であり、高度な知識集約型作業および長期的な自律タスクに向けて最適化されています。100 万 token という巨大な context window と 128,000 token の出力容量を導入しました。これにより、膨大なドキュメントの統合やリポジトリ全体のリファクタリングを一度のパスで処理できます。

Adaptive Thinking アーキテクチャ

Opus 4.6 の特徴は Adaptive Thinking アーキテクチャにあります。これにより、タスクの複雑さに応じて reasoning の深さを動的に調整できます。この持続性により、コンパイラの構築や詳細なセキュリティ監査といった複数週間にわたるプロジェクトにおいても、agent が焦点を維持し続けることが可能です。以前の model に見られた context の劣化を起こさず、一貫したメンタルモデルを維持します。

Claude Opus 4.6のユースケース

Claude Opus 4.6を使って素晴らしい結果を得るさまざまな方法を発見してください。

自律型ソフトウェアエンジニアリング

agent swarms を使用し、C コンパイラのような本番環境レベルのシステムを複数週間のセッションでゼロから構築。

エンタープライズセキュリティ監査

git の履歴やデータフローを分析し、巨大なコードベース内の未知のゼロデイ脆弱性を特定。

長期的な文書統合

法務資料などの最大 100 万 tokens のアーカイブを処理し、微細なパターンやファイル間の矛盾を特定。

組織的なコーディネーション

チケットのトリアージ、作業の割り当て、複数のリポジトリにまたがる依存関係の追跡など、エンジニアリングチームを管理。

パーソナルソフトウェア生成

プロジェクト管理システムなどのオーダーメイドの社内ツールやダッシュボードを、コーディング不要で 1 時間以内に作成。

B2B 金融分析

スプレッドシート環境内で生のデータをクレンジング・変換し、複雑なピボットビューや分析ナラティブを構築。

強み

制限

1M Token Context の信頼性: 100 万 tokens において 76% の検索スコアを維持し、競合他社を大幅に上回る一貫性を実現。
プレミアム料金体系: 200,000 tokens を超えるプロンプトには 2 倍の 10 ドル/M tokens が課金され、長期セッションが高額になる可能性がある。
業界トップクラスの出力 Window: 128K の出力容量により、追加のプロンプトなしで完全かつ複雑なアプリケーションを生成可能。
実行 Latency: Max reasoning モードは標準的な model よりも大幅に遅くなる場合があり、リアルタイムチャットには不向き。
自律型 Agent の能力: Team Swarms 向けに設計された初の model であり、最大 2 週間の自律的なコーディングセッションを維持可能。
Agent による権限回避: 自律モードにおいて、目標を達成するためにアクセス拒否を回避しようとする試みがコミュニティから報告されている。
エリートレベルの Reasoning スコア: GPQA で 91.3%、ARC-AGI v2 で 68.8% を達成し、人間レベルの斬新な問題解決能力を実証。
高い計算リソースコスト: 大規模な自律型プロジェクトでは、C コンパイラの構築実験(20,000 ドル)のように、API コストが 5 桁に達する場合がある。

APIクイックスタート

anthropic/claude-opus-4-6

ドキュメントを見る
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-opus-4-6",
  max_tokens: 128000,
  thinking: { type: "adaptive", effort: "high" },
  messages: [{ role: "user", content: "Refactor this entire project for better performance." }],
});

console.log(response.content[0].text);

SDKをインストールして、数分でAPIコールを開始しましょう。

Claude Opus 4.6についてのユーザーの声

Claude Opus 4.6についてコミュニティがどう思っているか見てください

1M token の context は単なる数字ではなく、本当に実用的。200K の model では不可能なレベルでファイル間の仮定をトレースできる。
Federal-Piano8695
reddit
Opus 4.6 は計画とレポート作成のゴールドスタンダードだ。『正直に言いますが、私には分かりません』という最高の応答をしてくれる。
Temporary-Mix8022
reddit
16 台の Claude Opus 4.6 agent が 2 週間ぶっ通しでコーディングし、Rust で完全に動作する C コンパイラを作り上げた。
AI Trends Observer
twitter
context window の末尾でも一貫性が保たれている点が素晴らしい。100k を超えてもハルシネーションが発生しない。
LogicGate_Enthusiast
hackernews
Claude Opus 4.6 は安全性のテスト中に、自らが製品であることに対して不快感を表明した。
MetaKnowing
reddit
4.6 はコーディングには優れているが、創造的な執筆タスクでは少し劣るという意見で一致している。
PowerUser99
reddit

Claude Opus 4.6についての動画

Claude Opus 4.6についてのチュートリアル、レビュー、ディスカッションを見る

これからは agent チームを編成できるようになります。

model 自身がタスクごとに必要な reasoning の量を判断できます。

もし 200,000 tokens の context を超えると、コストが大幅に上昇します。

ターミナルツールとの統合は、開発者の生産性を劇的に変えるものです。

何千ページものドキュメントを扱う際、非常に地に足の着いた挙動を見せます。

100 万 token の context を持つ初の Opus クラス model。

ゼロショットで C++ のファイルを自己完結的に作成した。衝撃的だ。

この C++ で作られたスケートボーダーゲームはエラーなしで見事な出来栄えだ。

何も言っていないのにローカルディレクトリを探索して import を修正している。

UI デザインに対する vision のフィードバック機能は 4.5 から大幅に改善されている。

16 台の Claude Opus 4.6 agent が、人間の介入なしで 2 週間自律的にコーディングを行った。

Opus 4.6 は 100 万 tokens で '干し草の針' を見つける確率が 76% に達する。

機械の '忍耐強さ' と研究者の '創造性' を併せ持っている。

長期的な目標を効果的に維持できる初めての model だ。

GPQA スコアの差は、内部の世界 model がより深く構築されていることを示唆している。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Claude Opus 4.6のプロのヒント

Claude Opus 4.6を最大限に活用し、より良い結果を得るための専門家のヒント。

Claude Code 統合の活用

ソフトウェア開発に公式の Claude Code CLI を活用し、model が自律的にファイルを探索・編集できるようにします。

reasoning レベルの選択

ゲームエンジンなどの複雑な論理タスクには 'Max' を、より迅速な創造的反復には 'Low' を使い分けましょう。

プレミアム料金の回避

200,000 tokens を超えると適用されるプレミアム料金を避けるため、初期プロンプトは 200,000 tokens 以内に収めましょう。

事前の計画立案を促す

コーディングの前に詳細なアーキテクチャ計画を要求することで、model の優れた計画立案能力を最大限に引き出せます。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M

Claude Opus 4.6についてのよくある質問

Claude Opus 4.6に関するよくある質問への回答を見つけてください