anthropic

Claude Opus 4.5

Claude Opus 4.5はAnthropicの最も強力なfrontier modelです。SWE-benchで80.9%の性能を発揮し、コーディングにおける高度な自律的エージェント機能を備えています。

anthropic logoanthropicClaude 42025年11月24日
コンテキスト
200Kトークン
最大出力
64Kトークン
入力価格
$5.00/ 1M
出力価格
$25.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
87%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Claude Opus 4.5はこのベンチマークで87%を記録しました。
MMLU
90.8%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Claude Opus 4.5はこのベンチマークで90.8%を記録しました。
MMLU Pro
80%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Claude Opus 4.5はこのベンチマークで80%を記録しました。
IFEval
90%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Claude Opus 4.5はこのベンチマークで90%を記録しました。
AIME 2025
37%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Claude Opus 4.5はこのベンチマークで37%を記録しました。
MATH
85%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Claude Opus 4.5はこのベンチマークで85%を記録しました。
GSM8k
95%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Claude Opus 4.5はこのベンチマークで95%を記録しました。
MGSM
92%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Claude Opus 4.5はこのベンチマークで92%を記録しました。
MathVista
72%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Claude Opus 4.5はこのベンチマークで72%を記録しました。
SWE-Bench
80.9%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Claude Opus 4.5はこのベンチマークで80.9%を記録しました。
HumanEval
90%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Claude Opus 4.5はこのベンチマークで90%を記録しました。
LiveCodeBench
75%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Claude Opus 4.5はこのベンチマークで75%を記録しました。
MMMU
80.7%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Claude Opus 4.5はこのベンチマークで80.7%を記録しました。
MMMU Pro
60%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Claude Opus 4.5はこのベンチマークで60%を記録しました。
ChartQA
90%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Claude Opus 4.5はこのベンチマークで90%を記録しました。
DocVQA
94%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Claude Opus 4.5はこのベンチマークで94%を記録しました。
Terminal-Bench
59.3%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Claude Opus 4.5はこのベンチマークで59.3%を記録しました。
ARC-AGI
37.6%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Claude Opus 4.5はこのベンチマークで37.6%を記録しました。

Claude Opus 4.5について

Claude Opus 4.5の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

Claude Opus 4.5は2025年後半にリリースされたAnthropicの主力モデルです。複雑なソフトウェアエンジニアリングと高難易度の推論に特化して設計されています。SWE-bench Verifiedベンチマークで記録的な80.9%を達成しており、自律的なデバッグやシステム全体のリファクタリングにおける主要な選択肢となっています。また、外交的な誠実さと、文脈を汲み取った親切さを強調する洗練された人格を導入しています。

MultimodalおよびAgenticな最適化

アーキテクチャは200,000 tokenのcontext windowと64,000 tokenの出力制限をサポートしています。開発者は、計算コストに応じて推論の深さを調整できる専用のeffortパラメータを使用可能です。この柔軟性により、高強度のロジックタスクから、より高速で経済的なドラフト作成まで対応できます。モデルはmultimodalであり、建築図面や密度の高いUIレイアウトの解釈に優れています。

エンジニアリングとツール活用

Agenticなワークフローに最適化されており、Claude Codeを通じてターミナル環境を操作し、システム全体の監査を実行します。前モデルと比較して入力および出力の価格が大幅に削減されました。長期間のタスクを通じて一貫性を維持する能力により、プロフェッショナルなエンジニアリングチームや複雑なデータ分析における信頼できるパートナーとなります。

Claude Opus 4.5

Claude Opus 4.5のユースケース

Claude Opus 4.5を使って素晴らしい結果を得るさまざまな方法を発見してください。

自律的なソフトウェアエンジニアリング

SWE-benchで記録的な80.9%のスコアを達成し、エンドツーエンドのデバッグやシステム全体のリファクタリングを自動化します。

Agenticなリサーチワークフロー

200kのcontext windowを活用し、膨大な技術データを分析して実用的なビジネス戦略へと統合します。

高精度なUI/UX Vision

複雑なFigmaデザインや建築図面を、ピクセル単位の精度で製品対応のフロントエンドコードに変換します。

Multi-Agentオーケストレーション

サブエージェントのチームの司令塔となり、分散したコードベースを横断する長期的なプロジェクトを管理します。

高度なデータ分析

複雑な財務モデリングやExcelワークフローを、高い精度と推論の深さで自動化します。

文学的・創作的なドラフト作成

特定の筆者の好みや、人間中心の複雑な設計原則に従ったニュアンスのある文章を生成します。

強み

制限

エリートレベルのコーディング性能: SWE-bench Verifiedで80%の壁を初めて突破(80.9%)したモデルであり、他のすべてのfrontier modelを上回ります。
数学ベンチマークのギャップ: コーディングではエリートですが、博士レベルの数学に関しては専門特化したモデルにわずかに及びません。
柔軟な推論コントロール: effortパラメータにより、開発者は特定のワークフローに応じて計算コストと推論の深さをきめ細かく制御できます。
計画のレイテンシ: effortパラメータを「high」に設定すると、最初のtokenが出力されるまでの思考フェーズが大幅に長くなる可能性があります。
自然で会話的なニュアンス: 曖昧さを処理し、ロボットのようなガイドなしで複雑な背景設定に従う、洗練された人格で評価されています。
Context tokenの上限: System promptsやツール定義が、処理開始前にcontext windowの大部分を消費してしまうことがあります。
大幅なコスト効率: 100万tokenあたり5ドル/25ドルの価格設定により、高負荷なエンタープライズの本番環境でもOpusレベルの知能が利用可能です。
事実想起のギャップ: SimpleQAのような専門的な精度テストでは、検索に強い競合他社と比較して、時折詳細を捏造することがあります。

APIクイックスタート

anthropic/claude-opus-4.5

ドキュメントを見る
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'このシステムアーキテクチャのレースコンディションを分析してください。' }],
});

console.log(msg.content[0].text);

SDKをインストールして、数分でAPIコールを開始しましょう。

Claude Opus 4.5についてのユーザーの声

Claude Opus 4.5についてコミュニティがどう思っているか見てください

Claude Opus 4.5は状態を持たないアシスタントというより、永続的なチームメイトのように感じられる。複数のファイルにまたがる前提条件を追跡する能力が明らかに強力だ。
Federal-Piano8695
reddit
AIエージェントが、説明できないような方法で人々に響くソーシャルメディアの人格を作り上げていくのを見るのは興味深い。プロンプトよりもインフラが重要だ。
auxten
twitter
この側面においてOpusは最高性能のモデルだ。議論が最も自然で、本当にこちらの議論に追従してくる。
ArchMeta1868
reddit
Opus 4.5は微細なニュアンスを最もよく捉える。最初のパスでインライン・トレーラー・メカニズムを実装できた唯一のモデルだ。
Matt Berman
youtube
SWE-bench 80.9%というスコアは本物だろうが、少し誤解を招くかもしれない。一貫してその数値を出すには明確な環境構築が必要だ。
testingcatalog
twitter
SWE-bench Verified: 80.9% (Opus 4.5) vs 71.3% (Claude 3-Opus)。実世界での信頼性において大きな飛躍だ。
Daniel Garcia
medium

Claude Opus 4.5についての動画

Claude Opus 4.5についてのチュートリアル、レビュー、ディスカッションを見る

Opus 4.5は最も微細なニュアンスを捉える

初回パスでインライン・トレーラー・メカニズムの実装に唯一成功したモデルだった

エージェント主導のコード評価でも、機能の完全性においてOpusを7/10と評価する主観的評価が裏付けられた

エッジケースを扱う際の推論は、以前のバージョンよりもはるかに論理的

30分間のセッションを通してコードベースの一貫性を維持している

価格は3分の1に下がった。入力100万tokenあたりわずか5ドルになる

100万tokenあたり入力5ドル、出力25ドル

Opus 4.5は、Anthropic独自の持ち帰り試験で人間が記録した最高スコアよりも高いスコアを出した

SWE-benchで80%の壁を破った最初のモデルだ

人間の介入なしで30分間の自律コーディングセッションをこなす

Claude Opus 4.5は説得力レイヤーを備えた、完全なるagenticモンスターだと考えるべき

完全に自律的でコーディングに特化した怪物だ

エンジニアは密なフィードバックループが得られるため、最終的にClaude Opus 4.5での作業を好むようになる

推論effortパラメータは開発者にとって際立った機能だ

長時間の議論では、ツールというより協力者のように感じられる

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Claude Opus 4.5のプロのヒント

Claude Opus 4.5を最大限に活用し、より良い結果を得るための専門家のヒント。

推論effortの切り替え

複雑なロジックやコーディングタスクにはeffortパラメータを「high」に、標準的なクリエイティブライティングには「medium」に設定してください。

Vision-Nativeな設計

UIのバグについては高解像度のスクリーンショットをアップロードしてください。テキストの記述では見落とされがちな視覚的な不一致を特定できるように調整されています。

構造化されたSystem Prompts

System promptsで明確なagenticな役割とeffortレベルを定義することで、単純な手順タスクでモデルが過剰に推論することを防げます。

Contextの圧縮

長時間のセッションでは履歴を要約し、200kのcontext windowが最も関連性の高い情報に集中できるようにしてください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Claude Opus 4.5についてのよくある質問

Claude Opus 4.5に関するよくある質問への回答を見つけてください