openai

GPT-5.4

GPT-5.4は、1.05Mのcontext windowとExtreme Reasoningを備えたOpenAIのfrontier modelです。自律的なUI操作や長文データの分析に優れています。

OpenAIGPT-51M ContextReasoningマルチモーダル
openai logoopenaiGPT-5March 4, 2026
コンテキスト
1.1Mトークン
最大出力
128Kトークン
入力価格
$2.50/ 1M
出力価格
$15.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
84.2%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 GPT-5.4はこのベンチマークで84.2%を記録しました。
HLE
42%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 GPT-5.4はこのベンチマークで42%を記録しました。
MMLU
91%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 GPT-5.4はこのベンチマークで91%を記録しました。
MMLU Pro
76%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 GPT-5.4はこのベンチマークで76%を記録しました。
SimpleQA
56.7%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 GPT-5.4はこのベンチマークで56.7%を記録しました。
IFEval
92%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 GPT-5.4はこのベンチマークで92%を記録しました。
AIME 2025
100%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 GPT-5.4はこのベンチマークで100%を記録しました。
MATH
88.6%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 GPT-5.4はこのベンチマークで88.6%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 GPT-5.4はこのベンチマークで99%を記録しました。
MGSM
96%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 GPT-5.4はこのベンチマークで96%を記録しました。
MathVista
74%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 GPT-5.4はこのベンチマークで74%を記録しました。
SWE-Bench
52.8%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 GPT-5.4はこのベンチマークで52.8%を記録しました。
HumanEval
85.1%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 GPT-5.4はこのベンチマークで85.1%を記録しました。
LiveCodeBench
72.5%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 GPT-5.4はこのベンチマークで72.5%を記録しました。
MMMU
84.2%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 GPT-5.4はこのベンチマークで84.2%を記録しました。
MMMU Pro
61%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 GPT-5.4はこのベンチマークで61%を記録しました。
ChartQA
89%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 GPT-5.4はこのベンチマークで89%を記録しました。
DocVQA
94%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 GPT-5.4はこのベンチマークで94%を記録しました。
Terminal-Bench
55%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 GPT-5.4はこのベンチマークで55%を記録しました。
ARC-AGI
52.9%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 GPT-5.4はこのベンチマークで52.9%を記録しました。

GPT-5.4について

GPT-5.4の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

Long-Context Reasoningの最前線

GPT-5.4はGPT-5シリーズの高性能進化版であり、業界をリードする105万tokenのcontext windowを特徴としています。このmodelは、大規模なコードリポジトリや数年分の履歴ログなどの膨大なデータセットを、高精度なreasoning能力を損なうことなく処理できるように特別に設計されています。特筆すべき機能は、インタラクティブな「Mid-Response Steering」です。これにより、ユーザーはmodelの思考計画をリアルタイムで視覚的に監視・調整でき、出力が複雑で多段階の意図に完全に一致することを保証できます。

統合された知性と自律的なアクション

技術的には、GPT-5.4は以前のCodex専用ブランチの持つ世界クラスのコーディング能力と、標準的なGPT-5シリーズのクリエイティブなニュアンスを統合しています。調整可能な努力レベル(Standard、Extended、Heavy)を備えた特化型の「Thinking」モードを搭載しており、強化されたchain-of-thought処理を利用して、博士号レベルの科学や論理の問題を解決します。テキスト以外では、GPT-5.4はネイティブのcomputer use機能を導入し、高精度の視覚的スクリーンショットの解釈と座標ベースのクリック実行により、OSWorld-Verifiedタスクで75%のスコアを達成しています。

効率性と信頼性

OpenAIの報告によると、前世代と比較してクレームレベルの誤りが33%大幅に減少しており、GPT-5.4は自律型エージェントや高度な意思決定支援における第一の選択肢となっています。その強力なパワーにもかかわらず、tokenとエネルギーの効率性を重視して設計されており、以前のイテレーションよりも安価なlong-context処理を可能にしています。企業全体のコードベースの管理から自律的なスケジューリングエージェントとしての活動まで、GPT-5.4は生成AIの展望における信頼性とagenticなパフォーマンスの新たな基準を打ち立てます。

GPT-5.4

GPT-5.4のユースケース

GPT-5.4を使って素晴らしい結果を得るさまざまな方法を発見してください。

大規模コードベースのリファクタリング

数百のソースファイルを同時に読み込んで分析し、モジュール間の整合性を確保しながら、リポジトリ全体にわたる深いセマンティックバグを特定します。

自律型Agenticスケジューリング

視覚的なグラウンディングを通じてメールやカレンダーとやり取りし、複雑なイベントスケジュールの調整やフォローアップの連絡を自律的に行います。

高精度な建築設計

1,000行を超える精密なシミュレーション対応コードを使用して、機能的な地下鉄駅などの複雑な3Dシーンや構造計画を生成します。

長期的な科学的計画

Extreme Reasoningを活用して博士号レベルの科学的問題を解決し、数時間にわたる一貫した状態管理を必要とする多段階の分析を実行します。

サイバーセキュリティのインシデント調査

1.05Mのcontext windowセッション内で膨大な量の生ログデータを処理し、セキュリティ侵害を自律的に特定、調査、報告します。

インタラクティブなMid-Response Steering

内部の「思考」フェーズ中にmodelの進む方向を修正し、promptを再開することなくアーキテクチャの選択やロジックの経路を調整します。

強み

制限

最先端の1.05M Context Window: 膨大なデータセットやコードベースに対して、一貫性を即座に失うことなく、単一のpromptでreasoningを行う業界最先端の能力を提供します。
長いContextでの劣化: context windowが256K tokenを超えると、非常に複雑なreasoningタスクにおけるパフォーマンスが大幅に低下することが指摘されています。
Extreme Reasoningの正確性: 高負荷のreasoningモードを使用することで、博士号レベルの科学知識(GPQAで84.2%)と完璧な数学スコア(AIME 2025で100%)を達成しています。
複雑なバージョニング体系: 5.1、5.2 Thinking、5.3 Codex、5.4といった複雑なラインナップは、APIデベロッパーやチャットユーザーにとって大きな認知的負荷となっています。
自律的なUI操作: 最先端の視覚的グラウンディングにより、OSWorld benchmarkにおいて75%の精度でソフトウェアやブラウザを操作できます。
Heavyモードにおける高いLatency: 最高レベルのreasoning effortモードでは内部のchain-of-thought処理に8分以上かかることがあり、リアルタイムの対話タスクには不向きです。
Tokenとエネルギーの効率性: OpenAIのこれまでで最も効率的なfrontier modelとして設計されており、GPT-5.2と比較して複雑なreasoningに必要なエネルギーコストが削減されています。
神経質なアライメント: 過度に積極的な安全性fine-tuningにより、無害な事実に関するトピックであっても、modelが不必要にユーザーに反論するような挙動を示すことがあります。

APIクイックスタート

openai/gpt-5.4

ドキュメントを見る
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

GPT-5.4についてのユーザーの声

GPT-5.4についてコミュニティがどう思っているか見てください

GPT-5が圧倒的な復活を遂げている... 生成されたコードは一行残らず完全に動作した。
immortalsol
reddit
目玉機能は明らかに1Mのcontext windowだ。他のmodelがサポートしている約200kとは比較にならない。
Developer
hackernews
ワォ、GPT 5.4はめちゃくちゃ良い。6.0へのメジャーアップデートでもおかしくないレベルだ。Codexがここまで進化するとは信じがたい。
Rahul Sood
twitter
GPT-5.4はNYT Connectionsで94.0という極めて高いスコアを出した。一発で正解を導き出してくれる。
senko
hackernews
GPT-5.4がArtificial Analysis Intelligence Indexに掲載された... Gemini 3.1 Proと同点だ。
AiBattle
twitter
推論の深さが、ついにエンタープライズ規模のアーキテクチャ問題を扱えるレベルに達した。
CloudArchitect99
reddit

GPT-5.4についての動画

GPT-5.4についてのチュートリアル、レビュー、ディスカッションを見る

105万tokenのcontext window... これはとてつもなく長いcontext windowです。

5分22秒の思考の後、結果を受け取りました... これはよりagenticな方法でテストを行いました。

高精度な画像を認識する能力が更新され... 合計で最大1,024万ピクセルに対応しています。

modelは実際にWeb全体でリサーチを行い、自らのロジックを検証します。

これは、状態の維持が必要なagenticなワークフローにとって大きな飛躍です。

GPT 5.4にはすべてが詰まっています... 5.2とGPT 5.3 Codexを掛け合わせたようなモデルです。

コーディング能力は驚異的です。実質的に完璧と言っていいでしょう。

フロントエンドのセンスについては、Opus 4.6やGemini 3.1 Proにまだ及びません。

開発者の微妙な意図をより深く理解しているように感じられます。

1M tokenのwindowサイズを考えれば、価格設定は競争力があります。

明らかにOpenAIに対し、この100万コンテキスト能力に匹敵するmodelで対抗するようプレッシャーを与えています。

シングルショットで、このmodelがMinecraftのクローンを作成できるという事実は、ただただ驚くべきことです。

事実に関するハルシネーション率が33%減少しているのが確認できます。

reasoningモードはStandard、Extended、Heavyのレベルに分類されています。

OSWorld benchmarkにおける視覚的グラウンディングは、現在間違いなく業界をリードしています。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

GPT-5.4のプロのヒント

GPT-5.4を最大限に活用し、より良い結果を得るための専門家のヒント。

Reasoning Effortの切り替え

タスクの複雑さに応じて、Standard、Extended、またはHeavyのreasoning effortを使い分け、計算コストと出力品質のバランスを調整してください。

事前計画の監視

Thinkingバリアントを使用する際は、事前に提示される計画を監視してください。modelが提案したロジックの経路に誤りがあると思われる場合は、生成の途中で介入することが可能です。

戦略的なPrompt Caching

OpenAIの自動prompt cachingによるコスト削減を活用するため、静的で大規模なコンテキストブロックはpromptの冒頭に配置するようにしてください。

Contextの安定性管理

1.05Mのウィンドウは堅牢ですが、パフォーマンスが最も安定するのは最初の256K token以内と報告されています。重要な要約などはpromptの末尾付近に配置してください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

GPT-5.4についてのよくある質問

GPT-5.4に関するよくある質問への回答を見つけてください