openai

GPT-5.4

GPT-5.4は1.05Mのcontext windowとExtreme Reasoningを備えたOpenAIのfrontierモデルです。自律的なUI操作や長文データ分析に優れています。

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-52026年3月5日
コンテキスト
1.1Mトークン
最大出力
128Kトークン
入力価格
$2.50/ 1M
出力価格
$15.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
84.2%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 GPT-5.4はこのベンチマークで84.2%を記録しました。
HLE
42%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 GPT-5.4はこのベンチマークで42%を記録しました。
MMLU
91%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 GPT-5.4はこのベンチマークで91%を記録しました。
MMLU Pro
76%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 GPT-5.4はこのベンチマークで76%を記録しました。
SimpleQA
56.7%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 GPT-5.4はこのベンチマークで56.7%を記録しました。
IFEval
92%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 GPT-5.4はこのベンチマークで92%を記録しました。
AIME 2025
100%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 GPT-5.4はこのベンチマークで100%を記録しました。
MATH
88.6%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 GPT-5.4はこのベンチマークで88.6%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 GPT-5.4はこのベンチマークで99%を記録しました。
MGSM
96%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 GPT-5.4はこのベンチマークで96%を記録しました。
MathVista
74%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 GPT-5.4はこのベンチマークで74%を記録しました。
SWE-Bench
52.8%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 GPT-5.4はこのベンチマークで52.8%を記録しました。
HumanEval
85.1%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 GPT-5.4はこのベンチマークで85.1%を記録しました。
LiveCodeBench
72.5%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 GPT-5.4はこのベンチマークで72.5%を記録しました。
MMMU
84.2%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 GPT-5.4はこのベンチマークで84.2%を記録しました。
MMMU Pro
61%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 GPT-5.4はこのベンチマークで61%を記録しました。
ChartQA
89%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 GPT-5.4はこのベンチマークで89%を記録しました。
DocVQA
94%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 GPT-5.4はこのベンチマークで94%を記録しました。
Terminal-Bench
55%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 GPT-5.4はこのベンチマークで55%を記録しました。
ARC-AGI
52.9%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 GPT-5.4はこのベンチマークで52.9%を記録しました。

GPT-5.4について

GPT-5.4の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

長文context reasoningのFrontier

GPT-5.4は、GPT-5シリーズの高性能な進化系です。業界をリードする105万tokenのcontext windowを備えています。このモデルは、膨大なコードリポジトリや数年分の履歴ログといった巨大なデータセットを、reasoningの忠実度を損なうことなく処理します。対話的なMid-Response Steering機能により、ユーザーはモデルの思考計画をリアルタイムで監視・調整でき、複雑な多段階の意図に合わせた出力を確実に得ることができます。

統合されたインテリジェンスと自律的な行動

技術的には、GPT-5.4は従来のCodexブランチの世界クラスのコーディング能力と、標準的なGPT-5シリーズの創造的なニュアンスを統合しています。調整可能なeffortレベルを備えた専門的なThinkingモードを搭載しており、Standard、Extended、Heavyモードを選択できます。強化されたchain-of-thought処理を活用して、博士レベルの科学や論理問題を解決します。テキストだけでなく、GPT-5.4はネイティブなcomputer use能力を導入しました。視覚的なスクリーンショットの解釈と座標ベースのクリック実行により、OSWorldでのタスクで75%のスコアを達成しています。

効率性と信頼性

OpenAIは、前モデルと比較して事実誤認エラーが33%減少したと報告しています。これにより、GPT-5.4は自律型エージェントや高い責任を伴う意思決定サポートの主要な選択肢となります。また、tokenとエネルギーの効率化が図られており、前モデルよりも安価なコストで長文contextの処理が可能です。エンタープライズのコードベース全体の管理から自律的なスケジュール管理エージェントまで、GPT-5.4は信頼性とagenticなパフォーマンスの新たな基準を打ち立てます。

GPT-5.4

GPT-5.4のユースケース

GPT-5.4を使って素晴らしい結果を得るさまざまな方法を発見してください。

大規模なコードのリファクタリング

厳格なアーキテクチャ基準を維持しながら、30万行を超えるレガシーコードベースを体系的に書き換えます。

自律的な財務モデリング

損益計算書、貸借対照表、キャッシュフローをAIが統合し、複雑な財務3表モデルを構築します。

インタラクティブなシステム設計

生成プロセス中にモデルの論理経路を操作することで、3Dシミュレーションや物理演算ベースのゲームを開発します。

Agentic Computer Use

ネイティブなUI操作を介して、大量のデータ入力、メール管理、ソフトウェアテストといったマルチステップのデスクトップタスクを実行します。

長文の法務分析

数百もの法務書類を横断的に照合し、不整合の特定や特定の条項の抽出を高精度で行います。

博士レベルの研究サポート

Heavy Reasoningモードを使用して検証済みの論理連鎖を導き出し、複雑な数学的証明や科学的課題を解決します。

強み

制限

1.05Mの巨大なcontext: contextの減衰なしで巨大なコードベースやドキュメントセットを詳細に分析するための業界最高水準の容量を提供します。
Reasoningのlatency: Heavy Thinkingモードを有効にすると、複雑な論理や大規模なコード生成において数分間の待ち時間が発生する場合があります。
インタラクティブなThinking: 回答生成中に思考の方向を操作できる独自機能により、無駄な生成とtoken消費を大幅に削減します。
レート制限: 導入初期は、容量の拡大に伴い、厳しいメッセージ制限や一時的なアカウントの不具合が発生する可能性があります。
ネイティブなComputer Use: 高精度なUI操作(OSWorldで75%)により、デスクトップおよびブラウザ環境でモデルが直接作業を行えます。
非線形スケーリング: 一部の創造的なタスクにおいて、より軽いreasoningモードの方が、重いモードよりも審美的な詳細表現で優れた結果を出すことが確認されています。
極めて高いtoken効率: 最適化されたアーキテクチャにより、以前のGPT-5バージョンよりも低いlatencyとエネルギー消費で2026年のfrontier性能を実現します。
1M規模でのcontextの劣化: windowサイズは大きいものの、256Kから1M tokenに移行するにつれて、検索精度が大幅に低下します。

APIクイックスタート

openai/gpt-5.4

ドキュメントを見る
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

GPT-5.4についてのユーザーの声

GPT-5.4についてコミュニティがどう思っているか見てください

CodexでのGPT 5.4は大きな進歩。150分間一度もcontextを失わずに作業し続けた。
ArchMeta1868
reddit
GPT 5.4の3D設計能力は比類がない。船のシミュレーターで透明度や物理を扱う様子は驚異的だった。
AI_Creative_Daily
twitter
回答途中の修正機能は素晴らしい。モデルがどう進んでいるかが見えるので、tokenを無駄にする前に修正できる。
dev_guru_99
reddit
弁護士、会計士、財務アナリストなど44の職業で、83%の確率で人間に勝利した。
Josh Kale
twitter
OpenAIがついに出力のボトルネックを解消した。128kの出力tokenはフルスタック開発者の夢だ。
TheCodeChannel
youtube
computer useのlatencyはあるが、精度は複雑なSAPのワークフローをこなせるほど高い。
enterprise_sysadmin
hackernews

GPT-5.4についての動画

GPT-5.4についてのチュートリアル、レビュー、ディスカッションを見る

GPT 5.4が登場した。世界最高のモデルになったかもしれない。

GPT 5.4のThinkingは、あらかじめ思考の計画を提示できるようになった... モデルを導くことができる。

このインタラクティブな要素が、reasoningモデルの「ブラックボックス問題」を解決する。

標準的なタスクにおける速度は、o1-previewとは比べ物にならない。

長い会話の中でも一貫性を感じるreasoningだ。

GPT 5.4はチャット用に作られたのではない。仕事のために作られた。

Deferred loadingは、精度を落とすことなく、合計token使用量を47%削減した。

computer useの機能は、座標ベースのシステムでUI要素を追跡する。

古いJavaコードベースでテストしたが、ファイル間の依存関係を正しく理解した。

AIがOSを制御する世界へ移行している。

105万tokenのcontext window。これは非常に長いcontext windowだ。

思考中に操作できるのは、間違いなく効率的だ。

価格は高いが、大規模なドキュメントセットに対しては、これしか機能しないモデルだ。

Thinkingモードはpromptの複雑さに合わせて調整できる。

従来のGPTバージョンよりも、事実の想起が信頼できる。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

GPT-5.4のプロのヒント

GPT-5.4を最大限に活用し、より良い結果を得るための専門家のヒント。

Thinking Effortの切り替え

Standard、Extended、Heavyの各parametersを使い分け、精度の必要性と生成速度・コストのバランスを調整してください。

Thinking Planの確認

モデルが提示する事前の計画を監視し、論理が逸脱している場合はMid-Response Steeringを使用して修正してください。

Deferred Tool Loadingの活用

agenticなワークフローでは、遅延読み込みレジストリを使用することで、初期のtokenコストを最大47%削減できます。

完了条件(Completeness Contracts)の設定

prompt内で「完了」の定義を明示的に指定することで、長時間のタスクにおいてモデルの継続性を高めることができます。

Max Resolution Vision

最大10.24Mピクセルまでの高解像度画像をアップロードし、UI要素や技術図面の精密な視覚的検査を行えます。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

GPT-5.4についてのよくある質問

GPT-5.4に関するよくある質問への回答を見つけてください