openai

GPT-5.2

GPT-5.2はプロフェッショナルなタスクに向けたOpenAIのフラッグシップモデルです。400Kのcontext window、卓越したコーディング、そして高度な多段階推論能力を搭載しています。

openai logoopenaiGPT-5December 11, 2025
コンテキスト
400Kトークン
最大出力
100Kトークン
入力価格
$1.75/ 1M
出力価格
$14.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
93%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 GPT-5.2はこのベンチマークで93%を記録しました。
HLE
45%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 GPT-5.2はこのベンチマークで45%を記録しました。
MMLU
88%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 GPT-5.2はこのベンチマークで88%を記録しました。
MMLU Pro
83%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 GPT-5.2はこのベンチマークで83%を記録しました。
SimpleQA
58%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 GPT-5.2はこのベンチマークで58%を記録しました。
IFEval
95%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 GPT-5.2はこのベンチマークで95%を記録しました。
AIME 2025
100%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 GPT-5.2はこのベンチマークで100%を記録しました。
MATH
98%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 GPT-5.2はこのベンチマークで98%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 GPT-5.2はこのベンチマークで99%を記録しました。
MGSM
98%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 GPT-5.2はこのベンチマークで98%を記録しました。
MathVista
78%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 GPT-5.2はこのベンチマークで78%を記録しました。
SWE-Bench
80%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 GPT-5.2はこのベンチマークで80%を記録しました。
HumanEval
95%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 GPT-5.2はこのベンチマークで95%を記録しました。
LiveCodeBench
80%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 GPT-5.2はこのベンチマークで80%を記録しました。
MMMU
75%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 GPT-5.2はこのベンチマークで75%を記録しました。
MMMU Pro
65%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 GPT-5.2はこのベンチマークで65%を記録しました。
ChartQA
93%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 GPT-5.2はこのベンチマークで93%を記録しました。
DocVQA
95%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 GPT-5.2はこのベンチマークで95%を記録しました。
Terminal-Bench
60%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 GPT-5.2はこのベンチマークで60%を記録しました。
ARC-AGI
52.9%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 GPT-5.2はこのベンチマークで52.9%を記録しました。

GPT-5.2について

GPT-5.2の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

GPT-5.2は、プロフェッショナルな知識労働や自律型エンジニアリング向けに設計されたOpenAIのフラッグシップ推論モデルです。2025年12月11日にリリースされた本モデルは、GPT-4およびGPT-o1シリーズからの大きな進化を遂げており、推論負荷を制御(Medium, High, Extra High)できる専用の「思考モード(Thinking mode)」を統合しました。これにより、回答を生成する前にステップバイステップのロジックを一時停止して検証することが可能です。

400Kという巨大なcontext windowとほぼ100%の再現性を備えており、シニアレベルのコードレビューや複雑なリファクタリング、学術リサーチ向けに設計されています。そのアーキテクチャはagenticなワークフローをサポートするように構築されており、ネイティブなツール呼び出しや、複雑な技術図表とコードベースを同時に処理できるマルチモーダルな視覚機能を備えています。

論理精度やエンジニアリングのベンチマークにおいて極めて優秀で、AIME 2025で100%のスコアを達成していますが、Claudeのような競合モデルと比較すると、より機械的で公式なトーンを採用しています。現在、入力100万tokenあたり1.75ドル、出力100万tokenあたり14.00ドルで利用可能であり、以前は人による高コストな監督が必要だった深い推論タスクに対する、コスト効率の良い代替手段となります。

GPT-5.2

GPT-5.2のユースケース

GPT-5.2を使って素晴らしい結果を得るさまざまな方法を発見してください。

複雑なエンジニアリングリファクタリング

厳格な型の不変条件とアーキテクチャの整合性を維持しながら、パフォーマンスが重要なコードベースに対して深層的なリファクタリングを行います。

自律型ターミナルタスク

Terminal-Bench環境での高いパフォーマンスを活かし、ステップ数の多いCLIワークフローの実行や、複雑なクラウドデプロイメントの管理を行います。

博士レベルの知識統合

何百もの技術資料や学術論文を同時に解析し、専門的な科学トピックに関する包括的なリサーチレポートを作成します。

並行処理のバグ解決

長いコードセグメントにわたる高度な論理推論が必要とされる、微細なレースコンディションやメモリリークの特定と修正を行います。

機械的なコード処理

汎用LLMによく見られる「怠慢さ」を排除し、リポジトリ全体にわたる大規模で反復的なコード移行作業を確実に処理します。

シニアエンジニアによる技術レビュー

バーチャルなシニアエンジニアとして設計計画をレビューし、本番システムのロジックにおけるエッジケースを特定します。

強み

制限

優れたエンジニアリング精度: Terminal-Bench 2.0で77.3%のスコアを達成し、複雑なコマンドラインインターフェースのタスクにおいて競合モデルを上回りました。
高い応答レイテンシ: 推論負荷が高いため、以前のモデルよりも目に見えて低速であり、待ち時間が長くなります。
エリートレベルの数学的推論: AIME 2025 benchmarkで100%のスコアを記録し、外部ツールを使用せずに競技レベルの数学を解く能力を示しました。
人工的なUXトーン: Claudeシリーズと比較して、ユーザーからは気取った印象や、過度に構造化された「親切さ」が不自然であるとの指摘があります。
低いハルシネーション率: コミュニティによるテストおよび内部benchmarkにおいて、以前のflagship世代と比較して事実誤認が30%削減されています。
不透明な思考プロセス: 一部の透明性の高い推論モデルとは異なり、GPT-5.2は内部のchain-of-thoughtを隠すことが多く、最終的に検証された回答のみを提示します。
長時間のタスク継続性: 2時間以上にわたる自律的な作業セッションを維持できるため、大規模な開発作業に最適です。
高額な推論コスト: 出力料金の14.00ドルは、thinking tokenが大量に消費される長時間の推論タスクにおいて急速にコストが増大する可能性があります。

APIクイックスタート

openai/gpt-5.2

ドキュメントを見る
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function solveCodeProblem() {
  const response = await openai.chat.completions.create({
    model: 'gpt-5.2',
    messages: [{ role: 'user', content: 'Debug this race condition in my Rust service.' }],
    reasoning_effort: 'high',
    temperature: 0,
  });
  console.log(response.choices[0].message.content);
}

solveCodeProblem();

SDKをインストールして、数分でAPIコールを開始しましょう。

GPT-5.2についてのユーザーの声

GPT-5.2についてコミュニティがどう思っているか見てください

Codex環境でのGPT 5.2は非常に大きな改善が見られます。以前ならモデルが怠慢になっていたような機械的なタスクも、積極的にこなしてくれます。
ArchMeta1868
reddit
出力のファクトチェックに時間をかけ、熟考する姿勢は評価に値します…信頼性は大幅に向上しました。
Thomas Randall
techopedia
深層リサーチを支えるこのモデルは、必要に応じて専門的な情報を的確に探し出すという、人間らしいアプローチを見せてくれました。
OpenAI Official
twitter
OpenAIの構造的な「ユーザーケア」への注力は、Claudeのような自然な議論に比べると、冷たい核を隠すための企業の仮面のようにも感じられます。
Anonymous Developer
hackernews
ついに500行のリファクタリングの途中で怠慢にならないモデルが現れた。
CodeWizard
reddit
reasoning effortパラメータこそが、複雑な論理問題に対する真のMVPだ。
AIBuilder
twitter

GPT-5.2についての動画

GPT-5.2についてのチュートリアル、レビュー、ディスカッションを見る

これは本当に凄まじい。この一発回答を見てください。

GPT 5.2のデザインにはあまり感銘を受けていません…Gemini 3の方がずっと優秀でした。

400kの全範囲において、コンテキストの再現性はほぼ完璧です。

チャットボットというよりは、推論エンジンといった方が近いです。

レイテンシの高さは、一部のリアルタイムアプリにとっては致命的な欠点です。

GPT 5.2は、ChatGPT内で直接、完全な形式のスプレッドシートやスライドを作成できるようになりました。

ついにこのモデルが成長し、真剣に業務に取り組み始めたように感じます。

高負荷な推論設定は、ロジック重視のタスクにのみ使用してください。

4oシリーズと比較して、ハルシネーションは大幅に減少しています。

人間が常時監視しなくても、agenticなワークフローがようやく現実的になりました。

GPT 5.2は5.1より40%高価ですが、それでもOpusよりは大幅に安いです。

GPT 5.2が[アプリの構築に]かかった時間は11分20秒でした。つまりOpusの2倍の時間がかかったことになります。

thinking modeを有効にすると、出力品質は劇的に向上します。

型定義を失うことなく、複数ファイルのリファクタリングを処理しました。

純粋な速度を求めるなら、このモデルは向きません。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

GPT-5.2のプロのヒント

GPT-5.2を最大限に活用し、より良い結果を得るための専門家のヒント。

推論負荷(Thinking Effort)の活用

reasoning_effortパラメータ(medium, high, xhigh)を使用して、タスクの複雑さに応じてモデルの推論時間を調整してください。

永続性のためのCodex有効化

大規模なリポジトリで作業する場合は、専用のCodex環境を使用して、最大150分間のアクティブな処理セッションを維持してください。

文脈の提供

モデルは必要な背景情報を適切に引き出した時に最も高いパフォーマンスを発揮するため、system promptに詳細な背景ドキュメントを記述してください。

要件の反復確認

モデルに対して、現在のコードベースと照らし合わせた検証チェックを行うよう明示的に指示し、要件が満たされているかを確認してください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

GPT-5.2についてのよくある質問

GPT-5.2に関するよくある質問への回答を見つけてください