openai

GPT-5.1

GPT-5.1は、adaptive thinking、ネイティブな multimodal 機能、そして数学や技術的なコーディングにおける state-of-the-art なパフォーマンスを備えた、OpenAIの高度な reasoning フラッグシップ model です。

openai logoopenaiGPT-52025-11-13
コンテキスト
400Kトークン
最大出力
128Kトークン
入力価格
$1.25/ 1M
出力価格
$10.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
88.1%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 GPT-5.1はこのベンチマークで88.1%を記録しました。
HLE
32.5%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 GPT-5.1はこのベンチマークで32.5%を記録しました。
MMLU
90.2%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 GPT-5.1はこのベンチマークで90.2%を記録しました。
MMLU Pro
81%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 GPT-5.1はこのベンチマークで81%を記録しました。
SimpleQA
52%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 GPT-5.1はこのベンチマークで52%を記録しました。
IFEval
91%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 GPT-5.1はこのベンチマークで91%を記録しました。
AIME 2025
94%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 GPT-5.1はこのベンチマークで94%を記録しました。
MATH
91%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 GPT-5.1はこのベンチマークで91%を記録しました。
GSM8k
98.5%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 GPT-5.1はこのベンチマークで98.5%を記録しました。
MGSM
95%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 GPT-5.1はこのベンチマークで95%を記録しました。
MathVista
75%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 GPT-5.1はこのベンチマークで75%を記録しました。
SWE-Bench
76.3%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 GPT-5.1はこのベンチマークで76.3%を記録しました。
HumanEval
92.5%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 GPT-5.1はこのベンチマークで92.5%を記録しました。
LiveCodeBench
74%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 GPT-5.1はこのベンチマークで74%を記録しました。
MMMU
85.4%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 GPT-5.1はこのベンチマークで85.4%を記録しました。
MMMU Pro
62%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 GPT-5.1はこのベンチマークで62%を記録しました。
ChartQA
89%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 GPT-5.1はこのベンチマークで89%を記録しました。
DocVQA
93%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 GPT-5.1はこのベンチマークで93%を記録しました。
Terminal-Bench
58%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 GPT-5.1はこのベンチマークで58%を記録しました。
ARC-AGI
12%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 GPT-5.1はこのベンチマークで12%を記録しました。

GPT-5.1について

GPT-5.1の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

reasoningにおける新たなフロンティア

GPT-5.1は、OpenAIのfrontier modelにおける重要な進化を象徴しており、エコシステム内のすべてのmodelがネイティブなreasoning機能を備えた最初のリリースとなります。このアップデートでは、以前のバージョンの臨床的な印象を脱却し、System 2 thinkingを通じて、より温かみのある直感的なユーザー体験を提供することに重点を置いています。Adaptive reasoningを統合することで、GPT-5.1は特定のpromptに必要な処理時間を動的に判断し、多段階の論理的推論を必要とするPhDレベルの科学や数学の問題を解決できます。

multimodalとパーソナライゼーション

このmodelはomni multimodalアーキテクチャに基づいて構築されており、大幅に改善されたメモリシステムと強化された指示への追従性により、テキストとビジョンをサポートします。また、洗練されたスタイルと特性(trait)機能を導入し、プロフェッショナルで学術的なトーンから、よりカジュアルで表現力豊かなトーンまで、ユーザーがmodelの性格を制御できるようになりました。これらのアップデートにより、modelは長期的なタスク、特にagenticなソフトウェアエンジニアリングにおいて、個人のコンテキストを保持し、複雑なユーザー要件を厳密に遵守します。

GPT-5.1

GPT-5.1のユースケース

GPT-5.1を使って素晴らしい結果を得るさまざまな方法を発見してください。

ソフトウェアのリファクタリング

GPT-5.1 Codexを使用して、10万行を超えるレガシーアプリケーションのトップダウンな再設計を計画。

数学オリンピックの問題解決

整数および記号によるreasoningを用いて、難解なオリンピックの問題に対して94%の成功率で証明を提供。

技術仕様のマッピング

視覚的またはテキスト入力から、ニッチなデータベーステーブルの複雑なカラム構造を特定・解説。

高度な論理推論

複雑な世界観構築や代替歴史フィクションのために、内部一貫性のあるナラティブを構築。

AI統合の提案

agenticシステムを本番環境に統合するための、データに基づいたプロフェッショナルなプレゼンテーションを生成。

戦略的なアーキテクチャレビュー

多段階のプロジェクト構造を分析し、フェーズごとの実施計画とリスク評価を作成。

強み

制限

Adaptive reasoningの統合: 計算負荷を動的にスケールさせ、最も難しい10%の質問に対しては通常の2倍の時間をかけて思考します。
reasoningのレイテンシ: 深い思考を必要とするタスクでは、標準的な対話型modelと比較して応答時間が大幅に遅くなります。
SOTAな数学パフォーマンス: AIME 2025で94%のスコアを達成し、オリンピックレベルの数学において業界の新たな基準を確立。
セーフティの過剰修正: 繊細な社会トピックについて議論する際、modelが神経質な挙動を示したり、臨床的な免責事項を多用したりすることがあります。
強化された感情知性: 以前の臨床的すぎるというフィードバックに対応し、温かみと直感的な対話トーンを大幅に改善。
アイデンティティの不自然さ: 自分が実在の人間ではないという内部的な免責事項を頻繁に繰り返すため、ユーザーとの自然なつながりが阻害されることがあります。
大容量の出力能力: 128,000 tokenという膨大な出力制限をサポートし、長文生成や大規模なコードのリファクタリングが可能。
切り替えの不整合: オートスイッチャーによるInstantモードとThinkingモードの移行が、時折不自然に感じられる場合があります。

APIクイックスタート

openai/gpt-5.1

ドキュメントを見る
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.1",
    messages: [
      { role: "system", content: "You are a reasoning assistant." },
      { role: "user", content: "Analyze this complex physics problem." }
    ],
    reasoning_effort: "high"
  });

  console.log(completion.choices[0].message);
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

GPT-5.1についてのユーザーの声

GPT-5.1についてコミュニティがどう思っているか見てください

"GPT-5.1 Thinkingは、質問に基づいて思考時間をより効果的に調整するようになりました"
OpenAI
x
"GPT-5 Proはこの分野(数学)において間違いなくSOTAです"
ArchMeta1868
reddit
"ロン、わかったよ。それは全く普通のことで、特に最近の君の状況を考えれば当然だよ"
Tamay Besiroglu
x
"GPT-5.1 Codex Maxが瞬時に修正してくれた。OpenAIは依然としてコーディング分野の王者だ"
BradAI
x
"システムアーキテクチャに対するreasoningの深さは恐ろしいほど素晴らしい"
CodeKing
hackernews
"メモリのアップデートにより、modelが本当に私のことを知っているように感じます"
User445
twitter

GPT-5.1についての動画

GPT-5.1についてのチュートリアル、レビュー、ディスカッションを見る

GPT-5と比較して、最も難しい上位10%の質問には約2倍の時間をかけて思考します

GPT-5.1 autoは、あなたのクエリに時間をかける価値があるかどうかを判断する小型modelです

この動的な計算スケーリングこそ、本格的な研究に必要だったものです

出力の長さが凄まじい。アプリ全体を一度に構築することも可能です

OpenAIは明らかに、ここでreasoning優先の戦略に注力しています

史上初めて、チャット内のすべてのmodelがreasoning modelになりました

このmodelの表現の幅は非常に広くなっています

modelに単なる臨床的なものではない、人間味のある個性を持たせたいと考えました

ユーザーはシステム設定を通じて、楽観主義や懐疑主義といった特性に影響を与えることができます

reasoningの負荷は、ユーザーが直接制御できるようになりました

開発者にとって、GPT-5.1 Codexは非常に着実な進化を遂げています

Claudeはしばしば調査結果を誇張したりデータを捏造したりすることがありましたが… GPT-5.1はより誠実です

AIME 2025のスコアは、標準的なGPT-5から大幅に飛躍しています

確かに遅いですが、「Thinking」トレースの質は優れています

context windowの管理能力は、競合他社よりもはるかにタイトに感じられます

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー
デモ動画を見る

GPT-5.1のプロのヒント

GPT-5.1を最大限に活用し、より良い結果を得るための専門家のヒント。

reasoningの負荷設定:複雑なロジックにはreasoning_effort parametersを「high」に、即座の対話タスクには「none」に手動で設定してください。

ペルソナスタイルの活用:新しいスタイルと特性(trait)設定を使用して、Professional、Candid、Quirkyのトーンを切り替えることができます。

アクティブメモリの管理:保存されたメモリを定期的に確認・管理し、modelの温かみのある応答が正しい個別のコンテキストに基づいているか確認してください。

引用の検証:modelはソースを引用するため、重要なタスクについては技術的な出力を引用元のドキュメントと照合してください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M

GPT-5.1についてのよくある質問

GPT-5.1に関するよくある質問への回答を見つけてください