openai

GPT-5.2 Pro

GPT-5.2 Pro 是 OpenAI 2025 年的旗舰推理 model,具备 Extended Thinking 功能,在数学、编程和专家级知识工作方面拥有 SOTA 表现。

openai logoopenaiGPT-5December 11, 2025
上下文
400Ktokens
最大输出
128Ktokens
输入价格
$21.00/ 1M
输出价格
$168.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
93.2%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.2 Pro 在此基准测试中得分 93.2%。
HLE
36.6%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.2 Pro 在此基准测试中得分 36.6%。
MMLU
89.6%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.2 Pro 在此基准测试中得分 89.6%。
MMLU Pro
82%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.2 Pro 在此基准测试中得分 82%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.2 Pro 在此基准测试中得分 52%。
IFEval
93.5%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.2 Pro 在此基准测试中得分 93.5%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.2 Pro 在此基准测试中得分 100%。
MATH
97%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.2 Pro 在此基准测试中得分 97%。
GSM8k
99.2%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.2 Pro 在此基准测试中得分 99.2%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.2 Pro 在此基准测试中得分 96%。
MathVista
76.5%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.2 Pro 在此基准测试中得分 76.5%。
SWE-Bench
80%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.2 Pro 在此基准测试中得分 80%。
HumanEval
94.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.2 Pro 在此基准测试中得分 94.5%。
LiveCodeBench
78%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.2 Pro 在此基准测试中得分 78%。
MMMU
79.5%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.2 Pro 在此基准测试中得分 79.5%。
MMMU Pro
79.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.2 Pro 在此基准测试中得分 79.5%。
ChartQA
91.2%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.2 Pro 在此基准测试中得分 91.2%。
DocVQA
94.8%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.2 Pro 在此基准测试中得分 94.8%。
Terminal-Bench
55.6%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.2 Pro 在此基准测试中得分 55.6%。
ARC-AGI
54.2%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.2 Pro 在此基准测试中得分 54.2%。

关于 GPT-5.2 Pro

了解 GPT-5.2 Pro 的功能、特性以及它如何帮助您获得更好的效果。

reasoning 的新前沿

GPT-5.2 Pro 是 OpenAI 的 state-of-the-art reasoning model,专为高风险的智力任务设计。该 model 于 2025 年底发布,引入了“extended thinking”模式,允许 model 对复杂问题进行长时间处理,以确保逻辑一致性。它被广泛认为是专业数学证明和高级竞赛编程的行业领导者,经常能解决前几代产品认为不可能完成的问题。

技术精度与输出

该 model 的特点是严格遵守复杂指令,且在逻辑 inference 中的 hallucination 率显著低于竞争对手。它保持着高度组织化和专业的对话语气,但因其沉重的 reasoning 开销导致其交互风格较“冷”且 latency 增加。它已成为需要机械化全代码库检查的开发者,以及在庞大的 400,000 token context window 内追求博士级精度的研究人员的首选。

专家级表现

除了 benchmark 之外,GPT-5.2 Pro 是首个在专业任务 benchmark 上持续超越拥有 14 年以上经验行业专家的 model。它单次生成数万行功能代码的能力,标志着它已从早期 model 中观察到的“懒惰”问题中显著转型,使其成为复杂 agentic 工作流的首选。

GPT-5.2 Pro

GPT-5.2 Pro 的使用案例

发现使用 GPT-5.2 Pro 获得出色效果的不同方式。

奥林匹克数学

:擅长解决专业级和 IMO 数学题目,并提供详尽的证明过程。

机械化编程任务

:高效处理庞大的机械化代码更新列表并进行检查,且不会产生“懒惰”现象。

逻辑推理

:为复杂的架构搭建和替代历史分析进行深度 reasoning。

技术研究

:准确从专业文档中检索并综合小众技术数据。

指令遵循

:极度精准地严格执行高度复杂或违反直觉的用户需求。

创意写作

:能够创作出模仿文学经典质感的高密度文学作品。

优势

局限性

数学领域 SOTA: :目前唯一在不使用外部 tool 的情况下,在 AIME 2025 benchmark 中获得 100% 分数的 model。
高 latency: :在某些场景下,单个复杂的“extended thinking”响应可能需要 30-40 分钟。
零懒惰编程: :能够在单次响应中生成超过 24,000 行功能代码且不发生截断。
冷淡的人设: :用户形容其交互风格与更具对话感的 model 相比,显得刻板、冷静且自命不凡。
专家级知识对等: :首个在 GDP-Val 任务上持续超越拥有 14 年经验行业专家的 model。
昂贵的定价: :每 100 万 input tokens 21 美元的价格显著高于 Gemini 3 Pro 等竞争 model。
深度 reasoning 上下文: :在其庞大的 400,000 token context window 内保持近乎完美的检索和逻辑。
实现细节遗漏: :尽管非常智能,但在复杂的 3D 渲染脚本中偶尔会遗漏冷门的库导入。

API快速入门

openai/gpt-5.2-pro

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'gpt-5.2-pro',
    messages: [
      { role: 'user', content: 'Prove the existence of infinite primes using the extended thinking mode.' }
    ],
    reasoning_effort: 'high'
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.2 Pro 的评价

看看社区对 GPT-5.2 Pro 的看法

"GPT-5.2-codex xhigh 是一个猛兽,它能横扫你整个代码库,不留任何悬而未决的问题。"
Rafael Bittencourt
x
"GPT Pro 在这个领域 [数学] 绝对是 SOTA。它有时甚至能解出第三题和第六题。"
ArchMeta1868
reddit
"GPT-5.2 Pro 持续让我感到震撼……我收到了在一个专业 Excel 工作簿中进行的严谨分析。"
Simon Smith
x
"这个 model 就像一个非常聪明、有创意的人,虽然不太靠谱但才华横溢。"
Narrator
youtube
"5.2 的 hallucination 实际上比 Opus 还要少,而且它能非常严格地执行我的要求。"
ArchMeta1868
reddit
"Reasoning 开销巨大,但数学证明的结果简直是诺贝尔级别的。"
QuantumDev
hackernews

关于 GPT-5.2 Pro 的视频

观看关于 GPT-5.2 Pro 的教程、评测和讨论

这是历史上人类平均水平首次被 AGI 超越。

GPT-5.2 的思维设定了 70% 的全新 SOTA 分数……这是我们首个表现达到或超过人类专家水平的 model。

它是一款在 44 个真实美国职业表现中胜出的单一 model。

内部 reasoning 追踪终于展现出了真正的自我修正迹象。

我们看到的不仅仅是一个预测文本的 model,它还在模拟逻辑。

单次响应生成 24,000 行代码简直是闻所未闻。

现在这里有一个可选的思考时间选项……允许开启 ‘extended thinking’ 模式。

该 model 在门萨挪威智力测试中得分高于所有其他 model……IQ 在 145 到 147 之间。

即使在 400k tokens 下,它的 context window 检索也基本完美。

这不仅仅是更多的数据,这是一个完全不同的逻辑深度架构。

在 GDP-Val 测试中超过 50% 的时间击败人类专家,对劳动力市场来说是一个可怕的里程碑。

一切都运行得非常顺畅……GPT-5.2 的编程能力给我留下了深刻印象。

Canvas 功能让 3JS 代码的调试变得瞬间完成。

OpenAI 终于解决了困扰 GPT-4 的‘懒惰’问题。

这是我互动过的听起来最‘专业’的 AI。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

GPT-5.2 Pro专业提示

专家提示助您充分利用GPT-5.2 Pro。

Extended Thinking:在准确率比速度更关键的数学或逻辑问题中,请使用“extended thinking”模式。

Codex 集成:利用其在专门环境(如 Codex)中的高性能表现进行机械化代码库管理。

验证前提:如果长响应的第一个前提有误,请立即打断并纠正。

迭代优化:如果初始代码运行失败,请将控制台错误反馈给它,第二次修复的成功率极高。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

关于GPT-5.2 Pro的常见问题

查找关于GPT-5.2 Pro的常见问题答案