openai

GPT-5.2 Pro

GPT-5.2 Pro 是 OpenAI 2025 年的旗舰推理模型,具备扩展思考(Extended Thinking)功能,在数学、编程和专家级知识工作中达到 state-of-the-art 性能。

openai logoopenaiGPT-52025-12-11
上下文
400Ktokens
最大输出
128Ktokens
输入价格
$21.00/ 1M
输出价格
$168.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
93.2%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.2 Pro 在此基准测试中得分 93.2%。
HLE
36.6%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.2 Pro 在此基准测试中得分 36.6%。
MMLU
89.6%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.2 Pro 在此基准测试中得分 89.6%。
MMLU Pro
82%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.2 Pro 在此基准测试中得分 82%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.2 Pro 在此基准测试中得分 52%。
IFEval
93.5%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.2 Pro 在此基准测试中得分 93.5%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.2 Pro 在此基准测试中得分 100%。
MATH
97%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.2 Pro 在此基准测试中得分 97%。
GSM8k
99.2%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.2 Pro 在此基准测试中得分 99.2%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.2 Pro 在此基准测试中得分 96%。
MathVista
76.5%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.2 Pro 在此基准测试中得分 76.5%。
SWE-Bench
80%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.2 Pro 在此基准测试中得分 80%。
HumanEval
94.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.2 Pro 在此基准测试中得分 94.5%。
LiveCodeBench
78%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.2 Pro 在此基准测试中得分 78%。
MMMU
79.5%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.2 Pro 在此基准测试中得分 79.5%。
MMMU Pro
79.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.2 Pro 在此基准测试中得分 79.5%。
ChartQA
91.2%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.2 Pro 在此基准测试中得分 91.2%。
DocVQA
94.8%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.2 Pro 在此基准测试中得分 94.8%。
Terminal-Bench
55.6%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.2 Pro 在此基准测试中得分 55.6%。
ARC-AGI
54.2%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.2 Pro 在此基准测试中得分 54.2%。

关于 GPT-5.2 Pro

了解 GPT-5.2 Pro 的功能、特性以及它如何帮助您获得更好的效果。

推理智能的新标准

GPT-5.2 Pro 代表了 OpenAI 推理模型中的高 compute 级别。它专门为需要博士级科学研究和复杂逻辑推理的企业工作流而设计。与普通的语言模型不同,它利用了复杂的 inference-time compute 架构,允许用户扩展模型的思考投入(reasoning effort)。这使系统能够内部拆解问题、验证自身逻辑,并覆盖那些常导致较小模型出错的统计先验。

专为技术精度打造

虽然与更广泛的 GPT-5 系列共享核心训练,但 Pro 变体以其庞大的 400,000 token context window 和显著降低的幻觉率而著称。在理论物理学和高风险数学证明领域,它已被证明是一个可靠的协作工具。它在 ARC-AGI-2 和 GPQA Diamond 等抗污染 benchmark 上的表现,使其成为自主 agents 的主要处理引擎,能够处理多步骤、技术性的指令,无需人工干预。

企业级性能与输出

该模型以其对复杂指令的严格遵守和专业对话语气为特征。它是首个在专业工作任务 benchmark 上持续超越拥有 14 年以上经验的人类行业专家的模型。凭借高达 128,000 tokens 的生成能力,它标志着与前几代模型中观察到的“懒惰”现象的显著转变,使其能够在单次运行中生成完整的代码模块或详尽的研究报告。

GPT-5.2 Pro

GPT-5.2 Pro 的使用案例

发现使用 GPT-5.2 Pro 获得出色效果的不同方式。

自主软件工程

解决复杂的跨文件 GitHub 问题,并以 84.5% 的成功率在 SWE-Bench Verified 上执行全模块重构。

奥林匹克数学

解决 100% 的 AIME 2025 竞赛题目,并为统计学习理论中的开放性问题贡献原创证明。

企业 Agent 编排

充当高 compute 的流程引擎,能够调度数十种工具来处理多步骤的财务建模和物流任务。

博士级科学研究

以 93.2% 的 GPQA 得分分析物理、化学和生物学问题,超越了许多人类主题专家。

长上下文文档综合

摄入最多 400,000 tokens 的档案数据,以生成详尽的法律报告或技术手册。

交互式 3D 模拟

使用 Three.js 或 C++ 生成数千行的 3D 模拟,包括复杂的粒子物理和机械逻辑。

优势

局限性

完美的数学准确性: 在 AIME 2025 benchmark 上实现了 100% 的完美求解率,耗尽了现代竞赛级数学考试中的所有信号。
高昂的定价: 每百万输出 tokens 168 美元的价格使其比 GPT-5.1 贵约 16 倍,限制了其在超高价值工作流中的使用。
State-of-the-art 编程能力: 在 SWE-Bench Verified 上达到 84.5% 的求解率,有效充当了能够承担非平凡 Bug 积压工作的初级工程师。
缺失 Memory 功能: 不支持 Saved Memories 和 Reference Chat History,这些是低阶 ChatGPT 5.2 模型中的标准功能。
高级抽象推理: 其 ARC-AGI-2 性能是前代产品的三倍(54.2% vs 17.6%),标志着在处理新颖规则归纳任务方面的突破。
显著的延迟: 深度内部推理可能导致模型在处理单个 prompt 时停顿超过 15 分钟,特别是在 xhigh effort 模式下。
超大 128K 输出容量: 专为在单次 inference 过程中生成完整的书籍、代码库或详尽的科学报告而设计。
帧选择错误: 在常识性任务中偶尔无法覆盖统计先验,即使在思维链中已经正确识别了逻辑限制。

API快速入门

openai/gpt-5.2-pro

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'gpt-5.2-pro',
    messages: [{ role: 'user', content: 'Design a leveraged buyout model for a take-private project.' }],
    reasoning_effort: 'xhigh',
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.2 Pro 的评价

看看社区对 GPT-5.2 Pro 的看法

推理过程都在那里,但结论就是推导不出来。如果这还不让你感到停顿,那你就该警惕了。
Ok_Entrance_4380
reddit
GPT-5.2 Pro 在理论物理学中得出的一个新结果经受住了专家的审查,这是 5.1 做不到的。
kevinweil
twitter
GPT-5.2 Pro 开始看起来像是一个可以独立负责问题追踪器中非平凡部分的初级工程师了。
Due_Woodpecker2882
reddit
OpenAI 承认 Pro 模型缺乏 Memory。这对我作为一个学者来说是毁灭性的。
Oldschool728603
hackernews
逻辑无可挑剔,但延迟感让我觉得是在和一个反应极其迟钝的天才共事。
User123
reddit
终于有一个模型不会在简单的张量缩约任务中胡说八道了。
PhysicsProf
hackernews

关于 GPT-5.2 Pro 的视频

观看关于 GPT-5.2 Pro 的教程、评测和讨论

传闻 Mensa Norway IQ 得分在 145 到 147 之间

生成了超过 24,000 行代码

包含了可选的思考时间选项

Pro 级别的定价严格针对企业预算

这个模型在一个下午就解决了我的全部开发积压工作

幻觉率降低了 30%

与 GPT-5.1 相比,整体布局效果好得惊人

正好 300 个单词。这是我第一次给它设定字数要求,它精准地达到了这个数量

它在建筑蓝图上的视觉能力无与伦比

它给人的感觉比 5.1 更冷漠、更像机器人

200 美元的 GPT5 Pro 思考了 25 分 36 秒

分配了双倍的 inference compute

将一个复杂问题转化成了复分析领域的一种机制

它本质上就是一个每月 200 美元的博士智囊盒

思维轨迹显示它实际上是在验证自己的步骤

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.2 Pro专业提示

专家提示助您充分利用GPT-5.2 Pro。

扩展 reasoning 投入

对于逻辑一致性比生成速度更重要的任务,请使用 reasoning_effort API 参数并将其设置为 xhigh。

处理统计先验

如果模型陷入常识性陷阱,请提供上下文提示(context nudge)来激活其主动推理层,并覆盖其基础训练偏好。

利用超大输出

在一次 prompt 中请求整个项目目录或完整的文档文件,以充分利用 128K 的输出预算。

利用工具集成

对于视觉任务,请务必启用函数调用(function calling);当模型能够使用工具验证视觉数据时,其 multimodal 性能会大幅提升。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M

关于GPT-5.2 Pro的常见问题

查找关于GPT-5.2 Pro的常见问题答案