openai

GPT-5.2

GPT-5.2 是 OpenAI 的专业任务flagship model,具备 400K context window、顶尖的编码能力以及深度多步reasoning能力。

openai logoopenaiGPT-5December 11, 2025
上下文
400Ktokens
最大输出
100Ktokens
输入价格
$1.75/ 1M
输出价格
$14.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
93%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.2 在此基准测试中得分 93%。
HLE
45%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.2 在此基准测试中得分 45%。
MMLU
88%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.2 在此基准测试中得分 88%。
MMLU Pro
83%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.2 在此基准测试中得分 83%。
SimpleQA
58%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.2 在此基准测试中得分 58%。
IFEval
95%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.2 在此基准测试中得分 95%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.2 在此基准测试中得分 100%。
MATH
98%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.2 在此基准测试中得分 98%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.2 在此基准测试中得分 99%。
MGSM
98%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.2 在此基准测试中得分 98%。
MathVista
78%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.2 在此基准测试中得分 78%。
SWE-Bench
80%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.2 在此基准测试中得分 80%。
HumanEval
95%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.2 在此基准测试中得分 95%。
LiveCodeBench
80%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.2 在此基准测试中得分 80%。
MMMU
75%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.2 在此基准测试中得分 75%。
MMMU Pro
65%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.2 在此基准测试中得分 65%。
ChartQA
93%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.2 在此基准测试中得分 93%。
DocVQA
95%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.2 在此基准测试中得分 95%。
Terminal-Bench
60%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.2 在此基准测试中得分 60%。
ARC-AGI
52.9%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.2 在此基准测试中得分 52.9%。

关于 GPT-5.2

了解 GPT-5.2 的功能、特性以及它如何帮助您获得更好的效果。

GPT-5.2 是 OpenAI 的flagship reasoning model,专为高风险专业知识工作和自主工程任务而设计。它于 2025 年 12 月 11 日发布,通过集成带有力度控制(中、高、特高)的专用 Thinking mode,标志着 GPT-4 和 GPT-o1 系列的重大演进。这使得该model能够在生成响应前暂停并验证多步逻辑。

凭借庞大的 400K context window 和近 100% 的召回率,它专为资深级代码审查、复杂重构和科学研究而构建。其model架构旨在支持agentic工作流,具备原生的工具调用和multimodal视觉能力,能够同时处理复杂的技术图表和代码库。

虽然它在逻辑精度和工程benchmark上表现卓越,在 AIME 2025 上获得了 100% 的得分,但与 Claude 等竞争对手相比,它采用了更正式、更具机器感的语调。目前的定价为每百万输入tokens 1.75 美元,每百万输出tokens 14.00 美元,对于以往需要大量人工参与的深度reasoning任务,这是一种高性价比的选择。

GPT-5.2

GPT-5.2 的使用案例

发现使用 GPT-5.2 获得出色效果的不同方式。

复杂工程重构

对性能敏感的代码库进行深度重构,同时保持严格的类型不变性和架构一致性。

自主终端任务

通过在Terminal-Bench环境中的高性能表现,执行多步CLI工作流并管理复杂的云部署。

博士级知识综合

同时分析数百个技术来源和学术论文,针对特定科学主题撰写详尽的研究报告。

并发 Bug 修复

识别并修复那些需要针对长代码段进行高阶逻辑inference的微妙竞态条件或内存泄漏问题。

机械化代码处理

在整个代码库中处理大规模、重复性的代码迁移,而不会出现通用型LLM中常见的“偷懒”现象。

资深技术评审

担任虚拟资深工程师,评审设计方案并识别生产系统中逻辑的边界情况。

优势

局限性

卓越的工程准确性: 在 Terminal-Bench 2.0 上取得了 77.3% 的得分,在复杂的命令行界面任务中超越了竞争对手。
高响应latency: 由于显著的reasoning开销,该model明显慢于之前的迭代版本,导致等待时间较长。
顶尖的数学reasoning能力: 在 AIME 2025 benchmark上获得 100% 得分,证明了其在无需外部工具的情况下具备竞赛级数学处理能力。
人工化的用户交互语调: 被用户批评为一种矫揉造作且过于结构化的帮助方式,比起Claude系列显得不够自然。
低幻觉率: 社区测试和内部benchmark显示,与前几代flagship model相比,事实错误率降低了 30%。
不透明的思维过程: 与某些透明的reasoning model不同,GPT-5.2 通常隐藏其内部的chain-of-thought,仅提供最终验证后的答案。
延长的任务持久性: 能够维持超过两个小时的活跃自主工作会话,非常适合大规模开发工作。
昂贵的reasoning成本: 14.00 美元的输出价格在长时间reasoning任务中会迅速增加,因为其中包含了大量的高额thinking tokens费用。

API快速入门

openai/gpt-5.2

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function solveCodeProblem() {
  const response = await openai.chat.completions.create({
    model: 'gpt-5.2',
    messages: [{ role: 'user', content: 'Debug this race condition in my Rust service.' }],
    reasoning_effort: 'high',
    temperature: 0,
  });
  console.log(response.choices[0].message.content);
}

solveCodeProblem();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.2 的评价

看看社区对 GPT-5.2 的看法

Codex 中的 GPT 5.2 是一个巨大的进步,它更愿意处理那些通常会让其他model变懒的机械化任务。
ArchMeta1868
reddit
在核实输出内容上所花费的审慎思考和时间值得称赞...可靠性大幅提升。
Thomas Randall
techopedia
驱动深度研究的该model展示了一种类似人类的方法,即在必要时有效地寻求专业信息。
OpenAI Official
twitter
OpenAI 对结构化“用户关怀”的专注,与 Claude 那种自然的讨论相比,感觉就像是一层冷漠核心的伪装。
Anonymous Developer
hackernews
终于有一个model不会在 500 行的重构任务中途变得懒散了。
CodeWizard
reddit
reasoning effort参数对于处理复杂逻辑问题来说确实是 MVP(最有价值特性)。
AIBuilder
twitter

关于 GPT-5.2 的视频

观看关于 GPT-5.2 的教程、评测和讨论

这太疯狂了。看这一步到位。

我对 GPT 5.2 的设计不太满意... 它比 Gemini 3 差得多。

在整个 400k 范围内,context召回几乎是完美的。

它感觉更像是一个reasoning引擎,而不是聊天机器人。

对于一些实时应用来说,latency是唯一真正的痛点。

GPT 5.2 现在可以直接在 ChatGPT 中创建格式完备的电子表格和幻灯片。

感觉这个model终于成长起来,开始认真对待工作了。

仅对逻辑繁重的任务使用高reasoning设置。

与 4o 系列相比,幻觉现象显著减少。

agentic工作流终于在无需持续人工监护的情况下变得可行。

GPT 5.2 实际上比 5.1 贵 40%,但仍然比 Opus 便宜很多。

GPT 5.2 花了 11 分 20 秒 [完成构建应用]。所以是 Opus 时间的两倍。

当你允许开启thinking mode时,输出质量会高得多。

它在不丢失类型定义的情况下处理了多文件重构。

如果你需要极致速度,这可能不是适合你的model。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.2专业提示

专家提示助您充分利用GPT-5.2。

利用思考深度(Thinking Effort)

使用 reasoning_effort 参数(medium, high, xhigh)来根据任务复杂度匹配该model的思考时长。

启用 Codex 以保持持久性

在处理大型代码库时,使用专用 Codex 环境可维持长达 150 分钟的活跃处理会话。

系统性提供Context

在system prompt中提供详尽的背景文档,因为当该model就所需背景进行提问时,其表现最佳。

迭代需求说明

明确指示该model对照当前代码库执行验证检查,以确保需求得到确认。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

关于GPT-5.2的常见问题

查找关于GPT-5.2的常见问题答案