openai

GPT-5.2

GPT-5.2 是 OpenAI 用于处理专业任务的旗舰 model,具备 400K context window、顶尖的编程能力以及深度的多步推理能力。

openai logoopenaiGPT-52025年12月11日
上下文
400Ktokens
最大输出
100Ktokens
输入价格
$1.75/ 1M
输出价格
$14.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
93%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.2 在此基准测试中得分 93%。
HLE
45%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.2 在此基准测试中得分 45%。
MMLU
88%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.2 在此基准测试中得分 88%。
MMLU Pro
83%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.2 在此基准测试中得分 83%。
SimpleQA
58%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.2 在此基准测试中得分 58%。
IFEval
95%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.2 在此基准测试中得分 95%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.2 在此基准测试中得分 100%。
MATH
98%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.2 在此基准测试中得分 98%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.2 在此基准测试中得分 99%。
MGSM
98%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.2 在此基准测试中得分 98%。
MathVista
78%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.2 在此基准测试中得分 78%。
SWE-Bench
80%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.2 在此基准测试中得分 80%。
HumanEval
95%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.2 在此基准测试中得分 95%。
LiveCodeBench
80%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.2 在此基准测试中得分 80%。
MMMU
75%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.2 在此基准测试中得分 75%。
MMMU Pro
65%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.2 在此基准测试中得分 65%。
ChartQA
93%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.2 在此基准测试中得分 93%。
DocVQA
95%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.2 在此基准测试中得分 95%。
Terminal-Bench
60%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.2 在此基准测试中得分 60%。
ARC-AGI
52.9%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.2 在此基准测试中得分 52.9%。

免费试用 GPT-5.2

免费与 GPT-5.2 对话。测试其功能,提问并探索此AI模型能做什么。

提示词
回复
openai/gpt-5.2

您的AI回复将显示在此处

关于 GPT-5.2

了解 GPT-5.2 的功能、特性以及它如何帮助您获得更好的效果。

卓越的专业 Reasoning 能力

GPT-5.2 代表了 OpenAI 在专业级人工智能领域的 frontier,专为复杂的知识工作和自主任务执行而设计。该 model 于 2025 年底发布,引入了专门的 Thinking 模式,允许 model 暂停并规划多步逻辑,使其在复杂的软件工程、高级数学证明和科学分析方面表现尤为出色。这种 model 架构将 multimodal vision 和 tool-calling 集成到一个统一的 reasoning 引擎中,使其能够作为 agentic 合作伙伴参与专业 workflow。

可扩展的智能架构

从技术角度看,GPT-5.2 拥有行业领先的 400K context window,且具备近乎 100% 的召回准确度,使其能够处理海量代码库或密集的的技术手册而不会丢失信息。虽然它在准确性和可靠性方面表现优异(与之前的版本相比,幻觉减少了 30%),但该 model 采用了更加正式、结构化的对话语气。它针对企业环境进行了优化,优先考虑一致性和精准度而非创意修饰,标志着 AI 向可靠知识工作者的转变。

GPT-5.2

GPT-5.2 的使用案例

发现使用 GPT-5.2 获得出色效果的不同方式。

自主软件工程

:以 80% 的准确率解决复杂的 GitHub issues 并管理大规模代码库的 debugging。

高级金融研究

:利用集成的 agentic 工具进行深入的股票基本面分析和市场趋势综合。

多步业务自动化

:在 Notion、Slack 和 Google Drive 等连接的效率应用中编排复杂的 workflow。

技术文档综合

:利用其 400K tokens 的 context window 处理并总结海量技术文档。

科学数学 Reasoning

:通过专门的 Thinking 模式解决博士级的科学问题和竞赛级的数学问题。

专业内容生成

:大规模创作高质量的歌剧风格散文和格式规范的专业报告。

优势

局限性

卓越的 Coding 精通度: :在 SWE-bench Verified 上 80% 的评分使其成为最适合专业软件工程的 model 之一。
Vision Latency 问题: :由于计算开销巨大,图像感知和创作任务明显比基于文本的 reasoning 慢。
State-of-the-art Reasoning: :专门的 Thinking 变体为竞赛级数学和博士级科学问题提供深度逻辑支持。
冷冰冰的对话语气: :该 model 的交互风格常被描述为正式且机械,缺乏前几代版本的自然亲和感。
Agentic 工具使用: :能非常高效地使用浏览器和 Python 环境等外部工具来管理多步专业 workflow。
昂贵的 Output 定价: :在 Thinking 模式下每百万 tokens $14 的价格,使得 output 成本仍远高于旧版且更轻量的 model。
大规模 Context 召回: :支持高达 400K tokens 且具备近乎完美的准确度,是分析和综合海量数据集的理想选择。
对话不连贯性: :它对组织结构的过度关注有时会打断与用户之间自然的同步讨论流。

API快速入门

openai/gpt-5.2

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'gpt-5.2-thinking',
    messages: [{ role: 'user', content: '分析这个 WebGL 2 中的递归反射问题。' }],
    reasoning_effort: 'high'
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.2 的评价

看看社区对 GPT-5.2 的看法

"GPT-5.2 的 Thinking 模式是复杂 coding 任务的游戏规则改变者;它真的能一次性构建出功能完备的应用。"
AI_Dev
reddit
"它通过原始像素分析在 13 分钟内找到了沃尔多。聪明得可怕,但处理简单任务确实太慢了。"
VisualLearner
youtube
"400k context window 的召回近乎完美,终于出现了一个能真正挑战 Gemini 长文本统治地位的对手。"
LogicGate
hackernews
"用 GPT-5.2 生成图像的感觉依然慢得离谱。速度是它最大的敌人。"
adventurepaul
reddit
"OpenAI 的 model 现在太过于注重条理性,以至于基本感觉不到是在对话。"
ArchMeta1868
reddit
"ARC prize 刚刚验证了从 o3 model 到 5.2 在一年内实现了 390 倍的效率提升。"
Fireship
x

关于 GPT-5.2 的视频

观看关于 GPT-5.2 的教程、评测和讨论

GPT-5.2 不仅仅是 GPT-4 的加强版。它是一个完全不同的猛兽。

在某些模式下,你可以一次性喂给它整本书、多篇研究论文和海量代码库。

在基于图像的 reasoning 任务中,Thinking 模式在极具挑战性的 benchmark 中达到了约 89% 的准确率。

reasoning_effort parameters 是释放这个 model 真正逻辑潜力的关键。

等你看完它如何处理周期性开发任务的 prompt caching 就明白了。

该 model 正确识别出蜜蜂是从单一入口进入,而不是随机分散的。

该 model 花费了 19 秒进行 'thinking',生成了一个带有图层和混合模式的功能性 Photoshop 克隆版。

GPT-5.2 成功在 WebGL 2 中为反射球实现了递归光线追踪。

这是我第一次看到 AI 在如此庞大的逻辑链中保持状态。

即使面对复杂的 UI 布局,vision 模块也从未丢失对主要 CTA 的追踪。

OpenAI 刚刚发布了他们对 Gemini 的回应:GPT-5.2,这个 model 再次让 AI 的热度回到了 OpenAI 这边。

最硬核的展示是它登顶了 ARC AGI benchmark。

ARC prize 刚刚验证了从 o3 model 到 5.2 在一年内实现了 390 倍的效率提升。

如果你觉得之前的 coding agents 已经很好了,那这东西的自主性完全不在一个量级。

发布吧,直接发布这个 model,因为它在我们睡觉时就能解决 GitHub issues。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

专业技巧

专家提示帮助您充分利用此模型并获得更好的效果。

为逻辑开启 Thinking 模式:在解决高复杂度的数学或 coding 问题时,明确切换到 gpt-5.2-thinking 变体以获得最高准确度。

利用 Prompt Caching:在处理大型循环数据集时,利用 24 小时 prompt caching 来降低 latency 和成本。

利用 Model Context Protocol:将 model 连接到你的工作区工具,以实现排期和发送邮件等真实任务执行。

分步 Prompting:要求 model 展示其 reasoning 过程,以便在极长 context 的 reasoning 任务中审计决策过程。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

常见问题

查找有关此模型的常见问题答案