openai

GPT-5.5

GPT-5.5 是 OpenAI 的 flagship frontier model,具有 1M context window 和五种 reasoning 强度等级,专为 autonomous agentic 工作流和编码而优化。

Agentic AIOpenAIGPT-5Autonomous CodingFrontier Models
openai logoopenaiGPT-52026 年 4 月 23 日
上下文
1.0Mtokens
最大输出
128Ktokens
输入价格
$5.00/ 1M
输出价格
$30.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
93.6%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.5 在此基准测试中得分 93.6%。
HLE
52.2%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.5 在此基准测试中得分 52.2%。
MMLU
92.5%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.5 在此基准测试中得分 92.5%。
MMLU Pro
88.1%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.5 在此基准测试中得分 88.1%。
SimpleQA
57%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.5 在此基准测试中得分 57%。
IFEval
92.1%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.5 在此基准测试中得分 92.1%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.5 在此基准测试中得分 100%。
MATH
98%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.5 在此基准测试中得分 98%。
GSM8k
98.5%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.5 在此基准测试中得分 98.5%。
MGSM
96.4%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.5 在此基准测试中得分 96.4%。
MathVista
76%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.5 在此基准测试中得分 76%。
SWE-Bench
58.6%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.5 在此基准测试中得分 58.6%。
HumanEval
94.2%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.5 在此基准测试中得分 94.2%。
LiveCodeBench
78%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.5 在此基准测试中得分 78%。
MMMU
88.3%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.5 在此基准测试中得分 88.3%。
MMMU Pro
62%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.5 在此基准测试中得分 62%。
ChartQA
94%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.5 在此基准测试中得分 94%。
DocVQA
95%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.5 在此基准测试中得分 95%。
Terminal-Bench
82.7%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.5 在此基准测试中得分 82.7%。
ARC-AGI
85%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.5 在此基准测试中得分 85%。

关于 GPT-5.5

了解 GPT-5.5 的功能、特性以及它如何帮助您获得更好的效果。

向 Agentic 智能的转变

GPT-5.5 代表了从大型语言模型向 大型 agentic 模型 的转变。它旨在充当自主队友而不是简单的聊天机器人,能够在数字环境中规划、执行和自我验证复杂的工作流。该 model 的主要创新在于引入了可变的 reasoning 强度等级,这赋予了开发者对 model 思考时间和相关计算成本的精细控制能力。

技术效率与视觉

从技术上讲,GPT-5.5 保持了 GPT-5 系列 100 万 token 的 context window,但引入了 40% 的 token 效率提升。这意味着,尽管单位 token 定价相对于 5.4 系列翻了一番,但复杂任务的有效成本仅增加了 20%。该 model 的视觉能力也得到了显著升级,在技术图表和诸如 ARC-AGI v2 等空间 reasoning 任务上已达到近乎人类的水平。

为自主性进行优化

它在 autonomous 编码方面特别有效,能够管理整个代码仓库并验证自己的 bug 修复。通过利用新的 reasoning_effort 参数,用户可以在五个不同的逻辑深度之间进行切换,使其成为第一个为高风险问题解决提供智力滑动缩放的 model。

GPT-5.5

GPT-5.5 的使用案例

发现使用 GPT-5.5 获得出色效果的不同方式。

Autonomous 软件工程

在无需人工监督的情况下管理整个代码仓库、修复 bug 并部署更新。

科学研究分析

通过 1M 的 context window 处理数千篇研究论文,以综合出新颖的假设。

复杂金融建模

以博士级的数学精度构建和审计复杂的企业财务结构。

多步骤 Agentic 工作流

创建并执行递归任务列表,以自主实现长期数字化目标。

技术视觉分析

解读复杂的工程蓝图和电路图,用于自动化质量保证。

高保真数据压缩

将海量数据集转换为保留深度语义细微差别的 token 密集型摘要。

优势

局限性

卓越的 Agentic 表现: 在计算机使用和终端任务的 Terminal-Bench 2.0 基准测试中取得了行业领先的 82.7 分。
较高的 Hallucination 率: 尽管具备强大的 reasoning 能力,但在事实知识基准测试中表现出 86% 的 hallucination 率。
海量 Context Window: 支持 1M token 输入 context,能够分析完整的代码仓库和大型研究语料库。
高昂的定价策略: 定价为每 1M token 5 美元/30 美元,明显高于前几代产品和 open-source 竞争对手。
完美的数学 Reasoning: 在 AIME 2025 奥赛级数学 reasoning benchmark 中获得了 100% 的满分。
缺乏视频输入支持: 与 Gemini 等 multimodal 竞争对手不同,GPT-5.5 缺乏原生的视频转文本处理能力。
灵活的 Reasoning Effort: 提供 5 种不同的 reasoning 强度等级,使开发者能够在 latency、成本和智能水平之间取得平衡。
创意写作缺口: 在创意写作和诗歌表达方面的表现落后于 Anthropic 的 flagship models。

API快速入门

openai/gpt-5.5

查看文档
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const response = await openai.chat.completions.create({
    model: "gpt-5.5",
    messages: [
      { role: "system", content: "You are an autonomous coding agent." },
      { role: "user", content: "Debug this Python repository and verify the fixes." }
    ],
    reasoning_effort: "xhigh"
  });

  console.log(response.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.5 的评价

看看社区对 GPT-5.5 的看法

Hallucination 率太惊人了,事实性问题达到了 86%?它就像一个拒绝承认‘我不知道’的天才。
@ArtificialAnlys
twitter
GPT-5.5 Pro 的输出价格为 180 美元/百万 token。我们正式进入了 AI 的奢华时代。
@skeptrune
twitter
原初 AGI 时代已经到来。它不再只是一个聊天机器人,而是队友。
lostlifon
reddit
带有 5 种强度等级的推理阶梯是自 function calling 以来最有用的功能更新。
DataLearnerAI
hackernews
OpenAI 在这款产品上下足了功夫。虽然价格昂贵,但在高端 agentic 工作中确实有效。
David Ondrej
youtube
在 20 个基准测试中,GPT-5.5 的得分略高于 Opus 4.7,但价格也变成了 5 美元/百万 token。
@rxhit05
twitter

关于 GPT-5.5 的视频

观看关于 GPT-5.5 的教程、评测和讨论

这个 model 的 reasoning 能力与我们之前见过的任何产品相比都有天壤之别。

它简直是一次性构建了整个 SaaS 应用,我甚至不需要修复任何 bug。

在每百万 token 5 美元的价格下,你必须确定自己真的需要这种智力水平。

与 open-source 模型相比,它在 agentic 自主性方面仍有显著优势。

Reasoning 强度参数对于开发者来说才是真正的重头戏。

OpenAI 在这款产品上下足了功夫。虽然价格昂贵,但在高端 agentic 工作中确实有效。

现在对 UI 布局的视觉理解非常准确。

它在多个步骤中管理自身状态的能力比 GPT-5.4 好得多。

你基本上可以把终端交给它,让它工作二十分钟。

定价虽然高,但节省的调试时间是值得的。

完整的 1M token context window 对于长文档分析来说是颠覆性的。

如果你正在构建 autonomous agents,这是目前唯一感觉真正具有自主性的 model。

我注意到它在某些非常具体的事实上存在很高的 hallucination 率。

效率提升意味着你用更少的 token 就能完成同样的复杂任务。

与其说它是随意的聊天机器人,不如说它是为开发者提供的专用工具。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.5专业提示

专家提示助您充分利用GPT-5.5。

使用 xhigh 推理强度 (Reasoning Effort)

针对数学和架构设计等逻辑密集型任务,请将 reasoning_effort 参数设置为 'xhigh'。

利用大容量 Context Window

在初始 system prompt 中提供完整的文档和 codebase 上下文,以充分利用 1M 的 context window。

实施自我批评循环

要求 model 对其首次输出进行递归审查并进行批判,以降低原生 hallucination 率。

Agentic 验证

在处理 agentic 任务时使用 xhigh 强度,确保 model 在执行下一步之前对每一步进行自我验证。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

关于GPT-5.5的常见问题

查找关于GPT-5.5的常见问题答案