openai

GPT-5.4

GPT-5.4 是 OpenAI 的 frontier model,具有 1.05M 的 context window 和极致的 reasoning 能力。它在自主 UI 交互和长篇数据分析方面表现卓越。

OpenAIGPT-51M ContextReasoningMultimodal
openai logoopenaiGPT-52026年3月5日
上下文
1.1Mtokens
最大输出
128Ktokens
输入价格
$2.50/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
84.2%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.4 在此基准测试中得分 84.2%。
HLE
42%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.4 在此基准测试中得分 42%。
MMLU
91%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.4 在此基准测试中得分 91%。
MMLU Pro
76%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.4 在此基准测试中得分 76%。
SimpleQA
56.7%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.4 在此基准测试中得分 56.7%。
IFEval
92%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.4 在此基准测试中得分 92%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.4 在此基准测试中得分 100%。
MATH
88.6%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.4 在此基准测试中得分 88.6%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.4 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.4 在此基准测试中得分 96%。
MathVista
74%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.4 在此基准测试中得分 74%。
SWE-Bench
52.8%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.4 在此基准测试中得分 52.8%。
HumanEval
85.1%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.4 在此基准测试中得分 85.1%。
LiveCodeBench
72.5%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.4 在此基准测试中得分 72.5%。
MMMU
84.2%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.4 在此基准测试中得分 84.2%。
MMMU Pro
61%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.4 在此基准测试中得分 61%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.4 在此基准测试中得分 89%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.4 在此基准测试中得分 94%。
Terminal-Bench
55%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.4 在此基准测试中得分 55%。
ARC-AGI
52.9%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.4 在此基准测试中得分 52.9%。

关于 GPT-5.4

了解 GPT-5.4 的功能、特性以及它如何帮助您获得更好的效果。

长 context reasoning 的最前沿

GPT-5.4 是 GPT-5 系列的高性能演进版。它拥有业界领先的 105 万 token context window。该模型能够处理广泛的数据集,如海量代码库或多年历史日志,且不会损失 reasoning 的保真度。交互式的 Mid-Response Steering 允许用户实时监控和调整模型的思维规划,确保输出符合复杂的多步骤意图。

统一智能与自主行动

从技术上讲,GPT-5.4 将 Codex 分支的世界级编码能力与标准 GPT-5 系列的创造性细微差别统一了起来。它具备专门的 Thinking 模式,提供可调节的努力水平,包括 Standard、Extended 和 Heavy 模式。它利用增强的 chain-of-thought 处理能力来解决博士级的科学和逻辑问题。在文本之外,GPT-5.4 引入了原生的 computer use 能力,通过解析视觉截图和执行基于坐标的点击,在 OSWorld 验证任务中达到了 75% 的得分。

效率与可靠性

OpenAI 报告称,与前代产品相比,声明级错误减少了 33%。这使得 GPT-5.4 成为 autonomous agent 和高风险决策支持的首选。它专为 token 和能源效率而设计,实现了比之前版本更低成本的长 context 处理能力。无论是管理整个企业级代码库,还是充当自主调度 agent,GPT-5.4 都为可靠性和 agentic 性能树立了新标准。

GPT-5.4

GPT-5.4 的使用案例

发现使用 GPT-5.4 获得出色效果的不同方式。

大规模代码重构

系统地重写超过 30 万行代码的遗留代码库,并严格遵守架构标准。

自主财务建模

构建复杂的“三张表”模型,由 AI 对损益表、资产负债表和现金流量表进行核对。

交互式系统设计

通过在生成过程中引导模型逻辑路径,开发 3D 仿真或物理驱动的游戏。

Agentic Computer Use

通过原生 UI 交互执行多步骤桌面任务,例如批量数据录入、电子邮件管理和软件测试。

长 context 法律分析

交叉引用数百份法律文件,以识别不一致之处或提取具有高回溯准确性的特定条款。

博士级研究支持

使用 Heavy Reasoning 模式解决复杂的数学证明和科学问题,以获得经验证的逻辑链。

优势

局限性

1.05M 的海量 Context: 为超大规模代码库和文档集的深度分析提供了业界领先的容量,且不会出现 context 衰减。
Reasoning Latency: 启用 Heavy Thinking 模式可能会导致在处理复杂逻辑或大型代码生成时出现几分钟的等待时间。
交互式 Thinking: 独特的响应中途导航允许用户引导 reasoning 路径,显著减少了无效的生成和 token 浪费。
频率限制: 在初始推出阶段,随着容量的扩展,用户可能会遇到激进的消息限制或临时的账户错误。
原生 Computer Use: 高精度的 UI 交互(在 OSWorld 上达到 75%)使模型能够直接在桌面和浏览器环境中工作。
非线性扩展: 在某些创意任务中,轻量级的 reasoning 模式在美学细节表现上被发现优于重型模式。
极高的 token 效率: 优化后的架构提供了 2026 年 frontier 级别的性能,且 latency 和能耗均低于之前的 GPT-5 版本。
1M 下的 Context 腐烂: 虽然 window 很大,但从 256K 扩展到 1M tokens 时,检索准确率会显著下降。

API快速入门

openai/gpt-5.4

查看文档
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [
      { role: "user", content: "Refactor this controller for better error handling." }
    ],
    reasoning_effort: "heavy"
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.4 的评价

看看社区对 GPT-5.4 的看法

Codex 中的 GPT 5.4 有了巨大的进步……我亲眼看到它连续运行了 150 分钟而没有丢失 context。
ArchMeta1868
reddit
GPT 5.4 的 3D 设计能力是无与伦比的。它在我的船舶模拟器中处理透明度和物理效果的方式非常精准,令人毛骨悚然。
AI_Creative_Daily
twitter
响应中途的纠偏功能太棒了。我可以看到模型的思考方向,并在它浪费 tokens 之前进行修复。
dev_guru_99
reddit
在 44 种不同工作岗位测试中,它有 83% 的时间击败了人类。包括律师、会计师、财务分析师和行政人员。
Josh Kale
twitter
OpenAI 终于解决了输出瓶颈。128k 输出 tokens 对开发全栈应用的开发者来说简直是梦想。
TheCodeChannel
youtube
Computer use 虽然还有 latency,但精度已经足够处理复杂的 SAP 工作流了,这真是太疯狂了。
enterprise_sysadmin
hackernews

关于 GPT-5.4 的视频

观看关于 GPT-5.4 的教程、评测和讨论

GPT 5.4 来了,我们可能真的迎来了全球最强模型。

GPT 5.4 Thinking 现在可以在思考前提供计划……允许你引导模型。

这一交互元素解决了 reasoning model 的黑盒问题。

与 o1-preview 相比,在处理标准任务时,速度有着天壤之别。

你所看到的是在长对话中真正保持一致性的 reasoning。

GPT 5.4……不是为了聊天而构建的,它是为工作而生的。

延迟加载……在不降低准确性的情况下,将总 token 使用量减少了 47%。

Computer use 功能通过基于坐标的系统来跟踪 UI 元素。

我用一个遗留的 Java 代码库测试了它,它确实理解了跨文件的依赖关系。

我们正在迈向一个由 AI 控制操作系统的新世界。

105 万 token 的 context window。这是一个非常长的 context window。

在它思考时进行导航,这确实更高效。

定价虽然昂贵,但对于大型文档集来说,它是唯一能用的模型。

Thinking 模式可以根据 prompt 的复杂程度进行调整。

它在事实回溯方面的可靠性比之前的任何 GPT 版本都要强。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.4专业提示

专家提示助您充分利用GPT-5.4。

切换 Thinking Effort

使用 Standard、Extended 或 Heavy 参数来平衡准确性需求与生成速度及成本。

查看 Thinking Plan

监控模型提供的预先规划,如果逻辑出现偏差,请使用 Mid-Response Steering 进行修正。

利用 Deferred Tool Loading

对于 agentic 工作流,使用延迟加载注册表可将初始 token 成本降低高达 47%。

使用 Completeness Contracts

在 prompt 中明确定义“完成”的标准,使模型在执行长周期任务时更加持久。

Max Resolution Vision

上传最高 10.24M 像素的高保真图像,以便对 UI 元素或技术图表进行精确的视觉检查。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

关于GPT-5.4的常见问题

查找关于GPT-5.4的常见问题答案