openai

GPT-5.4

GPT-5.4 是 OpenAI 的 frontier model,拥有 1.05M context window 和极致推理能力。它在自主 UI 交互和长篇数据分析方面表现卓越。

OpenAIGPT-5100 万 ContextReasoningMultimodal
openai logoopenaiGPT-5March 4, 2026
上下文
1.1Mtokens
最大输出
128Ktokens
输入价格
$2.50/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
84.2%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.4 在此基准测试中得分 84.2%。
HLE
42%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.4 在此基准测试中得分 42%。
MMLU
91%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.4 在此基准测试中得分 91%。
MMLU Pro
76%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.4 在此基准测试中得分 76%。
SimpleQA
56.7%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.4 在此基准测试中得分 56.7%。
IFEval
92%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.4 在此基准测试中得分 92%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.4 在此基准测试中得分 100%。
MATH
88.6%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.4 在此基准测试中得分 88.6%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.4 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.4 在此基准测试中得分 96%。
MathVista
74%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.4 在此基准测试中得分 74%。
SWE-Bench
52.8%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.4 在此基准测试中得分 52.8%。
HumanEval
85.1%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.4 在此基准测试中得分 85.1%。
LiveCodeBench
72.5%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.4 在此基准测试中得分 72.5%。
MMMU
84.2%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.4 在此基准测试中得分 84.2%。
MMMU Pro
61%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.4 在此基准测试中得分 61%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.4 在此基准测试中得分 89%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.4 在此基准测试中得分 94%。
Terminal-Bench
55%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.4 在此基准测试中得分 55%。
ARC-AGI
52.9%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.4 在此基准测试中得分 52.9%。

关于 GPT-5.4

了解 GPT-5.4 的功能、特性以及它如何帮助您获得更好的效果。

长 Context 推理的前沿

GPT-5.4 代表了 GPT-5 系列的高性能演进,其特点是拥有行业领先的 105 万 token context window。该 model 专为处理海量数据集(如大型代码库或多年历史日志)而设计,同时不丧失执行高保真 reasoning 的能力。一个突出的功能是交互式的“Mid-Response Steering”,它允许用户实时视觉化监控并调整 model 的思考计划,确保输出完全符合复杂的多步骤意图。

统一智能与自主行动

从技术上讲,GPT-5.4 统一了之前 Codex 特定分支的世界级编程能力与标准 GPT-5 系列的创意细微差别。它具有专门的 “Thinking”模式,具备可调节的强度等级(Standard、Extended 和 Heavy),利用强化 chain-of-thought 处理来解决博士级别的科学和逻辑问题。除了文本,GPT-5.4 还引入了原生 computer use 能力,通过解释高保真视觉屏幕截图并执行基于坐标的点击,在 OSWorld-Verified 任务中获得了 75% 的评分。

效率与可靠性

OpenAI 报告称,与其前代产品相比,claim 级错误显著减少了 33%,这使得 GPT-5.4 成为自主 agentic 和高风险决策支持的首选。尽管功能强大,但它在设计上注重 token 和能源效率,与之前的迭代相比,能够以更低的成本进行长 context 处理。无论是管理整个企业代码库还是充当自主调度代理,GPT-5.4 都为生成式 AI 领域的可靠性和 agentic 性能树立了新标准。

GPT-5.4

GPT-5.4 的使用案例

发现使用 GPT-5.4 获得出色效果的不同方式。

大型代码库重构

同时提取和分析数百个源文件,以确保跨模块的一致性,并在整个代码库中识别深度语义 bug。

自主 Agentic 调度

通过视觉定位与电子邮件和日历交互,自主协调复杂的活动安排并发送后续沟通。

高保真建筑设计

使用超过 1,000 行精准、可用于模拟的代码,生成复杂的 3D 场景和结构规划(如功能性地铁站)。

长期科学规划

利用极致的 reasoning 能力解决博士级科学问题,并执行需要数小时持续状态管理的步骤分析。

网络安全事件调查

在单个 1.05M context 会话中处理海量原始日志数据,以自主识别、调查并报告安全违规行为。

交互式 Mid-Response Steering

在内部“思考”阶段纠正 model 的方向,调整架构选择或逻辑路径,而无需重新启动 prompt。

优势

局限性

前沿的 1.05M Context Window: 提供行业领先的能力,可以在单个 prompt 中处理海量数据集和代码库,且不会失去连贯性。
长 Context 性能衰减: 注意到一旦 context window 超过 256K token,高复杂度 reasoning 任务的性能会显著下降。
极高的 Reasoning 准确率: 在其高强度 reasoning 模式下,具备博士级科学知识(GPQA 达 84.2%)和完美的数学成绩(AIME 2025 达 100%)。
令人困惑的版本方案: 5.1、5.2 Thinking、5.3 Codex 和 5.4 变体构成的复杂产品线给 API 开发者和 Chat 用户带来了显著的认知负担。
自主 UI 交互: state-of-the-art 的视觉定位使 model 能够以 75% 的 OSWorld benchmark 准确率与软件及浏览器进行交互。
Heavy 模式下的高 Latency: 最高强度的 reasoning 模式可能需要超过 8 分钟来处理内部 chain-of-thought,因此不适合实时交互任务。
Token 与能源效率: 作为 OpenAI 迄今为止最高效的 frontier model,与 GPT-5.2 版本相比,降低了复杂 reasoning 所需的能源成本。
过度对齐倾向: 激进的安全 fine-tuning 可能会导致反向行为,使 model 在无害的事实性话题上不必要地反驳用户。

API快速入门

openai/gpt-5.4

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.4",
    messages: [{ role: "user", content: "Analyze this 1.05M token log file for security threats." }],
    reasoning_effort: "heavy",
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.4 的评价

看看社区对 GPT-5.4 的看法

GPT-5 正在强势回归... 它生成的每一行代码都完全可以运行。
immortalsol
reddit
核心功能显然是 1M context window,而其他 model 仅支持约 200k。
Developer
hackernews
哇,GPT-5.4 强得离谱。它本该是一个跨代升级的 6.0 版本。很难相信 Codex 已经发展到这种地步。
Rahul Sood
twitter
GPT-5.4 在 NYT Connections 挑战中获得了 94.0 的超高分。它总能第一次就做对。
senko
hackernews
GPT-5.4 现已列入人工智能分析指数... 与 Gemini 3.1 Pro 并列第一。
AiBattle
twitter
reasoning 深度终于达到了可以处理企业级架构问题的水平。
CloudArchitect99
reddit

关于 GPT-5.4 的视频

观看关于 GPT-5.4 的教程、评测和讨论

105 万 token 的 context window... 这是一个非常大的窗口。

在经过 5 分 22 秒的思考后,我们得到了结果... 它确实以一种更具 agentic 的方式进行了测试。

更新了观察高保真图像的能力... 总像素高达 1024 万。

该 model 实际上会在网络上进行研究以验证自己的逻辑。

对于需要持久状态的 agentic 工作流来说,这是一个巨大的飞跃。

GPT-5.4 拥有一切... 基本上可以看作是 GPT-5.2 和 GPT-5.3 Codex 的完美结合体。

它的代码编写能力强得离谱。简直无懈可击。

在前端审美方面,它仍落后于 Opus 4.6 和 Gemini 3.1 Pro。

感觉它对开发者细微意图的理解要好得多。

考虑到 100 万 token 的窗口大小,这个价位非常有竞争力。

这显然给 OpenAI 带来了压力,促使其推出一款能够匹配 100 万 context 能力的 model。

在 single shot 下,该 model 能够创建一个 Minecraft 克隆版,这太了不起了。

我们看到事实性幻觉率降低了 33%。

reasoning 模式分为 Standard、Extended 和 Heavy 三个级别。

在 OSWorld benchmark 上的视觉定位目前处于行业领先地位。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.4专业提示

专家提示助您充分利用GPT-5.4。

切换 Reasoning 强度

根据任务的复杂程度,使用 Standard、Extended 或 Heavy 的 reasoning 强度,以平衡计算成本和输出质量。

监控预设规划

使用 Thinking 变体时,请关注其预设规划;如果 model 提议的逻辑路径看起来有误,你可以在生成中途进行干预。

策略性 Prompt Caching

将大型静态 context 块放置在 prompt 的开头,以利用 OpenAI 的自动 prompt caching 来节省成本。

管理 Context 稳定性

虽然 1.05M 窗口非常强大,但据报道性能在最初的 256K token 内最为稳定;请将关键摘要放在 prompt 末尾附近。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

关于GPT-5.4的常见问题

查找关于GPT-5.4的常见问题答案