openai

GPT-5.3 Codex

GPT-5.3 Codex 是 OpenAI 在 2026 年推出的前沿编程 agent,具备 400K context window、77.3% Terminal-Bench 评分,以及处理复杂软件构建的卓越逻辑。

编程 AgentGPT-5OpenAI软件工程自主 AI
openai logoopenaiGPT-52026年2月5日
上下文
400Ktokens
最大输出
128Ktokens
输入价格
$1.75/ 1M
输出价格
$14.00/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输推理
基准测试
GPQA
81%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.3 Codex 在此基准测试中得分 81%。
HLE
36%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.3 Codex 在此基准测试中得分 36%。
MMLU
93%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.3 Codex 在此基准测试中得分 93%。
MMLU Pro
83%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.3 Codex 在此基准测试中得分 83%。
SimpleQA
58%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.3 Codex 在此基准测试中得分 58%。
IFEval
94%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.3 Codex 在此基准测试中得分 94%。
AIME 2025
94%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.3 Codex 在此基准测试中得分 94%。
MATH
96%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.3 Codex 在此基准测试中得分 96%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.3 Codex 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.3 Codex 在此基准测试中得分 96%。
MathVista
78%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.3 Codex 在此基准测试中得分 78%。
SWE-Bench
57%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.3 Codex 在此基准测试中得分 57%。
HumanEval
93%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.3 Codex 在此基准测试中得分 93%。
LiveCodeBench
71%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.3 Codex 在此基准测试中得分 71%。
MMMU
84%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.3 Codex 在此基准测试中得分 84%。
MMMU Pro
64%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.3 Codex 在此基准测试中得分 64%。
ChartQA
91%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.3 Codex 在此基准测试中得分 91%。
DocVQA
95%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.3 Codex 在此基准测试中得分 95%。
Terminal-Bench
77.3%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.3 Codex 在此基准测试中得分 77.3%。
ARC-AGI
54%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.3 Codex 在此基准测试中得分 54%。

关于 GPT-5.3 Codex

了解 GPT-5.3 Codex 的功能、特性以及它如何帮助您获得更好的效果。

自主开发的新时代

GPT-5.3 Codex 是 OpenAI 迄今为止最强大的 agentic 编程模型,旨在弥合静态代码生成与自主软件工程之间的鸿沟。它基于下一代 GPT-5 架构构建,将专业的领域知识与先进的 reasoning 能力相结合,能够处理系统管理、部署监控和架构重构等长周期任务。该模型的显著特点是其“任务中引导”能力,允许开发者在 agent 处理复杂项目时进行实时交互并提供指导。

递归智能与卓越性能

GPT-5.3 Codex 曾使用自身的早期版本进行调试并优化其部署流程,这标志着向自我完善的 AI 系统迈出了重要一步。它在 Terminal-Bench 2.0 环境中表现卓越,证明了其无需人工干预即可管理实时终端、运行单元测试并迭代修复 bug 的能力。这种递归训练方法带来了极高的 token 使用效率和巨大的 400,000-token context window,能够单次消化整个企业级代码库。

无缝的专业集成

通过专门的 Codex 应用、CLI 和 IDE 扩展程序,该模型旨在深度集成到现代工作流中。它在识别零日漏洞、优化数据流水线架构以及对遗留代码库进行生产级审计方面尤为高效。凭借其卓越的逻辑和极具竞争力的定价,它已迅速成为处理高难度软件工程任务的行业金标准。

GPT-5.3 Codex

GPT-5.3 Codex 的使用案例

发现使用 GPT-5.3 Codex 获得出色效果的不同方式。

自主软件工程

:根据高层规范架构并构建模块化的多文件软件项目。

生产环境代码审计

:分析实时代码库中的并发问题、内存泄漏和架构技术债。

实时 DevOps 自动化

:管理基于终端的工作流,包括服务器设置、容器部署和集群扩展。

网络安全漏洞修复

:利用高能力的防御逻辑识别并修复零日漏洞和软件弱点。

交互式原型开发

:根据手绘线框图或模糊的 prompt 生成生产就绪的落地页和 Web 应用。

数据流水线架构

:在多个处理层和异步环境中追踪并优化复杂的数据流。

优势

局限性

state-of-the-art 编程逻辑: :行业领先的 77.3% Terminal-Bench 2.0 评分,并在 SWE-Bench Pro 上表现卓越。
细节压缩: :有时会优先考虑功能上的简洁,而非像 o3-pro 等模型那样追求极端的架构深度。
无与伦比的性价比: :以仅为最强竞争对手 Opus 4.6 约 1/7 的成本,提供前沿的 agentic 能力。
审美默认化: :虽然逻辑完美,但应用生成的初始 UI 设计有时缺乏现代的视觉磨合。
递归自优化: :使用自身架构构建而成,用于识别 bug 并优化训练,从而实现极高的效率。
高风险资源缺漏: :在复杂的硬软件模拟中,偶尔会遗漏特定的资源清理任务。
交互式实时引导: :具有在任务执行中接收人类指令的独特能力,减少了漫长的迭代循环。
生态系统摩擦: :主要访问权限受限于专门的 Codex 应用和 CLI,对普通用户来说存在学习曲线。

API快速入门

openai/gpt-5.3-codex

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.3 Codex 的评价

看看社区对 GPT-5.3 Codex 的看法

"他们在 Opus 4.6 发布的瞬间就推出了 GPT-5.3 Codex,笑死我了"
ShreckAndDonkey123
reddit
"Codex 生成的代码质量更高,价格却只要约 1/7"
sergeykarayev
reddit
"GPT-5.3 Codex 的性价比高得离谱"
VraserX
x
"我让 GPT-5.3-Codex-Spark 读取了它自己的服务站点并构建了一个新网站。眨眼间它就完成了"
Yohei Takanashi
x
"这个模型在发布当天就正确推导出了 Swift actor 的隔离逻辑"
HeroicTardigrade
reddit
"刚刚将我们的整个后端编排迁移到了 Codex agent 上,其可靠性高得吓人"
HackerNewsUser99
hackernews

关于 GPT-5.3 Codex 的视频

观看关于 GPT-5.3 Codex 的教程、评测和讨论

GPT-5.3 Codex 是我们第一个在自身创建过程中发挥关键作用的模型

它能用更少的 tokens 完成更多工作,这种效率的提升真的很棒

在模拟中,当喷嘴移动到这里时,这个线轴确实在正常旋转

我们看到它在处理现实世界硬件集成方面有了巨大的跨越

这里的递归训练循环确实彻底改变了准确性的游戏规则

我再也不想用回 GPT 5.2 了,因为它感觉太慢了

感觉速度提升非常明显……他们告诉我比之前的模型快了 25%

现在微小代码编辑的 latency 几乎可以忽略不计

在处理大型遗留代码库时,400K context window 真正大放异彩

这是我第一次感觉到 AI 真正理解了我的项目架构

这不仅仅是另一个编程助手。这是一个可以在你注视下构建整个项目的 AI

有了这玩意,以前需要几天的工作现在只需几小时

能直接把整套文档塞进 prompt 里的能力简直疯狂

你可以亲眼看到它在终端中实时纠正自己的错误

对于任何构建 SaaS 的人来说,这都将是你最有价值的员工

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.3 Codex专业提示

专家提示助您充分利用GPT-5.3 Codex。

启用实时引导:在 Codex 设置中激活后续行为,以便在构建过程中引导模型。

利用计划模式:对复杂的重构使用 “Plan” 命令,让模型在编辑前概述其策略。

批量 Pull Request 审查:利用 400K context window 将整个功能分支输入模型,进行深度集成测试。

Context 压缩:在长时间运行的 agentic 会话中依靠原生 context 压缩功能,以保持对项目的专注。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

Zhipu (GLM)

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

关于GPT-5.3 Codex的常见问题

查找关于GPT-5.3 Codex的常见问题答案