openai

GPT-5.3 Codex

GPT-5.3 Codex 是 OpenAI 的 2026 年前沿编码 agent,具备 400K context window、77.3% Terminal-Bench 得分,并为复杂软件提供卓越的逻辑支持...

编码 AgentGPT-5OpenAI软件工程自主 AI
openai logoopenaiGPT2026年2月5日
上下文
400Ktokens
最大输出
128Ktokens
输入价格
$1.75/ 1M
输出价格
$14.00/ 1M
模态:TextImageAudioVideo
能力:视觉工具流式传输推理
基准测试
GPQA
81%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.3 Codex 在此基准测试中得分 81%。
HLE
36%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.3 Codex 在此基准测试中得分 36%。
MMLU
93%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.3 Codex 在此基准测试中得分 93%。
MMLU Pro
83%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.3 Codex 在此基准测试中得分 83%。
SimpleQA
58%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.3 Codex 在此基准测试中得分 58%。
IFEval
94%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.3 Codex 在此基准测试中得分 94%。
AIME 2025
94%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.3 Codex 在此基准测试中得分 94%。
MATH
96%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.3 Codex 在此基准测试中得分 96%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.3 Codex 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.3 Codex 在此基准测试中得分 96%。
MathVista
78%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.3 Codex 在此基准测试中得分 78%。
SWE-Bench
57%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.3 Codex 在此基准测试中得分 57%。
HumanEval
93%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.3 Codex 在此基准测试中得分 93%。
LiveCodeBench
71%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.3 Codex 在此基准测试中得分 71%。
MMMU
84%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.3 Codex 在此基准测试中得分 84%。
MMMU Pro
64%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.3 Codex 在此基准测试中得分 64%。
ChartQA
91%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.3 Codex 在此基准测试中得分 91%。
DocVQA
95%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.3 Codex 在此基准测试中得分 95%。
Terminal-Bench
77.3%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.3 Codex 在此基准测试中得分 77.3%。
ARC-AGI
54%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.3 Codex 在此基准测试中得分 54%。

关于 GPT-5.3 Codex

了解 GPT-5.3 Codex 的功能、特性以及它如何帮助您获得更好的效果。

自主开发的新纪元

GPT-5.3 Codex 是 OpenAI 最具能力的 agentic 编码 model。它弥合了静态代码生成与自主软件工程之间的差距。基于 GPT-5 架构,它将专业知识与先进的推理能力相结合,以处理系统管理、部署监控和架构重构等长周期任务。该 model 支持任务中引导。这使得开发者能够在 agent 导航复杂项目时实时与之交互并进行指导。

递归智能与性能

OpenAI 使用其自身的早期迭代版本对该 model 进行了训练,以调试和优化其自身的部署。它代表了向自我改进系统迈出的重要一步。它在 Terminal-Bench 2.0 环境中表现出色,展示了管理实时终端、运行单元测试以及在无需人工干预的情况下迭代修复 bug 的能力。这种递归训练方法带来了高效的 token 使用率和 400,000 个 token 的 context window。它可以一次性消化整个企业级的代码仓库。

无缝专业集成

通过专用的 Codex 应用程序、CLI 和 IDE 扩展,该 model 可轻松集成到现代工作流程中。它在识别零日漏洞、优化数据流水线架构以及对遗留代码库进行生产级审计方面非常有效。凭借卓越的逻辑和具有竞争力的定价,它成为应对高难度软件工程任务的高性能工具。

GPT-5.3 Codex

GPT-5.3 Codex 的使用案例

发现使用 GPT-5.3 Codex 获得出色效果的不同方式。

自主软件工程

从高层规格说明出发,构建模块化的多文件软件项目。

生产环境代码审计

分析实时代码库中的并发问题、内存泄漏和架构技术债务。

实时 DevOps 自动化

管理基于终端的工作流程,包括服务器设置、容器部署和集群扩展。

网络安全漏洞修复

利用强大的防御逻辑识别并修复零日漏洞和软件安全缺陷。

交互式原型设计

根据手绘线框图或不完整的 prompt 生成生产就绪的落地页和 Web 应用。

数据流水线架构

追踪并优化跨多个处理层和异步环境的复杂数据流。

优势

局限性

最先进的编码逻辑: 行业领先的 77.3% Terminal-Bench 2.0 得分,并在 SWE-Bench Pro 上表现卓越。
功能性简洁: 偶尔会优先考虑功能简洁性,而非像 o3-pro 等 model 所具备的极致架构深度。
无与伦比的性价比: 以大约 Opus 4.6 等竞争对手 1/7 的价格提供前沿的 agentic 能力。
默认审美局限: 虽然逻辑无懈可击,但初始的应用 UI 设计有时缺乏现代视觉修饰。
递归自优化: 使用其自身的架构进行构建,以识别错误并优化训练以实现高效率。
高风险资源缺口: 在复杂的软硬件模拟中,偶尔会遗漏特定的资源清理任务。
交互式实时引导: 具有独特的能力,可以接受人类的任务中指令,减少对长迭代循环的需求。
生态系统摩擦: 主要访问方式是针对专业 Codex 应用和 CLI 优化的,对标准 API 用户存在学习曲线。

API快速入门

openai/gpt-5.3-codex

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: 'user', content: 'Audit this Swift actor for race conditions' }],
    model: 'gpt-5.3-codex',
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.3 Codex 的评价

看看社区对 GPT-5.3 Codex 的看法

GPT-5.3 Codex 感觉不像是一个通用的聊天机器人,而更像是一个纯粹的工程师 model。
Federal-Piano8695
reddit
Codex 以大约 1/7 的价格提供了更好的代码。这种性价比简直离谱。
sergeykarayev
reddit
它不仅仅是在执行我的指令。它在做智能决策。它拥有一种类似判断力的东西。
mattshumer_
twitter
刚将我们的整个后端编排迁移到 Codex agents,其可靠性高得令人害怕。
HackerNewsUser99
hackernews
GPT 5.3 Codex 在 Terminal-Bench 2.0 上创造了新的高分。77.3% 比上一版本有了巨大飞跃。
bridgemindai
twitter
处理 400k context window 的能力使得一次性审计整个企业级代码仓库成为可能。
cdcore
other

关于 GPT-5.3 Codex 的视频

观看关于 GPT-5.3 Codex 的教程、评测和讨论

Codeex 实际上正确实现了两者,并在视图更改时进行了映射,而 Claude 仅将其映射到按键 1。

Codeex 不仅找出了根本原因,还将此识别为一个潜在问题并一并修复了。

我喜欢它与建筑物碰撞后的反弹方式,物理效果感觉最自然。

与 Gemini 3.1 相比,Codex 处理多文件逻辑时的偏差要小得多。

这里 agentic 循环的速度明显比 Claude Opus 4.6 快。

这不仅仅是另一个代码助手。这是一个在你注视下构建整个项目的 AI。

能够直接将整套文档丢进 prompt 的能力太疯狂了。

你可以亲眼看到它在终端中实时纠正自己的错误。

如果你正在进行 SEO 工具开发,它编写的自动化抓取脚本是生产就绪的。

它成功将整个网站部署到了 Vercel,而我甚至没碰过一个按钮。

GPT-5.3 Codex 是我们第一个对其自身创建起到关键作用的 model。

它能用更少的 tokens 完成更多工作,这种效率的提升真的很棒。

我们看到它在处理真实硬件集成方面有了巨大的飞跃。

编码决策背后的推理引擎比标准的 GPT-5 要健壮得多。

Terminal-Bench 得分是一回事,但看着它在 Linux 文件系统中导航是另一回事。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.3 Codex专业提示

专家提示助您充分利用GPT-5.3 Codex。

启用实时引导 (Real-Time Steering)

在 Codex 设置中激活后续行为,以便在 model 构建过程中进行引导,而不会丢失 context。

利用计划模式 (Plan Mode)

针对复杂的重构使用 Plan 命令,让 model 在编辑前概述其策略。

批量 Pull Request 审查

将整个功能分支输入 400K 的 context window 以进行深度集成测试。

Context 压缩

在长时间运行的 agentic 会话中依靠原生的 context 压缩来保持项目重点。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

关于GPT-5.3 Codex的常见问题

查找关于GPT-5.3 Codex的常见问题答案