openai

GPT-5.1

GPT-5.1 是 OpenAI 的高级 reasoning 旗舰模型,具有自适应思考、原生 multimodality 以及在数学和技术领域领先的 state-of-the-art 表现...

openai logoopenaiGPT-52025年11月12日
上下文
400Ktokens
最大输出
128Ktokens
输入价格
$1.25/ 1M
输出价格
$10.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
88.1%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.1 在此基准测试中得分 88.1%。
HLE
32.5%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.1 在此基准测试中得分 32.5%。
MMLU
90.2%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.1 在此基准测试中得分 90.2%。
MMLU Pro
81%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.1 在此基准测试中得分 81%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.1 在此基准测试中得分 52%。
IFEval
91%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.1 在此基准测试中得分 91%。
AIME 2025
94%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.1 在此基准测试中得分 94%。
MATH
91%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.1 在此基准测试中得分 91%。
GSM8k
98.5%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.1 在此基准测试中得分 98.5%。
MGSM
95%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.1 在此基准测试中得分 95%。
MathVista
75%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.1 在此基准测试中得分 75%。
SWE-Bench
76.3%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.1 在此基准测试中得分 76.3%。
HumanEval
92.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.1 在此基准测试中得分 92.5%。
LiveCodeBench
74%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.1 在此基准测试中得分 74%。
MMMU
85.4%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.1 在此基准测试中得分 85.4%。
MMMU Pro
62%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.1 在此基准测试中得分 62%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.1 在此基准测试中得分 89%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.1 在此基准测试中得分 93%。
Terminal-Bench
58%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.1 在此基准测试中得分 58%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.1 在此基准测试中得分 12%。

关于 GPT-5.1

了解 GPT-5.1 的功能、特性以及它如何帮助您获得更好的效果。

Reasoning 架构

GPT-5.1 采用了 System 2 思考架构。这使得模型可以根据查询的复杂程度来调整处理时间。对于数学证明,它会进行深入的逻辑推导,而简单的对话任务则保持低 latency。自适应 reasoning 系统确保了计算资源被分配在价值最高的地方。

Multimodal 性能

该模型为文本和 vision 输入使用了全能型 multimodal 框架。与前代产品相比,它在企业级文档提取任务中将 latency 降低了 84%。改进的记忆留存确保了在长跨度的 agentic 工作流中能够保持上下文,使其适用于大规模软件工程项目。

个性化系统

一个新的引擎支持语调和特征控制。用户可以通过显式的系统指令将模型配置为专业、随意或表现力强。这些特征允许开发者部署更能匹配特定品牌身份和用户偏好的机器人,而无需大量 few-shot prompt。

GPT-5.1

GPT-5.1 的使用案例

发现使用 GPT-5.1 获得出色效果的不同方式。

Agentic 软件工程

该模型利用高准确度的 reasoning 自动完成大规模代码库的复杂重构。

博士级科研

解决生物学和物理学中需要验证的多步推导复杂问题。

企业级文档分析

该系统能以高视觉精度从海量表格文档中提取结构化数据。

个性化客户支持

开发者可以部署具有特定品牌特征(如风趣或专业)的机器人,以匹配用户情绪。

数学问题求解

该模型利用其 99.6% 的 AIME 分数来验证证明并辅导学生学习高等数学。

基于视觉的商业智能

分析复杂的图表和财务报告,生成带有视觉上下文的高管摘要。

优势

局限性

顶尖数学 Reasoning: 该模型在 AIME 2025 中获得了 99.6% 的分数,表现优于几乎所有此前的同类模型。
高输出 Latency: 对于复杂查询,高强度的 reasoning 可能会使响应时间延长至 20 秒以上。
自适应处理: 动态计算缩放技术使处理简单企业文档任务时的 latency 降低了 84%。
无原生音频: 它缺乏 Gemini 2.0 等竞品中内置的语音对语音能力。
增强的个性控制: 原生的语调控制使得交互感觉比最初的 GPT-5 更温暖、更具人性化。
输出定价: 每百万 token $10 的价格,使得长篇 reasoning 输出的成本显著高于即时响应模型。
超大规模 Context: 400,000 token 的窗口结合 24 小时 caching,支持大规模 agentic 工作流。
持续的风格怪癖: 用户反馈称,尽管有明确的记忆指令,该模型在避免特定标点符号模式方面仍有困难。

API快速入门

openai/gpt-5.1

查看文档
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

const response = await openai.chat.completions.create({
  model: "gpt-5.1",
  messages: [{ role: "user", content: "Analyze the security of this smart contract." }],
  reasoning_effort: "high",
});

console.log(response.choices[0].message.content);

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.1 的评价

看看社区对 GPT-5.1 的看法

GPT-5.1 在 Codex 中仍然是规划和代码审查任务的最佳评审员。
darrenjr
twitter
我们的评估发现,GPT-5 在复杂 reasoning 任务中比其他领先模型表现好 190%。
CodeRabbit
twitter
GPT-5.1 对 prompt 难度的校准更好,在处理简单输入时消耗的 token 少得多。
Tech Titans
facebook
这次发布的核心在于个性的提升,让 ChatGPT 感觉不再那么刻板和冰冷。
Theo
youtube
400k context window 对于我们分析整个 repo 来说是救星。
RedditUser99
reddit
依然没有原生音频功能让人失望,但 reasoning 方面的提升是实打实的。
HackerNewsGuy
hackernews

关于 GPT-5.1 的视频

观看关于 GPT-5.1 的教程、评测和讨论

GPT 5.1 来了。它更快、更准确、对话感更强。

这是 GPT 5.1 Instant 首次能使用自适应 reasoning 来决定何时进行深度思考。

这里的逻辑明显优于标准的 GPT 5 模型。

它比我们之前在预览版中看到的语调更温暖。

如果你是开发者,扩展后的 prompt caching 将为你节省大量成本。

它比以往任何时候都更具个性化。

语调听起来自然得多……5.1 在活力感方面做得更好。

我注意到它在复杂工作流步骤中产生的幻觉更少了。

Instant 模式的速度几乎等同于 GPT 4o mini,但更智能。

个性化功能意味着你可以真正让它不再那么死板。

这可能是对 Frontier model 最轻松的一次迭代更新。

与 GPT5 的思考相比,它产生了成功的碰碰车游戏结果。

对手写文档的视觉处理明显更清晰。

我认为 reasoning effort 开关是管理 API 成本的最佳功能。

它终于让人感觉可以与之正常交流,而不仅仅是像在读教科书。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GPT-5.1专业提示

专家提示助您充分利用GPT-5.1。

调整 Reasoning Effort

使用 reasoning_effort 参数,在处理数学问题时将其设置为高,而在简单的聊天对话中设置为无,以节省 latency。

利用超大 Context

利用 400k context window 处理整个项目文件夹,因为模型在长 prompt 中表现出良好的信息留存能力。

语调控制

在系统指令中启用语调特征,使模型的表达不再显得过于刻板,更像是一个同事。

Prompt Caching

利用 24 小时 prompt caching,在对同一代码库运行重复的 agentic 循环时降低成本。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M

关于GPT-5.1的常见问题

查找关于GPT-5.1的常见问题答案