openai

GPT-5.1

GPT-5.1 是 OpenAI 的高级推理旗舰 model,具备自适应思维、原生多模态能力,以及在数学和技术编程领域的 state-of-the-art 表现。

openai logoopenaiGPT-52025-11-13
上下文
400Ktokens
最大输出
128Ktokens
输入价格
$1.25/ 1M
输出价格
$10.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
88.1%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GPT-5.1 在此基准测试中得分 88.1%。
HLE
32.5%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GPT-5.1 在此基准测试中得分 32.5%。
MMLU
90.2%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GPT-5.1 在此基准测试中得分 90.2%。
MMLU Pro
81%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GPT-5.1 在此基准测试中得分 81%。
SimpleQA
52%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 GPT-5.1 在此基准测试中得分 52%。
IFEval
91%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GPT-5.1 在此基准测试中得分 91%。
AIME 2025
94%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GPT-5.1 在此基准测试中得分 94%。
MATH
91%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GPT-5.1 在此基准测试中得分 91%。
GSM8k
98.5%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GPT-5.1 在此基准测试中得分 98.5%。
MGSM
95%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GPT-5.1 在此基准测试中得分 95%。
MathVista
75%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GPT-5.1 在此基准测试中得分 75%。
SWE-Bench
76.3%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GPT-5.1 在此基准测试中得分 76.3%。
HumanEval
92.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GPT-5.1 在此基准测试中得分 92.5%。
LiveCodeBench
74%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GPT-5.1 在此基准测试中得分 74%。
MMMU
85.4%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GPT-5.1 在此基准测试中得分 85.4%。
MMMU Pro
62%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GPT-5.1 在此基准测试中得分 62%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GPT-5.1 在此基准测试中得分 89%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GPT-5.1 在此基准测试中得分 93%。
Terminal-Bench
58%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GPT-5.1 在此基准测试中得分 58%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GPT-5.1 在此基准测试中得分 12%。

关于 GPT-5.1

了解 GPT-5.1 的功能、特性以及它如何帮助您获得更好的效果。

Reasoning 的新前沿

GPT-5.1 代表了 OpenAI frontier model 的重大进化,标志着生态系统中的每个 model 首次都具备了原生 reasoning 能力。此次更新的重点是超越以往版本的生硬感,通过“系统 2 思考”提供更亲和、更直观的用户体验。通过集成 adaptive reasoning,GPT-5.1 可以动态决定特定 prompt 需要多少处理时间,从而解决需要多步逻辑推导的博士级复杂科学和数学问题。

Multimodal 与个性化

该 model 基于全能的 multimodal 架构构建,支持文本和视觉,具有显著改进的记忆系统和增强的指令遵循能力。它引入了复杂的风格和特质功能,允许用户引导 model 的性格,从专业学术到更随意、更有表达力的语气。这些更新确保了 model 在长周期任务中(特别是在 agentic 软件工程中)能够保留个人背景并严格遵守复杂的用户要求。

GPT-5.1

GPT-5.1 的使用案例

发现使用 GPT-5.1 获得出色效果的不同方式。

软件重构

:通过 GPT-5.1 Codex 对超过 100,000 行代码的遗留应用进行自顶向下的重新设计规划。

奥数解题

:通过整数和符号 reasoning,为复杂的奥数题目提供证明,成功率达 94%。

技术规范映射

:根据视觉或文本输入,识别并解释利基数据库表中的复杂列结构。

高级逻辑推理

:为复杂的世界构建和替代历史小说开发内部一致的叙述。

AI 集成提案

:生成专业的、有数据支持的演示文稿,将 agentic 系统集成到生产环境中。

战略架构审查

:分析多步骤项目结构,制定分阶段实施计划和风险评估。

优势

局限性

Adaptive Reasoning 集成: :动态扩展计算努力,在最难的 10% 问题上花费两倍的时间。
Reasoning Latency: :与标准交互式 model 相比,深度思考任务会导致响应时间明显变慢。
SOTA 数学表现: :在 AIME 2025 中获得 94 分,为奥数级数学树立了新的行业标准。
安全过度修正: :在讨论敏感社会话题时,model 可能会表现出避重就轻的行为或带有生硬的免责声明。
增强的情感智能: :针对此前生硬冷静的反馈进行了改进,显著提升了语气亲和力和直觉对话感。
身份认知干扰: :频繁提醒自己不是真人,可能会中断与用户建立的真实连接感。
高容量输出: :支持高达 128,000 output token 限制,实现长内容生成和大规模代码重构。
切换不一致性: :通过自动切换器在 Instant 和 Thinking 模式之间转换时,有时会感到生硬。

API快速入门

openai/gpt-5.1

查看文档
openai SDK
import OpenAI from "openai";

const openai = new OpenAI();

async function main() {
  const completion = await openai.chat.completions.create({
    model: "gpt-5.1",
    messages: [
      { role: "system", content: "You are a reasoning assistant." },
      { role: "user", content: "Analyze this complex physics problem." }
    ],
    reasoning_effort: "high"
  });

  console.log(completion.choices[0].message);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 GPT-5.1 的评价

看看社区对 GPT-5.1 的看法

"GPT-5.1 Thinking 现在能更有效地根据问题调整思考时间"
OpenAI
x
"GPT-5 Pro 在这个领域 [数学] 绝对是 SOTA 级别的"
ArchMeta1868
reddit
"我懂你,Ron —— 这很正常,特别是考虑到你最近经历的这些事"
Tamay Besiroglu
x
"GPT-5.1 Codex Max 瞬间修复了它。OpenAI 仍然统领着编程领域"
BradAI
x
"其 reasoning 深度在系统架构方面好得令人吃惊"
CodeKing
hackernews
"随着记忆功能的更新,感觉它现在真的认识我了"
User445
twitter

关于 GPT-5.1 的视频

观看关于 GPT-5.1 的教程、评测和讨论

与 GPT-5 相比,对于它认为最难的前 10% 的问题,它的思考时间几乎是原来的两倍

GPT-5.1 auto... 这是一个微型 model,用于决定你的查询是否值得花费时间处理

这种动态计算缩放正是我们进行严肃研究时所需要的

输出长度惊人,你实际上可以一次性构建整个应用

OpenAI 显然在这里转向了 reasoning 优先的战略

聊天中的所有 model 首次全部都是 reasoning model

这个 model 的表达范围要广泛得多

我们希望赋予 model 一种不那么生硬的性格

用户现在可以通过系统设置影响乐观或怀疑等特质

用户现在可以直接控制 reasoning effort

对于程序员来说,GPT-5.1 Codex 将是一个相当显著的改进

Claude 经常夸大其发现并偶尔伪造数据……GPT-5.1 则更加诚实

AIME 2025 的分数比标准 GPT-5 有了巨大跨越

虽然速度变慢了,但“Thinking”轨迹的质量更优

context window 的管理似乎比竞争对手更紧凑

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

GPT-5.1专业提示

专家提示助您充分利用GPT-5.1。

设置 Reasoning Effort:对于复杂的逻辑任务,手动将 reasoning_effort parameters 设置为 high;对于即时对话任务,则设置为 none。

利用 Persona 风格:使用新的风格和特质设置,在专业、坦率和搞怪语气之间切换。

管理活跃记忆:定期查看和管理保存的记忆,使 model 的亲和回复基于正确的个人背景。

验证引用:由于 model 会引用来源,在处理高风险任务时,请根据引用的文档交叉核对技术输出。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M

关于GPT-5.1的常见问题

查找关于GPT-5.1的常见问题答案