zhipu

GLM-5.1

GLM-5.1 是智谱 AI 的 flagship reasoning 模型,具备 202K context window 和 8 小时自主执行循环,适用于复杂的 agentic 工程任务。

ReasoningAgentic AIOpen WeightsCodingMultimodal
zhipu logozhipuGLM2026-04-08
上下文
203Ktokens
最大输出
164Ktokens
输入价格
$1.40/ 1M
输出价格
$4.40/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
86.2%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 GLM-5.1 在此基准测试中得分 86.2%。
HLE
31%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 GLM-5.1 在此基准测试中得分 31%。
MMLU
89%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 GLM-5.1 在此基准测试中得分 89%。
MMLU Pro
89%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 GLM-5.1 在此基准测试中得分 89%。
IFEval
73%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 GLM-5.1 在此基准测试中得分 73%。
AIME 2025
95.3%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 GLM-5.1 在此基准测试中得分 95.3%。
MATH
80%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 GLM-5.1 在此基准测试中得分 80%。
GSM8k
96%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 GLM-5.1 在此基准测试中得分 96%。
MGSM
90%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 GLM-5.1 在此基准测试中得分 90%。
MathVista
70%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 GLM-5.1 在此基准测试中得分 70%。
SWE-Bench
58.4%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 GLM-5.1 在此基准测试中得分 58.4%。
HumanEval
94.6%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 GLM-5.1 在此基准测试中得分 94.6%。
LiveCodeBench
68%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 GLM-5.1 在此基准测试中得分 68%。
MMMU
73%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 GLM-5.1 在此基准测试中得分 73%。
MMMU Pro
58%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 GLM-5.1 在此基准测试中得分 58%。
ChartQA
89%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 GLM-5.1 在此基准测试中得分 89%。
DocVQA
93%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 GLM-5.1 在此基准测试中得分 93%。
Terminal-Bench
63.5%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 GLM-5.1 在此基准测试中得分 63.5%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 GLM-5.1 在此基准测试中得分 12%。

关于 GLM-5.1

了解 GLM-5.1 的功能、特性以及它如何帮助您获得更好的效果。

GLM-5.1 是智谱 AI 的 flagship 基础模型,专为复杂系统工程和长周期的 agentic 任务而设计。它基于 Mixture-of-Experts (MoE) 架构,拥有 7440 亿参数,单次推理激活 400 亿参数,代表了在持久性和自主问题解决能力上的重大飞跃。该模型经过特殊设计,旨在克服早期 LLM 中出现的 reasoning 瓶颈,能够在数千次工具调用和数百次迭代中保持生产力和代码质量。它能够识别阻塞点、运行实验并自行调整策略,无需人工干预。

在技术上,GLM-5.1 作为多 agent 系统中的主要 reasoning 引擎表现出色。它处理高层架构决策,同时将实现委托给较小的模型。它具有 202K context window,并由动态稀疏注意力机制支持,确保了跨大规模代码库的连贯性。该模型以 open weights 的形式在 MIT License 下发布,为数据库优化、GPU kernel 工程和全栈 Web 开发等任务提供了一种可行的、本地化的 frontier model 替代方案。

KernelBench Level 3 结果 显示,与 Claude Opus 4.6 相比,GLM-5.1 在长时间的 agentic ML 工作负载中保持了显著的速度提升。这种持久性使开发人员可以在早上触发一个工程任务,并在一天结束时收到一个经过全面测试和部署的服务。它处理 bug 修复的整个生命周期,从在沙箱中重现问题到提交最终的 pull request。

GLM-5.1

GLM-5.1 的使用案例

发现使用 GLM-5.1 获得出色效果的不同方式。

自主软件工程

在无需人工指导的情况下,自主运行 8 小时以上,进行微服务的规划、实现和调试。

高性能数据库调优

模型通过数百轮迭代,优化基于 Rust 的 vector 搜索实现。

GPU Kernel 优化

分析参考实现,生成性能超越默认 autotune 编译器的 GPU kernel。

多 Agent 编排

作为 reasoning 核心,协调跨一系列专用小型模型的子任务和工具调用。

复杂的终端任务

通过 agentic CLI 工具执行现实世界的终端操作和多步系统管理。

全栈 Web 设计

为基于浏览器的桌面环境生成视觉一致的 UI 布局和后端逻辑。

优势

局限性

8 小时迭代周期: 在数千次工具调用中保持高产出,不会触及其他模型常见的 reasoning 瓶颈。
高 latency: 重 reasoning 的架构导致 token 生成速度显著慢于标准的非 reasoning 模型。
state-of-the-art 编码性能: 在 SWE-Bench Pro 上取得 58.4 分,超越了 GPT-5.4 和 Claude Opus 4.6 等闭源模型。
极高的资源需求: 原始模型需要 1.65TB 磁盘空间;即使是量化版本也需要 256GB 的 VRAM/系统内存才能运行。
Open Weights 访问: 基于 MIT License 发布,使企业能够为本地部署提供 frontier model 级别的 reasoning 能力。
Prompt 敏感度: 解锁完整的 agentic 性能通常需要极其详细的 300 多行系统 prompt 来引导 reasoning 循环。
大 context 连贯性: 在 202k tokens 范围内保持稳定性和准确性,这对长周期的 agentic 工程任务至关重要。
API 不稳定性: 用户反映在官方 Z.ai 终端的北京高峰时段,频繁出现 500 错误和限流情况。

API快速入门

zhipu/glm-5.1

查看文档
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: 'https://api.z.ai/api/paas/v4'
});

const chat = await client.chat.completions.create({
  model: 'glm-5.1',
  messages: [{ role: 'user', content: 'Optimize this database schema.' }],
  stream: true
});

for await (const chunk of chat) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

安装SDK并在几分钟内开始进行API调用。

人们对 GLM-5.1 的评价

看看社区对 GLM-5.1 的看法

GLM-5.1 在一个 prompt 上循环运行了 8 小时。它不像大多数模型那样直接退出;它不断添加功能并进行自我审查。
ziwenxu_
twitter
我至少测试了 5 次 140k 的 context,它始终保持连贯。state-of-the-art 可能要迎来挑战者了。
Sensitive_Song4219
reddit
GLM-5.1 在这个 benchmark 上基本与 Opus 平起平坐。它现在是 Arena 中排名第一的 open-source 模型。
tmuxvim
hackernews
每当我看到一个 NPC 通过与 GLM-5.1 的即兴对话被真正说服时,那简直是纯粹的魔力。
orblabs
reddit
编码表现确实很强。它修复了我们 Go 后端中 GPT-4o 一直产生幻觉的一个竞争条件。
DevScale_AI
twitter
使用 Unsloth 在本地运行它,对于我们法律科技技术栈的数据隐私来说是一个巨大的变革。
LawyerWhoCodes
reddit

关于 GLM-5.1 的视频

观看关于 GLM-5.1 的教程、评测和讨论

GLM-5.1 在该 benchmark 上获得了 45.3%,这对于该系列来说是巨大的飞跃。

它的模型速度非常慢……他们可能把大部分 GPU 都用来运行 GLM-5 了。

它处理工具调用的方式比标准 GLM 5 稳健得多。

它是目前你可以下载并在自己硬件上运行的最强 reasoning 模型。

你可以看到它在 thinking 日志中实际上识别出了自己的错误。

它能够自主运行 8 小时,通过数千次迭代来优化策略。

在流行的代码库生成 benchmark 上,它超越了 Gemini 3.1 Pro 和 Qwen 3.6 Plus。

Agentic 模式是该模型真正的闪光点,它不会在棘手的 bug 面前放弃。

Z.ai 基本上取消了 744B 参数 frontier model 的准入门槛。

它有效地解决了其他 LLM 随着时间推移失去焦点而产生的“平台期”问题。

从原始的 1.65TB 缩减 80% 到 236GB,同时保持质量。

Open-source 的力量:即使是在量化版本中,它也编写了可用的代码。

你至少需要 256GB 的系统 RAM 才能考虑加载这个 MoE 巨兽。

它利用动态稀疏注意力机制来保持 202k 的 context 连贯性。

使用 Unsloth 使训练和 inference 过程效率大大提高。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

GLM-5.1专业提示

专家提示助您充分利用GLM-5.1。

开启 Thinking 模式

确保在配置中启用了“Thinking”开关,以解锁 8 小时自主迭代功能。

利用非高峰期配额

在北京时间 14:00-18:00 之外的非高峰时段运行大型工程批处理,以获得更优惠的定价。

本地内存要求

使用 Unsloth 动态 GGUF 量化,将 1.6TB 的模型压缩至 256GB 系统 RAM 中进行本地运行。

战略性任务选择

将 GLM-5.1 保留用于架构 reasoning,并使用 GLM-4.7 处理常规实现以控制成本。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

关于GLM-5.1的常见问题

查找关于GLM-5.1的常见问题答案