zhipu

GLM-5.1

GLM-5.1 — флагманская reasoning-модель Zhipu AI с context window 202K и 8-часовым циклом автономного исполнения для сложных инженерных agentic-задач.

ReasoningAgentic AIOpen WeightsCodingMultimodal
zhipu logozhipuGLM2026-04-08
Контекст
203Kтокенов
Макс. вывод
164Kтокенов
Цена ввода
$1.40/ 1M
Цена вывода
$4.40/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
86.2%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). GLM-5.1 набрал 86.2% в этом бенчмарке.
HLE
31%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. GLM-5.1 набрал 31% в этом бенчмарке.
MMLU
89%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. GLM-5.1 набрал 89% в этом бенчмарке.
MMLU Pro
89%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. GLM-5.1 набрал 89% в этом бенчмарке.
IFEval
73%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. GLM-5.1 набрал 73% в этом бенчмарке.
AIME 2025
95.3%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. GLM-5.1 набрал 95.3% в этом бенчмарке.
MATH
80%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. GLM-5.1 набрал 80% в этом бенчмарке.
GSM8k
96%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. GLM-5.1 набрал 96% в этом бенчмарке.
MGSM
90%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. GLM-5.1 набрал 90% в этом бенчмарке.
MathVista
70%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. GLM-5.1 набрал 70% в этом бенчмарке.
SWE-Bench
58.4%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. GLM-5.1 набрал 58.4% в этом бенчмарке.
HumanEval
94.6%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. GLM-5.1 набрал 94.6% в этом бенчмарке.
LiveCodeBench
68%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. GLM-5.1 набрал 68% в этом бенчмарке.
MMMU
73%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. GLM-5.1 набрал 73% в этом бенчмарке.
MMMU Pro
58%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. GLM-5.1 набрал 58% в этом бенчмарке.
ChartQA
89%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. GLM-5.1 набрал 89% в этом бенчмарке.
DocVQA
93%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. GLM-5.1 набрал 93% в этом бенчмарке.
Terminal-Bench
63.5%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. GLM-5.1 набрал 63.5% в этом бенчмарке.
ARC-AGI
12%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. GLM-5.1 набрал 12% в этом бенчмарке.

О модели GLM-5.1

Узнайте о возможностях, функциях и способах использования GLM-5.1.

GLM-5.1, флагманская foundation-модель Zhipu AI, предназначенная для сложного системного проектирования и долгосрочных agentic-задач. Построенная на архитектуре Mixture-of-Experts (MoE) с 744 миллиардами параметров (40 миллиардов активны на один проход), она представляет собой значительный скачок в выносливости и автономном решении проблем. Модель специально разработана для преодоления «плато» reasoning, наблюдаемого у предыдущих LLM, поддерживая продуктивность и качество кода на протяжении тысяч вызовов инструментов и сотен итераций. Она самостоятельно выявляет блокировщики, проводит эксперименты и корректирует свою стратегию без вмешательства человека.

Технически GLM-5.1 превосходно работает как основное ядро reasoning в мультиагентных системах. Она берет на себя принятие высокоуровневых архитектурных решений, делегируя реализацию более компактным моделям. Модель обладает 202K context window, поддерживаемым механизмом динамического разреженного внимания, что обеспечивает связность при работе с огромными кодовыми базами. Модель выпущена с открытыми весами по лицензии MIT, предоставляя жизнеспособную локальную альтернативу проприетарным frontier-моделям для таких задач, как оптимизация баз данных, проектирование GPU-ядер и разработка full-stack веб-приложений.

Результаты KernelBench Level 3 показывают, что GLM-5.1 сохраняет значительное преимущество в скорости выполнения agentic ML-задач при длинных сессиях по сравнению с Claude Opus 4.6. Эта выносливость позволяет разработчикам запустить инженерную задачу утром и получить полностью протестированный, развернутый сервис к концу дня. Она берет на себя весь жизненный цикл исправления багов: от воспроизведения проблемы в песочнице до отправки итогового pull request.

GLM-5.1

Варианты использования GLM-5.1

Откройте для себя различные способы использования GLM-5.1 для достижения отличных результатов.

Автономная разработка ПО

Модель работает автономно более 8 часов, проектируя, внедряя и отлаживая микросервисы без участия человека.

Высокопроизводительная настройка баз данных

Модель итеративно оптимизирует реализацию vector search на Rust в течение сотен циклов.

Оптимизация GPU-ядер

Анализирует эталонные реализации для создания более быстрых GPU-ядер, превосходящих стандартные компиляторы с автонастройкой.

Оркестрация multi-agent систем

Выступает в качестве ядра reasoning, координирующего подзадачи и вызовы инструментов среди целого «роя» специализированных моделей.

Сложные задачи в CLI

Выполняет реальные операции в терминале и многошаговое администрирование системы с помощью agentic CLI-инструментов.

Full-stack веб-дизайн

Модель генерирует визуально согласованные UI-макеты и backend-логику для веб-приложений.

Преимущества

Ограничения

8-часовой горизонт итерации: Сохраняет продуктивность на протяжении тысяч вызовов инструментов без достижения «плато» reasoning, характерного для других моделей.
Высокая latency: Архитектура с интенсивным reasoning приводит к значительно более медленной генерации tokens по сравнению со стандартными моделями.
SOTA производительность в программировании: Достигает 58,4 балла в SWE-Bench Pro, превосходя проприетарные модели, такие как GPT-5.4 и Claude Opus 4.6.
Экстремальные требования к ресурсам: Базовая модель требует 1,65 ТБ дискового пространства; даже квантованные версии требуют 256 ГБ VRAM/RAM.
Доступ к открытым весам: Выпущена под лицензией MIT, что позволяет развертывать frontier-уровень reasoning локально для корпоративных нужд.
Чувствительность к prompt: Для раскрытия полного agentic-потенциала часто требуются крайне детализированные системные prompt объемом 300+ строк для управления циклом reasoning.
Связность при больших context window: Сохраняет стабильность и точность до 202k tokens, что критически важно для долгосрочных agentic-задач.
Нестабильность API: Пользователи сообщают о частых ошибках 500 и ограничении rate-limiting в пиковые часы в Пекине при работе через официальный эндпоинт Z.ai.

Быстрый старт API

zhipu/glm-5.1

Посмотреть документацию
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: 'https://api.z.ai/api/paas/v4'
});

const chat = await client.chat.completions.create({
  model: 'glm-5.1',
  messages: [{ role: 'user', content: 'Оптимизируй эту схему базы данных.' }],
  stream: true
});

for await (const chunk of chat) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о GLM-5.1

Посмотрите, что думает сообщество о GLM-5.1

GLM-5.1 крутила один prompt 8 часов подряд. Она не сдалась, как большинство моделей; она продолжала добавлять функции и проводить самопроверку.
ziwenxu_
twitter
Я тестировал её на 140k context не менее 5 раз, и она оставалась связной. У SOTA, похоже, появился конкурент.
Sensitive_Song4219
reddit
GLM-5.1 идет ноздря в ноздрю с Opus в этом бенчмарке. Сейчас это open-модель №1 на арене.
tmuxvim
hackernews
Каждый раз, когда я вижу, как NPC искренне убеждается в чем-то через нескриптованный диалог с GLM-5.1, это чистое волшебство.
orblabs
reddit
Производительность в коде, настоящая. Она исправила race condition в нашем Go backend, о которой GPT-4o постоянно галлюцинировала.
DevScale_AI
twitter
Запуск её локально с Unsloth, это прорыв для конфиденциальности данных в нашем юридическом тех-стеке.
LawyerWhoCodes
reddit

Видео о GLM-5.1

Смотрите обучающие материалы, обзоры и обсуждения о GLM-5.1

GLM-5.1 набрала 45,3% в этом бенчмарке, что является значительным скачком для этого семейства.

Это невероятно медленная модель... вероятно, большинство их GPU всё еще обслуживают GLM-5.

То, как она обрабатывает вызовы инструментов, гораздо надежнее, чем в стандартной GLM 5.

На данный момент это самая мощная reasoning-модель, которую можно скачать и запустить на своем железе.

Вы можете видеть, как она действительно находит свои ошибки в логах рассуждений (thinking log).

Она может работать автономно 8 часов, совершенствуя стратегии через тысячи итераций.

Она превосходит Gemini 3.1 Pro и Qwen 3.6 Plus в популярных бенчмарках по генерации кода.

Agentic-режим, это то, в чем модель по-настоящему сияет: она не сдается перед сложными багами.

Z.ai фактически сняли платный барьер с 744B-параметра frontier-модели.

Она эффективно решает проблему «плато», где другие LLM со временем теряют концентрацию.

Уменьшение размера на 80% от исходных 1,65 ТБ до 236 ГБ при сохранении качества.

Сила open-source: даже в квантованной версии она написала рабочий код для fireworks.

Вам потребуется минимум 256 ГБ системной RAM, чтобы просто подумать о загрузке этого MoE-гиганта.

Она использует механизм динамического разреженного внимания (sparse attention), чтобы удерживать связность 202k context.

Использование Unsloth делает процесс fine-tuning и inference значительно эффективнее.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для GLM-5.1

Экспертные советы для максимальной эффективности GLM-5.1.

Включение режима Thinking

Убедитесь, что переключатель 'Thinking' активирован в конфигурации, чтобы разблокировать возможность 8-часовой автономной итерации.

Использование квот вне пиковых часов

Запускайте крупные инженерные пакеты задач в непиковые часы (вне периода 14:00–18:00 по пекинскому времени) для экономии средств.

Требования к локальной памяти

Используйте квантование Unsloth Dynamic GGUF, чтобы уместить модель объемом 1,6 ТБ в 256 ГБ системной RAM при локальном запуске.

Стратегический выбор задач

Оставьте GLM-5.1 для архитектурного reasoning, а для рутинных задач используйте GLM-4.7, чтобы оптимизировать расходы.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

Часто задаваемые вопросы о GLM-5.1

Найдите ответы на частые вопросы о GLM-5.1