zhipu

GLM-5.1

GLM-5.1 ist das flagship-Reasoning-Modell von Zhipu AI, ausgestattet mit einem 202K context window und einer autonomen 8-Stunden-Ausführungsschleife für...

ReasoningAgentic AIOpen WeightsCodingMultimodal
zhipu logozhipuGLM2026-04-08
Kontext
203KToken
Max. Ausgabe
164KToken
Eingabepreis
$1.40/ 1M
Ausgabepreis
$4.40/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
86.2%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). GLM-5.1 erreichte 86.2% bei diesem Benchmark.
HLE
31%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. GLM-5.1 erreichte 31% bei diesem Benchmark.
MMLU
89%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. GLM-5.1 erreichte 89% bei diesem Benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. GLM-5.1 erreichte 89% bei diesem Benchmark.
IFEval
73%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. GLM-5.1 erreichte 73% bei diesem Benchmark.
AIME 2025
95.3%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. GLM-5.1 erreichte 95.3% bei diesem Benchmark.
MATH
80%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. GLM-5.1 erreichte 80% bei diesem Benchmark.
GSM8k
96%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. GLM-5.1 erreichte 96% bei diesem Benchmark.
MGSM
90%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. GLM-5.1 erreichte 90% bei diesem Benchmark.
MathVista
70%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. GLM-5.1 erreichte 70% bei diesem Benchmark.
SWE-Bench
58.4%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). GLM-5.1 erreichte 58.4% bei diesem Benchmark.
HumanEval
94.6%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. GLM-5.1 erreichte 94.6% bei diesem Benchmark.
LiveCodeBench
68%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. GLM-5.1 erreichte 68% bei diesem Benchmark.
MMMU
73%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. GLM-5.1 erreichte 73% bei diesem Benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. GLM-5.1 erreichte 58% bei diesem Benchmark.
ChartQA
89%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. GLM-5.1 erreichte 89% bei diesem Benchmark.
DocVQA
93%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. GLM-5.1 erreichte 93% bei diesem Benchmark.
Terminal-Bench
63.5%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. GLM-5.1 erreichte 63.5% bei diesem Benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. GLM-5.1 erreichte 12% bei diesem Benchmark.

Über GLM-5.1

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von GLM-5.1.

GLM-5.1 ist das flagship-foundation model von Zhipu AI, das für komplexe Systemtechnik und langfristige agentic Aufgaben entwickelt wurde. Basierend auf einer Mixture-of-Experts (MoE)-Architektur mit 744 Milliarden parameters und 40 Milliarden aktiven pro Durchlauf, stellt es einen bedeutenden Sprung in Ausdauer und autonomer Problemlösung dar. Das Modell wurde speziell entwickelt, um die Reasoning-Plateaus früherer Modelle zu überwinden und Produktivität sowie Codequalität über Tausende von Tool-Calls und Hunderte von Iterationen hinweg beizubehalten. Es erkennt Hindernisse, führt Experimente durch und passt seine eigene Strategie ohne menschliches Eingreifen an.

Technisch gesehen eignet sich GLM-5.1 hervorragend als primäre Reasoning-Engine in Multi-Agenten-Systemen. Es übernimmt architektonische Entscheidungen auf hoher Ebene und delegiert die Implementierung an kleinere Modelle. Es bietet ein 202K context window, das durch einen dynamischen sparse attention-Mechanismus unterstützt wird, was die Kohärenz über massive Codebasen hinweg sicherstellt. Das Modell wird als open weights unter der MIT License veröffentlicht und bietet eine praktikable lokale Alternative zu geschlossenen frontier models für Aufgaben wie Datenbankoptimierung, GPU-Kernel-Engineering und Full-Stack-Webanwendungsentwicklung.

KernelBench Level 3 Ergebnisse zeigen, dass GLM-5.1 bei agentic ML-Workloads über lange Zeiträume hinweg eine deutlich höhere Geschwindigkeit im Vergleich zu Claude Opus 4.6 beibehält. Diese Ausdauer ermöglicht es Entwicklern, morgens eine Engineering-Aufgabe zu starten und bis zum Ende des Tages einen vollständig getesteten, bereitgestellten Dienst zu erhalten. Es übernimmt den gesamten Lebenszyklus eines Bug-Fixes, von der Reproduktion des Problems in einer Sandbox bis zur Einreichung des endgültigen Pull-Requests.

GLM-5.1

Anwendungsfälle für GLM-5.1

Entdecken Sie die verschiedenen Möglichkeiten, GLM-5.1 für großartige Ergebnisse zu nutzen.

Autonomes Software-Engineering

Es läuft über 8 Stunden autonom, um Microservices ohne menschliches Eingreifen zu entwerfen, zu implementieren und zu debuggen.

Hochleistungs-Datenbankoptimierung

Das Modell optimiert in Hunderten von Durchläufen iterativ Rust-basierte vector search-Implementierungen.

GPU-Kernel-Optimierung

Es analysiert Referenzimplementierungen, um schnellere GPU kernels zu erstellen, die Standard-Autotune-Compiler übertreffen.

Multi-Agent-Orchestrierung

Es fungiert als Reasoning-Kern, der Teilaufgaben und Tool-Calls in einem Schwarm spezialisierter, kleinerer Modelle koordiniert.

Komplexe Terminal-Aufgaben

Es führt über agentic CLI-Tools echte Terminaloperationen und mehrstufige Systemverwaltungsaufgaben aus.

Full-Stack-Webdesign

Das Modell generiert visuell konsistente UI-Layouts und Backend-Logik für browserbasierte Desktop-Umgebungen.

Stärken

Einschränkungen

8-Stunden-Iterations-Horizont: Behält die Produktivität über Tausende von Tool-Calls bei, ohne die bei anderen Modellen üblichen Reasoning-Plateaus zu erreichen.
Hohe Latenz: Die auf Reasoning ausgelegte Architektur führt zu einer deutlich langsameren token-Generierung im Vergleich zu Standard-Modellen.
SOTA Coding-Leistung: Erreicht einen Wert von 58,4 auf dem SWE-Bench Pro und übertrifft damit geschlossene Modelle wie GPT-5.4 und Claude Opus 4.6.
Extreme Ressourcenanforderungen: Das Rohmodell benötigt 1,65 TB Speicherplatz; selbst quantisierte Versionen erfordern 256 GB VRAM/System-RAM.
Zugang zu Open Weights: Unter der MIT License veröffentlicht, was die lokale Bereitstellung von Reasoning-Fähigkeiten auf frontier-Niveau für den Unternehmenseinsatz ermöglicht.
Prompt-Sensitivität: Um die volle agentic Leistung freizuschalten, sind oft extrem detaillierte System-prompts mit über 300 Zeilen erforderlich, um die Reasoning-Schleife zu führen.
Hohe Kontext-Kohärenz: Behält Stabilität und Genauigkeit bei bis zu 202k tokens, was entscheidend für langfristige agentic Engineering-Aufgaben ist.
API-Instabilität: Nutzer berichten von häufigen 500-Fehlern und Ratenbegrenzungen während der Stoßzeiten in Peking über den offiziellen Z.ai-Endpunkt.

API-Schnellstart

zhipu/glm-5.1

Dokumentation anzeigen
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: 'https://api.z.ai/api/paas/v4'
});

const chat = await client.chat.completions.create({
  model: 'glm-5.1',
  messages: [{ role: 'user', content: 'Optimieren Sie dieses Datenbankschema.' }],
  stream: true
});

for await (const chunk of chat) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über GLM-5.1 sagen

Sehen Sie, was die Community über GLM-5.1 denkt

GLM-5.1 lief bei einem prompt 8 Stunden lang in einer Schleife. Es hat nicht wie die meisten Modelle aufgegeben; es hat ständig Funktionen hinzugefügt und sich selbst überprüft.
ziwenxu_
twitter
Ich habe es mehr als fünfmal auf 140k-Kontext getestet und es blieb kohärent. Das SOTA könnte einen Herausforderer bekommen haben.
Sensitive_Song4219
reddit
GLM-5.1 ist bei diesem benchmark praktisch gleichauf mit Opus. Es ist jetzt das führende offene Modell in der Arena.
tmuxvim
hackernews
Jedes Mal, wenn ich sehe, wie ein NPC durch ungeskriptete Dialoge mit GLM-5.1 überzeugt wird, ist das pure Magie.
orblabs
reddit
Die Coding-Leistung ist legitim. Es hat eine Race Condition in unserem Go-Backend behoben, bei der GPT-4o ständig halluzinierte.
DevScale_AI
twitter
Die lokale Ausführung mit Unsloth ist ein Wendepunkt für den Datenschutz in unserem Legal-Tech-Stack.
LawyerWhoCodes
reddit

Videos über GLM-5.1

Schauen Sie Tutorials, Rezensionen und Diskussionen über GLM-5.1

GLM-5.1 erreichte 45,3 % in diesem benchmark, was ein massiver Sprung für die Modellfamilie ist.

Es ist ein unglaublich langsames Modell... sie haben wahrscheinlich mehr ihrer GPUs noch für GLM-5 im Einsatz.

Die Art und Weise, wie es mit Tool-Calls umgeht, ist viel robuster als beim Standard-GLM 5.

Es ist derzeit das stärkste Reasoning-Modell, das man herunterladen und auf eigener Hardware ausführen kann.

Man kann sehen, wie es tatsächlich seine eigenen Fehler im Thinking-Log identifiziert.

Es kann 8 Stunden lang autonom laufen und Strategien durch Tausende von Iterationen verfeinern.

Es übertrifft Gemini 3.1 Pro und Qwen 3.6 Plus bei beliebten Repo-Generation-Benchmarks.

Der agentic Modus ist die wahre Stärke dieses Modells, es gibt bei schwierigen Bugs nicht auf.

Z.ai hat praktisch die Bezahlschranke für ein frontier-level 744B parameter Modell fallen gelassen.

Es bewältigt effektiv das Plateau-Problem, bei dem andere LLMs mit der Zeit den Fokus verlieren.

80 % Größenreduzierung von den ursprünglichen 1,65 TB auf 236 GB bei gleichbleibender Qualität.

Die Kraft von open-source: Selbst in einer quantisierten Version schrieb es funktionierenden Code für Feuerwerke.

Sie benötigen mindestens 256 GB System-RAM, um überhaupt an das Laden dieses MoE-Giganten zu denken.

Es verwendet einen dynamischen sparse attention-Mechanismus, um diesen 202k-Kontext kohärent zu halten.

Die Verwendung von Unsloth macht den Trainings- und inference-Prozess deutlich effizienter.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für GLM-5.1

Expertentipps, um das Beste aus GLM-5.1 herauszuholen.

Thinking Mode aktivieren

Stellen Sie sicher, dass der 'Thinking'-Schalter in Ihrer Konfiguration aktiviert ist, um die 8-Stunden-Autonomie-Iterationen freizuschalten.

Off-Peak-Kontingente nutzen

Führen Sie große Engineering-Batches außerhalb der Stoßzeiten zwischen 14:00 und 18:00 Uhr Pekinger Zeit durch, um von günstigeren Preisen zu profitieren.

Lokale Speicheranforderungen

Verwenden Sie die Unsloth Dynamic GGUF-Quantisierung, um das 1,6 TB große Modell für lokale Ausführungen in 256 GB RAM zu laden.

Strategische Aufgabenauswahl

Reservieren Sie GLM-5.1 für architektonisches reasoning und verwenden Sie GLM-4.7 für Routineimplementierungen, um die Kosten zu optimieren.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

Häufig gestellte Fragen zu GLM-5.1

Finden Sie Antworten auf häufige Fragen zu GLM-5.1