zhipu

GLM-4.7

GLM-4.7 von Zhipu AI ist ein flagship 358B MoE-model mit einem 200K context window, 73,8 % SWE-bench-Leistung und nativem Deep Thinking für agentic...

zhipu logozhipuGLM22. Dezember 2025
Kontext
200KToken
Max. Ausgabe
131KToken
Eingabepreis
$0.60/ 1M
Ausgabepreis
$2.20/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
85.7%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). GLM-4.7 erreichte 85.7% bei diesem Benchmark.
HLE
42.8%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. GLM-4.7 erreichte 42.8% bei diesem Benchmark.
MMLU
90.1%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. GLM-4.7 erreichte 90.1% bei diesem Benchmark.
MMLU Pro
84.3%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. GLM-4.7 erreichte 84.3% bei diesem Benchmark.
SimpleQA
46%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. GLM-4.7 erreichte 46% bei diesem Benchmark.
IFEval
88%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. GLM-4.7 erreichte 88% bei diesem Benchmark.
AIME 2025
95.7%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. GLM-4.7 erreichte 95.7% bei diesem Benchmark.
MATH
92%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. GLM-4.7 erreichte 92% bei diesem Benchmark.
GSM8k
98%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. GLM-4.7 erreichte 98% bei diesem Benchmark.
MGSM
94%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. GLM-4.7 erreichte 94% bei diesem Benchmark.
MathVista
74%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. GLM-4.7 erreichte 74% bei diesem Benchmark.
SWE-Bench
73.8%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). GLM-4.7 erreichte 73.8% bei diesem Benchmark.
HumanEval
94.2%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. GLM-4.7 erreichte 94.2% bei diesem Benchmark.
LiveCodeBench
84.9%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. GLM-4.7 erreichte 84.9% bei diesem Benchmark.
MMMU
74.2%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. GLM-4.7 erreichte 74.2% bei diesem Benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. GLM-4.7 erreichte 58% bei diesem Benchmark.
ChartQA
86%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. GLM-4.7 erreichte 86% bei diesem Benchmark.
DocVQA
93%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. GLM-4.7 erreichte 93% bei diesem Benchmark.
Terminal-Bench
41%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. GLM-4.7 erreichte 41% bei diesem Benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. GLM-4.7 erreichte 12% bei diesem Benchmark.

Über GLM-4.7

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von GLM-4.7.

Model-Übersicht

GLM-4.7 ist ein flagship-Large-Language-Model, das von Zhipu AI entwickelt wurde. Es verwendet eine Mixture-of-Experts (MoE)-Architektur mit 358 Milliarden total parameters. Das model wurde speziell entwickelt, um komplexe agentic Aufgaben und Long-context-reasoning durch seine einzigartigen Preserved Thinking- und Interleaved Thinking-Fähigkeiten zu bewältigen. Diese Funktionen ermöglichen es dem model, stabile Logik und zwischenzeitliche reasoning-Zustände über Multi-turn-Sitzungen hinweg beizubehalten und so den context-Verlust zu beheben, der bei autonomen Workflows häufig auftritt.

Leistung und Architektur

Das model bietet ein umfassendes 200.000-token context window, kombiniert mit einer massiven 131.072-token-Ausgabekapazität. Dies macht es geeignet, um ganze Anwendungen zu generieren oder umfangreiche Dokumentationen in einem einzigen Durchgang zu analysieren. Veröffentlicht unter der MIT-Lizenz als open-weights-model, bietet es leistungsstarkes Coding und reasoning zu einem Bruchteil der Kosten proprietärer Alternativen.

Integration und Nutzung

Es ist vollständig mit dem OpenAI API format kompatibel, was die Integration in bestehende Software-Ökosysteme vereinfacht. Entwickler nutzen es für kritische Softwareentwicklungsaufgaben, bei denen es einen Score von 73,8 % bei SWE-bench Verified erreicht. Seine Fähigkeit, große Mengen technischer Dokumentationen zwischen Englisch und Chinesisch mit sprachlichen Nuancen auf Muttersprachlerniveau zu verarbeiten und zu analysieren, macht es zu einem vielseitigen Werkzeug für internationale Entwicklungsteams.

GLM-4.7

Anwendungsfälle für GLM-4.7

Entdecken Sie die verschiedenen Möglichkeiten, GLM-4.7 für großartige Ergebnisse zu nutzen.

Autonome Softwareentwicklung

Nutzung der 73,8 % SWE-bench-Fähigkeit, um komplexe Repositories autonom zu debuggen, zu refactoren und neue features zu implementieren.

Hochkapazitive Dokumentsynthese

Nutzung des 131k-Ausgabelimits zur Erstellung umfassender technischer Handbücher oder ganzer Buchkapitel aus großen Datensätzen.

Agentic Workflows mit langem Zeithorizont

Einsatz von Agenten, die Preserved Thinking verwenden, um Konsistenz und Logik über hunderte aufeinanderfolgende Aufgaben hinweg aufrechtzuerhalten, ohne den context zu verlieren.

Zweisprachige Business Intelligence

Verarbeitung und Analyse großer Mengen technischer Dokumentationen zwischen Englisch und Chinesisch mit sprachlichen Nuancen auf Muttersprachlerniveau.

Automatisierte UI/UX-Codegenerierung

Erstellung vollständiger React- oder Next.js-Front-end-Architekturen mit fortschrittlichen Animationen und produktionsreifem Styling in einem einzigen Durchgang.

Mathematische Problemlösung auf Wettbewerbsniveau

Lösen komplexer mathematischer Probleme auf Olympiade-Niveau und symbolischer Logikrätsel unter Verwendung des speziellen reasoning-intensiven Thinking-Modus.

Stärken

Einschränkungen

Elite-Coding-Leistung: Erreicht 73,8 % bei SWE-bench Verified und übertrifft damit fast jedes open-source model, während es mit führenden proprietären APIs mithält.
Nur-Text-Modalität: Im Gegensatz zu Gemini oder GPT-4o fehlt GLM-4.7 die native Vision- oder Audioverarbeitung, was externe Modelle für multimodal Aufgaben erforderlich macht.
Massive Ausgabekapazität: Das 131.072-token-Ausgabelimit ist eines der höchsten der Branche und ermöglicht die Erstellung ganzer Anwendungen in einem einzigen Durchgang.
Hohe Anforderungen an lokale Hardware: Bei 358B parameters erfordert die lokale Ausführung des models erhebliche Hardware (ca. 710 GB VRAM), was es für Consumer-GPUs unzugänglich macht.
Agent-First-Architektur: Verfügt über Preserved Thinking, um die logische Konsistenz über langfristige Aufgaben hinweg aufrechtzuerhalten und den context-Verlust in autonomen Agenten zu lösen.
Gelegentliche Latenzspitzen: Nutzer der persönlichen API-Stufe berichten von periodischen Verlangsamungen während der Stoßzeiten im Vergleich zur Infrastruktur größerer Anbieter.
Hoher wirtschaftlicher Wert: Bietet Intelligenz auf frontier-Niveau zu etwa 4- bis 7-mal geringeren Kosten als westliche Wettbewerber wie OpenAI oder Anthropic.
Besonderheiten bei der Anweisungsbefolgung: Obwohl das model stark im reasoning ist, ignoriert es in hochkomplexen Coding-Sitzungen manchmal spezifische Einschränkungen bei der Dateistruktur.

API-Schnellstart

zai/glm-4.7

Dokumentation anzeigen
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'YOUR_ZAI_API_KEY',
  baseURL: 'https://api.z.ai/api/paas/v4/',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'glm-4.7',
    messages: [{ role: 'user', content: 'Design a scalable React architecture.' }],
    thinking: { type: 'enabled' }
  });
  console.log(response.choices[0].message.content);
}
main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über GLM-4.7 sagen

Sehen Sie, was die Community über GLM-4.7 denkt

GLM-4.7 bewältigt große Codebases dank seines 128k-context zuverlässig. Es war überraschend nützlich für Subagenten-Aufgaben, um primäre API-Kosten zu sparen.
IulianHI
reddit
Das GLM-4.7 von Zhipu AI erreicht im Coding das Niveau proprietärer frontier models wie GPT-5.1 High. Die Preserved Thinking-Funktion ist ein riesiger Gewinn für autonome Agenten.
Etienne Noumen
youtube
GLM-4.7 ist weiterhin das intelligenteste open-weights-model im Intelligence Index v4.0 und liegt vor DeepSeek V3.2.
Artificial Analysis
twitter
Chinesische Modelle schließen bei der Coding-Nutzung schnell auf. Dieser 73 %-SWE-bench-Score ist kein Witz für einen open-weights-Release.
Epoch AI
hackernews
Die reasoning-Geschwindigkeit ist für ein model dieser Größe tatsächlich ziemlich ordentlich. Es bewältigt komplexe Logik deutlich besser als frühere Iterationen.
Bijan Bowen
youtube
GLM-4.7 landet auf Platz 6 des AI Index und übertrifft Kimi K2. Entdecken Sie, warum dieses 2-$-model GPT-5.2 in Coding-Workflows ersetzt.
TowardsAI
twitter

Videos über GLM-4.7

Schauen Sie Tutorials, Rezensionen und Diskussionen über GLM-4.7

Die context-Länge beträgt hier 200k und die maximale Anzahl an Ausgabe-tokens ist 128k, was eigentlich ziemlich mächtig ist.

Alles klar, das ist wirklich beeindruckend. Keines der anderen Modelle hat eine spezielle Funktion mit dieser Komplexität.

Die reasoning-Geschwindigkeit ist für ein model dieser Größe tatsächlich ziemlich ordentlich.

Es bewältigt komplexe Logik deutlich besser als frühere Iterationen.

Dieses model ist ein bedeutender Fortschritt in Bezug auf logische Konsistenz.

Das GLM-model hat tatsächlich eine bessere Architektur implementiert, indem alle Mock-Daten in einer Datei abgelegt wurden.

Das hier ist definitiv ein riesiger Sprung. Die benchmarks werden durch meine Tests bestätigt.

Es hat den context des gesamten Projekts verstanden, ohne dass ich es daran erinnern musste.

Die Coding-Fähigkeit ist wohl auf Augenhöhe mit den besten Modellen auf dem Markt.

Man erhält High-End-reasoning zu einem Bruchteil der Kosten.

Es erzielte 73,8 % bei SWE-bench Verified, was für ein open-source model absolut unglaublich ist.

Man kann tatsächlich sehen, dass es funktioniert. Wohingegen die Gemini 3 Pro-Generierung gar nicht funktioniert.

Die Generierungsgeschwindigkeit für dieses Intelligenzniveau ist bemerkenswert.

Es ist eindeutig für Entwickler konzipiert, die zuverlässigen Code-Output benötigen.

Zhipu AI hat sich mit dem MoE-Architektur-Tuning hier wirklich selbst übertroffen.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für GLM-4.7

Expertentipps, um das Beste aus GLM-4.7 herauszuholen.

Thinking Mode für Logik aktivieren

Setzen Sie den thinking parameter auf aktiviert, um bei Coding- oder Matheaufgaben die internen reasoning-Spuren des models zu nutzen und die Genauigkeit zu verbessern.

OpenAI-kompatible SDKs verwenden

Integrieren Sie GLM-4.7 in bestehende Workflows, indem Sie das OpenAI SDK verwenden und die base URL auf den Z.ai-Endpunkt ändern.

Die 131K-Ausgabe maximieren

Geben Sie bei der Erstellung von Long-form-Content zuerst eine detaillierte Gliederung vor, damit das model die strukturelle Kohärenz über das massive token-Limit hinweg beibehalten kann.

System prompts für Agenten optimieren

Definieren Sie die Anforderungen für Preserved Thinking in der Systemnachricht, um sicherzustellen, dass das model reasoning-Zustände über Multi-turn-Sitzungen hinweg wiederverwendet.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Häufig gestellte Fragen zu GLM-4.7

Finden Sie Antworten auf häufige Fragen zu GLM-4.7