zhipu

GLM-5

GLM-5 er Zhipu AI's 744B parameter open-weight powerhouse, der excellerer i langsigtede agentic-opgaver, kodning og faktuel nøjagtighed med et 200k context...

Open WeightsAgentic EngineeringMoEZhipu AICoding AI
zhipu logozhipuGLM11. februar 2026
Kontekst
200Ktokens
Maks output
128Ktokens
Input-pris
$1.00/ 1M
Output-pris
$3.20/ 1M
Modalitet:Text
Funktioner:VærktøjerStreamingRæsonnering
Benchmarks
GPQA
68.2%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). GLM-5 scorede 68.2% på denne benchmark.
HLE
32%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. GLM-5 scorede 32% på denne benchmark.
MMLU
85%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. GLM-5 scorede 85% på denne benchmark.
MMLU Pro
70.4%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. GLM-5 scorede 70.4% på denne benchmark.
SimpleQA
48%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. GLM-5 scorede 48% på denne benchmark.
IFEval
88%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. GLM-5 scorede 88% på denne benchmark.
AIME 2025
84%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. GLM-5 scorede 84% på denne benchmark.
MATH
88%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. GLM-5 scorede 88% på denne benchmark.
GSM8k
97%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. GLM-5 scorede 97% på denne benchmark.
MGSM
90%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. GLM-5 scorede 90% på denne benchmark.
MathVista
0%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. GLM-5 scorede 0% på denne benchmark.
SWE-Bench
77.8%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. GLM-5 scorede 77.8% på denne benchmark.
HumanEval
90%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. GLM-5 scorede 90% på denne benchmark.
LiveCodeBench
52%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. GLM-5 scorede 52% på denne benchmark.
MMMU
0%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. GLM-5 scorede 0% på denne benchmark.
MMMU Pro
0%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. GLM-5 scorede 0% på denne benchmark.
ChartQA
0%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. GLM-5 scorede 0% på denne benchmark.
DocVQA
0%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. GLM-5 scorede 0% på denne benchmark.
Terminal-Bench
56.2%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. GLM-5 scorede 56.2% på denne benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. GLM-5 scorede 12% på denne benchmark.

Om GLM-5

Lær om GLM-5s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

GLM-5 er Zhipu AI's flagship foundation model designet til autonome agentic workflows og komplekse systemtekniske opgaver. Den udnytter en massiv 744 milliarder parameter Mixture-of-Experts (MoE) arkitektur, med 40 milliarder aktive parameters under inference for at balancere performance og hastighed. Modellen er det første open-weight system, der demonstrerer ligeværdighed med proprietære frontier models i softwareudviklingsopgaver, med en score på 77,8 % på SWE-bench Verified.

Modellen er trænet på 28,5 billioner tokens ved brug af en indenlandsk klynge af 100.000 Huawei Ascend-chips. Den integrerer specialiserede mekanismer som Multi-head Latent Attention (MLA) og DeepSeek Sparse Attention (DSA) for at opretholde logisk konsistens på tværs af sit 200.000 token context window. Denne tekniske stack gør det muligt for GLM-5 at håndtere langsigtede planlægnings- og ressourcestyringsopgaver uden den høje latens, der er typisk for tætte modeller af denne størrelse.

Zhipu AI udgav GLM-5 under MIT-licensen, hvilket gør det muligt for virksomhedsbrugere at installere vægtene lokalt til følsom databehandling. Med en input-omkostning på kun 1,00 $ pr. million tokens tilbyder den en 6x prisfordel over rivaliserende modeller som Claude 4.5. Modellen inkluderer en dedikeret Thinking Mode, der reducerer hallucinationsrater markant sammenlignet med sine forgængere.

GLM-5

Anvendelser for GLM-5

Opdag de forskellige måder, du kan bruge GLM-5 til at opnå gode resultater.

Autonom softwareudvikling

Løsning af komplekse GitHub-issues og udførelse af refaktorering på tværs af repositories ved at udnytte dens 77,8 % score på SWE-bench Verified.

Orkestrering af virksomhedsværktøjer

Udførelse af agentic workflows i flere trin på tværs af interne API'er for at håndtere back-office automatisering i finans- og juridiske sektorer.

Analyse af store kildekode-repositories

Brug af 200.000 token-vinduet til at indlæse og analysere hele dokumentationssæt eller kodebaser med mange filer i én gennemgang.

Personlige AI-kolleger

Drive open-source agenter såsom OpenClaw til at styre e-mails, kalendere og baggrundsopgaver 24/7 med høj pålidelighed.

On-premise privat intelligens

Installation af open-weight modellen lokalt under MIT-licensen for at sikre fuld databeskyttelse for følsomme virksomhedsoperationer.

Omkostningseffektiv skalering af agenter

Kørsel af agentic sessioner i høj volumen til 6-8 gange lavere omkostninger sammenlignet med proprietære frontier models uden at ofre reasoning-dybde.

Styrker

Begrænsninger

Elite coding-performance: Opnår en 77,8 % score på SWE-bench Verified, hvilket matcher proprietære giganter som Claude Opus til autonom softwareudvikling.
Ingen native vision: Modellen mangler evnen til at behandle billeder eller vision direkte, hvilket begrænser dens brug i moderne multimodale UI/UX-workflows.
6x prisfordel: Tilbyder reasoning på frontier-niveau til kun 1,00 $ pr. 1 million input tokens, hvilket gør agentic deployments i stor skala økonomisk levedygtige.
Terminal-opgaveforsinkelse: Performance på Terminal-Bench 2.0 ligger på 56,2 %, hvilket er en smule bagud i forhold til de absolutte top-tier proprietære konkurrenter.
MIT-licenserede vægte: Fuld open-weight tilgængelighed på Hugging Face muliggør privat lokal installation på Huawei Ascend- eller NVIDIA-hardware.
Hyppighed af hallucinationer: Tidlige benchmarks viser hallucinationsrater nær 30 % for specifikke komplekse reasoning-opgaver sammenlignet med lavere rater hos de førende rivaler.
Massiv context-kapacitet: Det 200K token-vindue kombineret med 128K output tokens er ideelt til analyse af hele repositories og generering af lange tekster.
Hardware-variationer: Træning på Huawei Ascend-hardware kan føre til mindre performance-afvigelser, når den installeres på standard software-stacks baseret udelukkende på NVIDIA.

API hurtig start

zai/glm-5

Se dokumentation
zhipu SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: "https://open.bigmodel.cn/api/paas/v4/",
});

const response = await client.chat.completions.create({
  model: "glm-5",
  messages: [{ role: "user", content: "Analysér denne repo-struktur og refaktorér til GraphQL."}],
  stream: true,
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om GLM-5

Se hvad fællesskabet mener om GLM-5

GLM-5 er en open-source 744B parameter model, der performer tæt på Claude Opus-niveau inden for coding... men prisforskellen betyder noget.
Odd-Coconut-2067
reddit
Det 200.000 token-vindue ændrer dit workflow: Analysér 20+ filer til en enkelt refaktorering eller gennemgå komplekse PR-diffs i én gennemgang.
AskCodi
reddit
Jeg gik fra at bruge ~90 $ om måneden på Claude API-kald til under 15 $ med GLM-5, og jeg mærkede ikke et væsentligt fald i kvaliteten.
IulianHI
reddit
Dens hallucinationsrate ligger i 30%-området, mod jeg ved ikke, Gemini 3 Pro på 88 %.
Sid
youtube
GLM-5 udkom, før jeg kunne nå at færdiggøre test af 4.7, og springet i reasoning er faktisk mærkbart i daglig kodning.
able_wong
twitter
At Zhipu frigiver denne under MIT er et massivt træk for det lokale LLM-community.
dev_tester
twitter

Videoer om GLM-5

Se vejledninger, anmeldelser og diskussioner om GLM-5

Den ligger side om side med modeller som 5.2 codecs og Opus 4.5.

Det er den første open-weight model, hvor jeg med succes har kørt et job, der tog over en time, uden problemer.

Dens hallucinationsrate ligger i 30%-området, mod jeg ved ikke, Gemini 3 Pro på 88 %.

Reasoning-tætheden er væsentligt højere end GLM-4.

Den erstatter stort set Claude 3.5 Sonnet til mine interne coding-opgaver.

De har bogstaveligt talt fordoblet antallet af parameters... helt op til 744.

Selvom den er meget større, kører den stort set lige så hurtigt, hvis ikke hurtigere, end den ældre model.

Selvkorrektion. Vær ikke nedladende. Behandl det som et validt spørgsmål.

Sparse attention-mekanismen holder hukommelsesforbruget lavt for en så stor model.

Open-weight tilgængelighed gør dette til den nye mester for lokal hosting.

De skabte deres egen RL-motor kaldet Slime.

Et 200.000 context window ændrer, hvad virksomheds-AI overhovedet betyder.

Den rammer 77,8 på SWE-bench verified og slår Gemini 3 Pro på 76,2.

Zhipu AI beviser, at hjemlig hardware kan træne modeller i verdensklasse.

Agentic engineering er hovedfokus her, ikke bare simpel chat.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til GLM-5

Eksperttips til at hjælpe dig med at få mest muligt ud af GLM-5 og opnå bedre resultater.

Aktivér Agentic Mode

Definér planer i flere trin i dine prompts, da GLM-5 er optimeret til autonomt ingeniørarbejde frem for simple chat-beskeder.

Lokal hardware-allokering

Sørg for, at der er rigeligt med VRAM eller dedikeret Huawei Ascend-hardware med MindSpore-frameworket tilgængeligt for optimal throughput.

Implementér fallback-kæder

Konfigurér GLM-5 som din primære reasoning model med GLM-4.7-Flash som et omkostningseffektivt alternativ til simplere instruktioner.

Brug struktureret output

GLM-5 excellerer i at generere præcise .docx- og .xlsx-formater, når den får klare skemakrav for leverancer.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

DeepSeek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-4o mini

OpenAI

OpenAI's most cost-efficient small model, GPT-4o mini offers multimodal intelligence and high-speed performance at a significantly lower price point.

128K context
$0.15/$0.60/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.3 Instant

OpenAI

Explore GPT-5.3 Instant, OpenAI's "Anti-Cringe" model. Features a 128K context window, 26.8% fewer hallucinations, and a natural, helpful tone for everyday...

128K context
$1.75/$14.00/1M

Ofte stillede spørgsmål om GLM-5

Find svar på almindelige spørgsmål om GLM-5