zhipu

GLM-5.1

GLM-5.1 è il model di punta per il reasoning di Zhipu AI, dotato di una context window di 202K e di un ciclo di esecuzione autonomo di 8 ore per ingegneria...

ReasoningAgentic AIOpen WeightsCodingMultimodal
zhipu logozhipuGLM2026-04-08
Contesto
203Ktoken
Output max
164Ktoken
Prezzo input
$1.40/ 1M
Prezzo output
$4.40/ 1M
Modalita:TextImage
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
86.2%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. GLM-5.1 ha ottenuto 86.2% in questo benchmark.
HLE
31%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. GLM-5.1 ha ottenuto 31% in questo benchmark.
MMLU
89%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. GLM-5.1 ha ottenuto 89% in questo benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. GLM-5.1 ha ottenuto 89% in questo benchmark.
IFEval
73%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. GLM-5.1 ha ottenuto 73% in questo benchmark.
AIME 2025
95.3%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. GLM-5.1 ha ottenuto 95.3% in questo benchmark.
MATH
80%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. GLM-5.1 ha ottenuto 80% in questo benchmark.
GSM8k
96%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. GLM-5.1 ha ottenuto 96% in questo benchmark.
MGSM
90%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. GLM-5.1 ha ottenuto 90% in questo benchmark.
MathVista
70%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. GLM-5.1 ha ottenuto 70% in questo benchmark.
SWE-Bench
58.4%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. GLM-5.1 ha ottenuto 58.4% in questo benchmark.
HumanEval
94.6%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. GLM-5.1 ha ottenuto 94.6% in questo benchmark.
LiveCodeBench
68%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. GLM-5.1 ha ottenuto 68% in questo benchmark.
MMMU
73%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. GLM-5.1 ha ottenuto 73% in questo benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. GLM-5.1 ha ottenuto 58% in questo benchmark.
ChartQA
89%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. GLM-5.1 ha ottenuto 89% in questo benchmark.
DocVQA
93%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. GLM-5.1 ha ottenuto 93% in questo benchmark.
Terminal-Bench
63.5%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. GLM-5.1 ha ottenuto 63.5% in questo benchmark.
ARC-AGI
12%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. GLM-5.1 ha ottenuto 12% in questo benchmark.

Informazioni su GLM-5.1

Scopri le capacita di GLM-5.1, le funzionalita e come puo aiutarti a ottenere risultati migliori.

GLM-5.1 è il model di punta di Zhipu AI progettato per l'ingegneria di sistemi complessi e task agentic a lungo termine. Costruito su un'architettura Mixture-of-Experts (MoE) con 744 miliardi di parameters e 40 miliardi attivi per pass, rappresenta un salto significativo nella resistenza e nella risoluzione autonoma dei problemi. Il model è specificamente progettato per superare i plateau di reasoning visti nei precedenti large language models, mantenendo produttività e qualità del codice su migliaia di tool-call e centinaia di iterazioni. Identifica i blocchi, esegue esperimenti e adegua la propria strategia senza intervento umano.

Tecnicamente, GLM-5.1 eccelle come motore di reasoning primario in sistemi multi-agent. Gestisce decisioni architetturali di alto livello delegando l'implementazione a modelli più piccoli. Presenta una context window di 202K supportata da un meccanismo di attention sparsa dinamica, garantendo coerenza attraverso codebase massicce. Il model è rilasciato con open weights sotto licenza MIT, fornendo una valida alternativa locale ai modelli frontier proprietari per task come l'ottimizzazione di database, l'ingegneria di kernel GPU e lo sviluppo di applicazioni web full-stack.

I risultati di KernelBench Level 3 mostrano che GLM-5.1 mantiene un'accelerazione significativa nei carichi di lavoro ML agentic su turni lunghi rispetto a Claude Opus 4.6. Questa resistenza consente agli sviluppatori di attivare un task ingegneristico al mattino e ricevere un servizio completamente testato e distribuito entro la fine della giornata. Gestisce l'intero ciclo di vita di una correzione di bug, dalla riproduzione del problema in una sandbox all'invio della pull request finale.

GLM-5.1

Casi d'uso per GLM-5.1

Scopri i diversi modi in cui puoi usare GLM-5.1 per ottenere ottimi risultati.

Ingegneria Software Autonoma

Esegue task in autonomia per oltre 8 ore per progettare, implementare e debuggare microservizi senza guida umana.

Ottimizzazione di database ad alte prestazioni

Il model ottimizza iterativamente implementazioni di ricerca vettoriale basate su Rust nel corso di centinaia di cicli.

Ottimizzazione del kernel GPU

Analizza implementazioni di riferimento per produrre kernel GPU più veloci che superano i compilatori di autotuning predefiniti.

Orchestrazione Multi-Agent

Agisce come un nucleo di reasoning che coordina sottotask e tool-call attraverso uno sciame di modelli più piccoli e specializzati.

Task complessi da terminale

Esegue operazioni da terminale nel mondo reale e amministrazione di sistema in più passaggi tramite strumenti CLI agentic.

Web design Full-Stack

Il model genera layout UI visivamente coerenti e logica backend per ambienti desktop basati su browser.

Punti di forza

Limitazioni

Orizzonte di iterazione di 8 ore: Mantiene la produttività per migliaia di tool-call senza colpire i plateau di reasoning comuni in altri modelli.
Latenza elevata: L'architettura orientata al reasoning porta a una generazione di token significativamente più lenta rispetto ai modelli standard.
Prestazioni di coding SOTA: Raggiunge un punteggio di 58,4 su SWE-Bench Pro, superando modelli proprietari come GPT-5.4 e Claude Opus 4.6.
Richieste di risorse estreme: Il model grezzo richiede 1,65TB di spazio su disco; anche le versioni quantizzate richiedono 256GB di VRAM o RAM di sistema per girare.
Accesso ai pesi open: Rilasciato sotto licenza MIT, consente il deployment locale di capacità di reasoning frontier-level per uso aziendale.
Sensibilità al prompt: Sbloccare le piene prestazioni agentic richiede spesso system prompt estremamente dettagliati di oltre 300 righe per guidare il ciclo di reasoning.
Coerenza su ampia context window: Mantiene stabilità e accuratezza fino a 202k token, fattore critico per task ingegneristici agentic a lungo termine.
Instabilità dell'API: Gli utenti segnalano frequenti errori 500 e rate-limiting durante le ore di punta di Pechino sull'endpoint ufficiale Z.ai.

Avvio rapido API

zhipu/glm-5.1

Visualizza documentazione
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: 'https://api.z.ai/api/paas/v4'
});

const chat = await client.chat.completions.create({
  model: 'glm-5.1',
  messages: [{ role: 'user', content: 'Ottimizza questo schema di database.' }],
  stream: true
});

for await (const chunk of chat) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su GLM-5.1

Guarda cosa pensa la community di GLM-5.1

GLM-5.1 è rimasto in loop su un prompt per 8 ore filate. Non si è arreso come fanno molti modelli; ha continuato ad aggiungere funzionalità e ad auto-revisionarsi.
ziwenxu_
twitter
L'ho testato fino a 140k di contesto non meno di 5 volte ed è rimasto coerente. Il SOTA potrebbe avere un rivale.
Sensitive_Song4219
reddit
GLM-5.1 è praticamente testa a testa con Opus su questo benchmark. È diventato il #1 open model nell'Arena.
tmuxvim
hackernews
Ogni volta che vedo un NPC convincersi veramente attraverso un dialogo non scritto con GLM-5.1, è pura magia.
orblabs
reddit
Le prestazioni nel coding sono legittime. Ha risolto una race condition nel nostro backend Go su cui GPT-4o continuava ad avere allucinazioni.
DevScale_AI
twitter
Eseguirlo localmente con Unsloth cambia le regole del gioco per la privacy dei dati nel nostro stack tecnologico legale.
LawyerWhoCodes
reddit

Video su GLM-5.1

Guarda tutorial, recensioni e discussioni su GLM-5.1

GLM-5.1 ha ottenuto il 45,3% in questo benchmark, un salto sostanziale per la famiglia.

È un model incredibilmente lento... probabilmente hanno più GPU che servono ancora GLM-5.

Il modo in cui gestisce le tool-call è molto più robusto rispetto al GLM 5 standard.

Attualmente è il model di reasoning più potente che puoi scaricare ed eseguire sul tuo hardware.

Puoi vederlo identificare i propri errori nel log di pensiero.

Può operare autonomamente per 8 ore, perfezionando le strategie attraverso migliaia di iterazioni.

Supera Gemini 3.1 Pro e Qwen 3.6 Plus nei popolari benchmark di repo-generation.

La modalità agentic è dove questo model brilla davvero, non si arrende davanti ai bug difficili.

Z.ai ha praticamente eliminato il paywall su un model frontier-level da 744B di parametri.

Gestisce efficacemente il problema del 'plateau' dove altri LLM perdono concentrazione nel tempo.

Riduzione dell'80% delle dimensioni dall'originale 1,65TB a 236GB mantenendo la qualità.

Il potere dell'open source: anche in una versione quantizzata, ha scritto codice funzionante per i fuochi d'artificio.

Avrai bisogno di almeno 256GB di RAM di sistema solo per pensare di caricare questo gigante MoE.

Utilizza un meccanismo di attention sparsa dinamica per mantenere coerente quella context window di 202k.

Usare Unsloth rende il processo di training e inference significativamente più efficiente.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per GLM-5.1

Consigli esperti per aiutarti a ottenere il massimo da GLM-5.1 e raggiungere risultati migliori.

Attiva la Modalità Thinking

Assicurati che l'opzione 'Thinking' sia abilitata nella tua configurazione per sbloccare le capacità di iterazione autonoma di 8 ore.

Usa le quote fuori dagli orari di punta

Esegui batch ingegneristici di grandi dimensioni al di fuori dell'orario di punta (14:00-18:00 ora di Pechino) per prezzi più vantaggiosi.

Requisiti di memoria locale

Usa la quantizzazione Unsloth Dynamic GGUF per far rientrare il model da 1,6TB in 256GB di RAM di sistema per esecuzioni locali.

Selezione strategica dei task

Riserva GLM-5.1 per il reasoning architetturale e utilizza GLM-4.7 per le implementazioni di routine per gestire i costi.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

Domande frequenti su GLM-5.1

Trova risposte alle domande comuni su GLM-5.1