zhipu

GLM-5.1

GLM-5.1 es el modelo de reasoning insignia de Zhipu AI, con una context window de 202K y un bucle de ejecución autónomo de 8 horas para ingeniería agentic...

ReasoningAgentic AIOpen WeightsCodingMultimodal
zhipu logozhipuGLM2026-04-08
Contexto
203Ktokens
Salida máx.
164Ktokens
Precio entrada
$1.40/ 1M
Precio salida
$4.40/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
86.2%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GLM-5.1 obtuvo 86.2% en este benchmark.
HLE
31%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GLM-5.1 obtuvo 31% en este benchmark.
MMLU
89%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GLM-5.1 obtuvo 89% en este benchmark.
MMLU Pro
89%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GLM-5.1 obtuvo 89% en este benchmark.
IFEval
73%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GLM-5.1 obtuvo 73% en este benchmark.
AIME 2025
95.3%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GLM-5.1 obtuvo 95.3% en este benchmark.
MATH
80%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GLM-5.1 obtuvo 80% en este benchmark.
GSM8k
96%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GLM-5.1 obtuvo 96% en este benchmark.
MGSM
90%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GLM-5.1 obtuvo 90% en este benchmark.
MathVista
70%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GLM-5.1 obtuvo 70% en este benchmark.
SWE-Bench
58.4%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GLM-5.1 obtuvo 58.4% en este benchmark.
HumanEval
94.6%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GLM-5.1 obtuvo 94.6% en este benchmark.
LiveCodeBench
68%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GLM-5.1 obtuvo 68% en este benchmark.
MMMU
73%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GLM-5.1 obtuvo 73% en este benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GLM-5.1 obtuvo 58% en este benchmark.
ChartQA
89%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GLM-5.1 obtuvo 89% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GLM-5.1 obtuvo 93% en este benchmark.
Terminal-Bench
63.5%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GLM-5.1 obtuvo 63.5% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GLM-5.1 obtuvo 12% en este benchmark.

Acerca de GLM-5.1

Conoce las capacidades, características y formas de uso de GLM-5.1.

GLM-5.1 es el modelo fundacional insignia de Zhipu AI diseñado para ingeniería de sistemas complejos y tareas agentic de largo alcance. Construido sobre una arquitectura Mixture-of-Experts (MoE) con 744 mil millones de parámetros y 40 mil millones activos por pasada, representa un salto significativo en resistencia y resolución autónoma de problemas. El modelo está diseñado específicamente para superar los estancamientos de razonamiento observados en modelos de lenguaje anteriores, manteniendo la productividad y la calidad del código a lo largo de miles de llamadas a herramientas y cientos de iteraciones. Identifica bloqueos, ejecuta experimentos y ajusta su propia estrategia sin intervención humana.

Desde el punto de vista técnico, GLM-5.1 destaca como motor de reasoning primario en sistemas multi-agente. Gestiona decisiones arquitectónicas de alto nivel mientras delega la implementación a modelos más pequeños. Cuenta con una context window de 202K respaldada por un mecanismo de atención dispersa dinámica, asegurando la coherencia a través de bases de código masivas. El modelo se publica como pesos abiertos bajo la licencia MIT, proporcionando una alternativa local viable a los frontier models propietarios para tareas como la optimización de bases de datos, ingeniería de kernels de GPU y desarrollo de aplicaciones web full-stack.

Los resultados del KernelBench Nivel 3 muestran que GLM-5.1 mantiene una aceleración significativa en cargas de trabajo de ML agentic durante turnos largos en comparación con Claude Opus 4.6. Esta resistencia permite a los desarrolladores activar una tarea de ingeniería por la mañana y recibir un servicio totalmente probado y desplegado al final del día. Maneja todo el ciclo de vida de una corrección de errores, desde reproducir el problema en un entorno aislado hasta enviar la pull request final.

GLM-5.1

Casos de uso de GLM-5.1

Descubre las diferentes formas de usar GLM-5.1 para lograr excelentes resultados.

Ingeniería de software autónoma

Se ejecuta de forma autónoma durante más de 8 horas para diseñar, implementar y depurar microservicios sin guía humana.

Optimización de bases de datos de alto rendimiento

El modelo optimiza de forma iterativa implementaciones de búsqueda vectorial basadas en Rust durante cientos de rondas.

Optimización de kernels de GPU

Analiza implementaciones de referencia para producir kernels de GPU más rápidos que superan a los compiladores de autotune predeterminados.

Orquestación multi-agente

Actúa como un núcleo de reasoning que coordina subtareas y llamadas a herramientas en un enjambre de modelos más pequeños especializados.

Tareas complejas de terminal

Ejecuta operaciones de terminal del mundo real y administración de sistemas en varios pasos a través de herramientas CLI agentic.

Diseño web full-stack

El modelo genera diseños de interfaz visualmente coherentes y lógica de backend para entornos de escritorio basados en navegador.

Fortalezas

Limitaciones

Horizonte de iteración de 8 horas: Mantiene la productividad a lo largo de miles de llamadas a herramientas sin alcanzar los bloqueos de razonamiento comunes en otros modelos.
Latencia elevada: La arquitectura centrada en el reasoning resulta en una generación de tokens significativamente más lenta en comparación con los modelos estándar que no son de razonamiento.
Rendimiento de codificación SOTA: Logra una puntuación de 58.4 en SWE-Bench Pro, superando a modelos propietarios como GPT-5.4 y Claude Opus 4.6.
Demandas extremas de recursos: El modelo base requiere 1.65TB de espacio en disco; incluso las versiones cuantizadas requieren 256GB de VRAM/memoria del sistema para ejecutarse.
Acceso a pesos abiertos: Publicado bajo la licencia MIT, lo que permite el despliegue local de capacidades de reasoning frontier model para uso empresarial.
Sensibilidad al prompt: Desbloquear el rendimiento agentic completo a menudo requiere prompts de sistema extremadamente detallados de más de 300 líneas para guiar el bucle de reasoning.
Coherencia de gran contexto: Mantiene la estabilidad y la precisión hasta los 202k tokens, lo cual es crítico para tareas de ingeniería agentic de largo alcance.
Inestabilidad de la API: Los usuarios informan errores 500 frecuentes y limitaciones de tasa durante las horas pico de uso en Pekín en el endpoint oficial de Z.ai.

Inicio rápido de API

zhipu/glm-5.1

Ver documentación
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: 'https://api.z.ai/api/paas/v4'
});

const chat = await client.chat.completions.create({
  model: 'glm-5.1',
  messages: [{ role: 'user', content: 'Optimize this database schema.' }],
  stream: true
});

for await (const chunk of chat) {
  process.stdout.write(chunk.choices[0]?.delta?.content || '');
}

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GLM-5.1

Mira lo que la comunidad piensa sobre GLM-5.1

GLM-5.1 se mantuvo en un bucle con un mismo prompt durante 8 horas seguidas. No se rindió como la mayoría de los modelos; siguió añadiendo funciones y auto-revisándose.
ziwenxu_
twitter
Lo he probado bajo estrés hasta 140k de contexto no menos de 5 veces y ha permanecido coherente. SOTA podría tener un competidor.
Sensitive_Song4219
reddit
GLM-5.1 está básicamente codo a codo con Opus en este benchmark. Ahora es el modelo abierto número 1 en el Arena.
tmuxvim
hackernews
Cada vez que veo a un NPC convencerse genuinamente a través de un diálogo sin guion con GLM-5.1, es pura magia.
orblabs
reddit
El rendimiento en codificación es legítimo. Solucionó una condición de carrera en nuestro backend en Go sobre la que GPT-4o seguía alucinando.
DevScale_AI
twitter
Ejecutar esto localmente con Unsloth es un cambio de juego para la privacidad de los datos en nuestro stack de tecnología legal.
LawyerWhoCodes
reddit

Videos sobre GLM-5.1

Mira tutoriales, reseñas y discusiones sobre GLM-5.1

GLM-5.1 obtuvo un 45.3% en este benchmark, lo cual es un salto sustancial para la familia.

Es un modelo increíblemente lento... probablemente tengan la mayoría de sus GPUs todavía sirviendo a GLM-5.

La forma en que maneja las llamadas a herramientas es mucho más robusta que la del GLM 5 estándar.

Es actualmente el modelo de reasoning más fuerte que puedes descargar y ejecutar en tu propio hardware.

Puedes ver cómo identifica sus propios errores en el log de pensamiento.

Puede ejecutarse de forma autónoma durante 8 horas, refinando estrategias a través de miles de iteraciones.

Supera a Gemini 3.1 Pro y Qwen 3.6 Plus en los benchmarks populares de generación de repositorios.

El modo agentic es donde este modelo realmente brilla, no se rinde ante errores difíciles.

Z.ai básicamente ha eliminado el muro de pago en un modelo de 744B parámetros de nivel frontier.

Gestiona eficazmente el problema del 'estancamiento' donde otros LLMs pierden el enfoque con el tiempo.

Reducción de tamaño del 80% desde los 1.65 TB originales a 236GB mientras se mantiene la calidad.

El poder del open-source: incluso en una versión cuantizada, escribió código funcional para fuegos artificiales.

Necesitarás al menos 256GB de RAM del sistema para siquiera pensar en cargar este gigante MoE.

Utiliza un mecanismo de atención dispersa dinámica para mantener esa coherencia de 202k de contexto.

Usar Unsloth hace que el proceso de entrenamiento e inference sea significativamente más eficiente.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GLM-5.1

Consejos de expertos para ayudarte a sacar el máximo provecho de GLM-5.1.

Activar el modo de pensamiento (Thinking Mode)

Asegúrate de que la opción 'Thinking' esté habilitada en tu configuración para desbloquear las capacidades de iteración autónoma de 8 horas.

Usar cuotas fuera de hora punta

Ejecuta grandes lotes de ingeniería durante horas de menor actividad fuera del horario de 14:00-18:00 (hora de Pekín) para obtener mejores precios.

Requisitos de memoria local

Utiliza la cuantización Unsloth Dynamic GGUF para que el modelo de 1.6TB quepa en 256GB de memoria del sistema para ejecuciones locales.

Selección estratégica de tareas

Reserva GLM-5.1 para el reasoning arquitectónico y utiliza GLM-4.7 para implementaciones rutinarias para gestionar los costes.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M

Preguntas Frecuentes Sobre GLM-5.1

Encuentra respuestas a preguntas comunes sobre GLM-5.1