zhipu

GLM-5

GLM-5 es la potencia open-weight de 744B de parámetros de Zhipu AI, que destaca en tareas agentic de largo horizonte, programación y precisión fáctica con una...

Open WeightsAgentic EngineeringMoEZhipu AICoding AI
zhipu logozhipuGLM11 de febrero de 2026
Contexto
200Ktokens
Salida máx.
128Ktokens
Precio entrada
$1.00/ 1M
Precio salida
$3.20/ 1M
Modalidad:Text
Capacidades:HerramientasStreamingRazonamiento
Benchmarks
GPQA
68.2%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GLM-5 obtuvo 68.2% en este benchmark.
HLE
32%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GLM-5 obtuvo 32% en este benchmark.
MMLU
85%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GLM-5 obtuvo 85% en este benchmark.
MMLU Pro
70.4%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GLM-5 obtuvo 70.4% en este benchmark.
SimpleQA
48%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GLM-5 obtuvo 48% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GLM-5 obtuvo 88% en este benchmark.
AIME 2025
84%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GLM-5 obtuvo 84% en este benchmark.
MATH
88%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GLM-5 obtuvo 88% en este benchmark.
GSM8k
97%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GLM-5 obtuvo 97% en este benchmark.
MGSM
90%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GLM-5 obtuvo 90% en este benchmark.
MathVista
0%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GLM-5 obtuvo 0% en este benchmark.
SWE-Bench
77.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GLM-5 obtuvo 77.8% en este benchmark.
HumanEval
90%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GLM-5 obtuvo 90% en este benchmark.
LiveCodeBench
52%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GLM-5 obtuvo 52% en este benchmark.
MMMU
0%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GLM-5 obtuvo 0% en este benchmark.
MMMU Pro
0%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GLM-5 obtuvo 0% en este benchmark.
ChartQA
0%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GLM-5 obtuvo 0% en este benchmark.
DocVQA
0%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GLM-5 obtuvo 0% en este benchmark.
Terminal-Bench
56.2%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GLM-5 obtuvo 56.2% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GLM-5 obtuvo 12% en este benchmark.

Acerca de GLM-5

Conoce las capacidades, características y formas de uso de GLM-5.

GLM-5 es el flagship foundation model de Zhipu AI diseñado para flujos de trabajo agentic autónomos e ingeniería de sistemas complejos. Utiliza una arquitectura masiva de Mixture-of-Experts (MoE) de 744 mil millones de parámetros, con 40 mil millones de parámetros activos durante la inference para equilibrar rendimiento y velocidad. Es el primer sistema open-weight en demostrar paridad con modelos frontier propietarios en tareas de ingeniería de software, obteniendo un 77.8% en SWE-bench Verified.

El modelo fue entrenado con 28.5 billones de tokens utilizando un cluster nacional de 100,000 chips Huawei Ascend. Integra mecanismos especializados como Multi-head Latent Attention (MLA) y DeepSeek Sparse Attention (DSA) para mantener la consistencia lógica a través de su context window de 200,000 tokens. Este stack técnico permite a GLM-5 gestionar planificación a largo plazo y gestión de recursos sin la alta latencia típica de los modelos densos de este tamaño.

Zhipu AI publicó GLM-5 bajo la licencia MIT, permitiendo a los usuarios empresariales desplegar los pesos localmente para el procesamiento de datos sensibles. Con un costo de entrada de solo $1.00 por millón de tokens, ofrece una ventaja de precio de 6x sobre modelos rivales como Claude 4.5. El modelo incluye un modo de pensamiento (Thinking Mode) dedicado que reduce significativamente las tasas de alucinación en comparación con sus predecesores.

GLM-5

Casos de uso de GLM-5

Descubre las diferentes formas de usar GLM-5 para lograr excelentes resultados.

Ingeniería de software autónoma

Resolución de issues complejos de GitHub y refactorizaciones en todo el repositorio utilizando su puntuación de 77.8% en SWE-bench Verified.

Orquestación de herramientas empresariales

Ejecución de flujos de trabajo agentic de múltiples pasos a través de API internas para gestionar la automatización administrativa en los sectores financiero y legal.

Análisis de repositorios de contexto largo

Uso de la context window de 200,000 tokens para ingerir y analizar conjuntos completos de documentación o bases de código de múltiples archivos en una sola pasada.

Compañeros de IA personales

Potenciar agentes open-source como OpenClaw para gestionar correos electrónicos, calendarios y tareas en segundo plano las 24 horas con alta fiabilidad.

Inteligencia privada on-premise

Despliegue local del modelo open-weight bajo su licencia MIT para garantizar la privacidad total de los datos en operaciones corporativas sensibles.

Escalamiento de agentes eficiente en costos

Ejecución de sesiones agentic de alto volumen a un costo 6-8 veces menor en comparación con los frontier models propietarios sin sacrificar la profundidad de reasoning.

Fortalezas

Limitaciones

Rendimiento de programación de élite: Logra una puntuación del 77.8% en SWE-bench Verified, igualando a gigantes propietarios como Claude Opus para la ingeniería de software autónoma.
Sin visión nativa: El modelo carece de la capacidad de procesar imágenes o visión directamente, lo que limita su uso en flujos de trabajo UI/UX multimodales modernos.
Ventaja de precio 6x: Ofrece un reasoning de nivel frontier a solo $1.00 por cada millón de tokens de entrada, lo que hace que los despliegues agentic a gran escala sean económicamente viables.
Latencia en tareas de terminal: El rendimiento en Terminal-Bench 2.0 se sitúa en el 56.2%, ligeramente por detrás de los competidores propietarios de primer nivel.
Pesos bajo licencia MIT: La disponibilidad total de los pesos en Hugging Face permite el despliegue local privado en hardware Huawei Ascend o NVIDIA.
Frecuencia de alucinaciones: Los benchmarks iniciales muestran tasas de alucinación cercanas al 30% en tareas de reasoning complejo específicas, en comparación con tasas más bajas en los principales rivales.
Capacidad de contexto masiva: La context window de 200K tokens, junto con 128K tokens de salida, es ideal para análisis de repositorios completos y generaciones de formato largo.
Variaciones de hardware: El entrenamiento en hardware Huawei Ascend puede generar pequeñas variaciones de rendimiento al desplegarse en stacks de software estándar solo para NVIDIA.

Inicio rápido de API

zai/glm-5

Ver documentación
zhipu SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.ZHIPU_API_KEY,
  baseURL: "https://open.bigmodel.cn/api/paas/v4/",
});

const response = await client.chat.completions.create({
  model: "glm-5",
  messages: [{ role: "user", content: "Analiza esta estructura de repositorio y refactoriza a GraphQL." }],
  stream: true,
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GLM-5

Mira lo que la comunidad piensa sobre GLM-5

GLM-5 es un modelo open-source de 744B de parámetros que rinde cerca del nivel de Claude Opus en programación... pero la diferencia de precio importa.
Odd-Coconut-2067
reddit
La context window de 200,000 tokens cambia tu flujo de trabajo: analiza más de 20 archivos para una sola refactorización o revisa diffs de PR complejos en una sola pasada.
AskCodi
reddit
Pasé de gastar ~$90/mes en llamadas a la API de Claude a menos de $15 con GLM-5 y no noté una caída significativa en la calidad.
IulianHI
reddit
Su tasa de alucinación está en el rango del 30% frente a, no sé, Gemini 3 Pro al 88%.
Sid
youtube
GLM-5 salió antes de que pudiera terminar de probar el 4.7, y el salto en reasoning es realmente notable en la programación diaria.
able_wong
twitter
Que Zhipu publique esto bajo MIT es un movimiento enorme para la comunidad de LLM local.
dev_tester
twitter

Videos sobre GLM-5

Mira tutoriales, reseñas y discusiones sobre GLM-5

Está cabeza a cabeza con modelos como 5.2 codecs y Opus 4.5.

Es el primer modelo open-weight con el que he ejecutado con éxito un trabajo que tomó más de una hora sin problemas.

Su tasa de alucinación está en el rango del 30% frente a, no sé, Gemini 3 Pro al 88%.

La densidad de reasoning es significativamente mayor que en GLM-4.

Básicamente reemplaza a Claude 3.5 Sonnet para mis tareas de programación internas.

Literalmente duplicaron, casi duplicaron el número de parámetros... hasta 744.

Aunque es mucho más grande, funciona prácticamente igual o más rápido que el modelo anterior.

Autocorrección. No seas condescendiente. Trátalo como una pregunta válida.

El mecanismo de atención dispersa mantiene el uso de memoria bajo para un modelo tan grande.

La disponibilidad open-weight hace de este el nuevo campeón para el alojamiento local.

Crearon su propio motor de RL llamado Slime.

Una context window de 200,000 tokens cambia lo que significa la IA empresarial.

Alcanza 77.8 en SWE-bench verified, superando a Gemini 3 Pro con 76.2.

Zhipu AI está demostrando que el hardware nacional puede entrenar modelos de clase mundial.

La ingeniería agentic es el enfoque clave aquí, no solo un chat simple.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GLM-5

Consejos de expertos para ayudarte a sacar el máximo provecho de GLM-5.

Activa el modo agentic

Define planes de varios pasos en tus prompts, ya que GLM-5 está optimizado para ingeniería autónoma en lugar de simples respuestas de chat.

Asignación de hardware local

Asegúrate de contar con suficiente VRAM o hardware nativo Huawei Ascend con el framework MindSpore para obtener un throughput óptimo.

Implementa cadenas de respaldo (fallback)

Configura GLM-5 como tu modelo de reasoning principal, utilizando GLM-4.7-Flash como alternativa rentable para instrucciones más sencillas.

Usa salidas estructuradas

GLM-5 destaca en la generación de formatos .docx y .xlsx precisos cuando se le proporcionan requisitos de esquema claros para los entregables.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

anthropic

Claude 3.7 Sonnet

Anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

DeepSeek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M
anthropic

Claude 4.5 Sonnet

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-4o mini

OpenAI

OpenAI's most cost-efficient small model, GPT-4o mini offers multimodal intelligence and high-speed performance at a significantly lower price point.

128K context
$0.15/$0.60/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.3 Instant

OpenAI

Explore GPT-5.3 Instant, OpenAI's "Anti-Cringe" model. Features a 128K context window, 26.8% fewer hallucinations, and a natural, helpful tone for everyday...

128K context
$1.75/$14.00/1M

Preguntas Frecuentes Sobre GLM-5

Encuentra respuestas a preguntas comunes sobre GLM-5