zhipu

GLM-5

GLM-5 es la potencia open-weight de 744B de parameters de Zhipu AI, destacando en tareas agentic de largo horizonte, programación y precisión factual con un...

Open WeightsAgentic EngineeringMoEZhipu AIIA de programación
zhipu logozhipuGLMFebruary 11, 2026
Contexto
200Ktokens
Salida máx.
128Ktokens
Precio entrada
$1.00/ 1M
Precio salida
$3.20/ 1M
Modalidad:Text
Capacidades:HerramientasStreamingRazonamiento
Benchmarks
GPQA
68.2%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GLM-5 obtuvo 68.2% en este benchmark.
HLE
32%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GLM-5 obtuvo 32% en este benchmark.
MMLU
85%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GLM-5 obtuvo 85% en este benchmark.
MMLU Pro
70.4%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GLM-5 obtuvo 70.4% en este benchmark.
SimpleQA
48%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GLM-5 obtuvo 48% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GLM-5 obtuvo 88% en este benchmark.
AIME 2025
84%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GLM-5 obtuvo 84% en este benchmark.
MATH
88%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GLM-5 obtuvo 88% en este benchmark.
GSM8k
97%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GLM-5 obtuvo 97% en este benchmark.
MGSM
90%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GLM-5 obtuvo 90% en este benchmark.
MathVista
0%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GLM-5 obtuvo 0% en este benchmark.
SWE-Bench
77.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GLM-5 obtuvo 77.8% en este benchmark.
HumanEval
90%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GLM-5 obtuvo 90% en este benchmark.
LiveCodeBench
52%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GLM-5 obtuvo 52% en este benchmark.
MMMU
0%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GLM-5 obtuvo 0% en este benchmark.
MMMU Pro
0%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GLM-5 obtuvo 0% en este benchmark.
ChartQA
0%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GLM-5 obtuvo 0% en este benchmark.
DocVQA
0%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GLM-5 obtuvo 0% en este benchmark.
Terminal-Bench
56.2%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GLM-5 obtuvo 56.2% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GLM-5 obtuvo 12% en este benchmark.

Acerca de GLM-5

Conoce las capacidades, características y formas de uso de GLM-5.

GLM-5 es el modelo fundacional flagship de próxima generación de Zhipu AI, diseñado específicamente para redefinir el estado de la Agentic Engineering en sistemas open-weight. Basado en una arquitectura Mixture of Experts (MoE) masiva de 744 mil millones de parameters con 40 mil millones de activos, es el primer modelo open-weight que cierra la brecha de rendimiento con gigantes propietarios como Claude 4.5. Este model destaca en densidad lógica e ingeniería de software, logrando un hito del 77.8% en SWE-Bench Verified.

Técnicamente, GLM-5 integra Multi-head Latent Attention (MLA) avanzada y mecanismos de Sparse Attention para optimizar la eficiencia de los tokens y reducir la sobrecarga de memoria en un 33%. Entrenado con una escala de 28.5 billones de tokens utilizando un clúster puramente doméstico de 100,000 chips Huawei Ascend, GLM-5 demuestra que el reasoning de nivel frontier es posible sin depender del hardware de alta gama de NVIDIA. Con su context window de 200,000 tokens y su 'Modo Thinking' especializado, proporciona resultados robustos y con bajas alucinaciones para flujos de trabajo técnicos de alta precisión.

Optimizado para la fiabilidad, GLM-5 sirve como base para agentes técnicos autónomos capaces de mantener un estado persistente a través de ejecuciones de largo horizonte. Su licencia MIT permisiva y su precio competitivo de $1.00 por millón de tokens de entrada lo convierten en una opción ideal para empresas que buscan un despliegue local o una integración de API a gran escala sin los términos restrictivos de las alternativas propietarias.

GLM-5

Casos de uso de GLM-5

Descubre las diferentes formas de usar GLM-5 para lograr excelentes resultados.

Ingeniería de sistemas complejos

Diseño y mantenimiento de arquitecturas de microservicios con gestión autónoma de dependencias.

Tareas Agentic de largo horizonte

Ejecución de flujos de trabajo técnicos de múltiples pasos que requieren memoria persistente durante más de una hora de ejecución.

Migración de bases de código heredadas

Refactorización de repositorios completos y actualización de dependencias obsoletas en un context window de 200k tokens.

Investigación técnica con bajas alucinaciones

Realización de investigación técnica de alta precisión donde la exactitud factual y la abstención de errores son primordiales.

Operaciones de terminal autónomas

Potenciación de agentes de desarrollo que pueden ejecutar de forma autónoma auditorías de seguridad y comandos de administración de sistemas.

Despliegue global bilingüe

Proporciona reasoning de primer nivel en inglés y chino para aplicaciones empresariales localizadas a gran escala.

Fortalezas

Limitaciones

Inteligencia Agentic de élite: Logra la puntuación más alta en el Agentic Index (63) entre los modelos open-weight para la ejecución de tareas de múltiples pasos.
Sin multimodalidad nativa: Carece de capacidades de procesamiento de visión, audio y video como las presentes en competidores multimodales como GPT-4o.
Baja tasa de alucinaciones: Presenta una reducción del 56% en alucinaciones en comparación con generaciones anteriores, priorizando la precisión factual.
Requisitos de alojamiento extremos: Los 1.5TB de pesos en BF16 hacen que el despliegue local sea imposible para casi todos los usuarios sin infraestructura en la nube.
Eficiencia MoE masiva: La arquitectura de 744B parameters proporciona una densidad lógica de flagship, mientras que MLA reduce la sobrecarga de memoria en un 33%.
Alta latencia de inferencia: El time-to-first-token inicial puede ser elevado (más de 7 segundos) en APIs públicas en comparación con modelos 'flash' más pequeños.
Licencia MIT permisiva: Lanzado bajo una licencia open-source real, permitiendo el uso comercial sin restricciones ni exclusiones de usuario limitantes.
Matices en el diseño de frontend: Aunque es excelente en lógica, ocasionalmente puede tener dificultades con el pulido estético detallado de CSS en comparación con Claude.

Inicio rápido de API

zai/glm-5

Ver documentación
zhipu SDK
import { ZhipuAI } from "zhipuai-sdk";

const client = new ZhipuAI({ apiKey: "YOUR_API_KEY" });

async function main() {
  const response = await client.chat.completions.create({
    model: "glm-5",
    messages: [{ role: "user", content: "Analyze this repo for security vulnerabilities." }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0].delta.content || "");
  }
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GLM-5

Mira lo que la comunidad piensa sobre GLM-5

"¡GLM-5 es el nuevo líder de los open weights! Obtiene un 50 en el Intelligence Index, cerrando la brecha de forma significativa."
Artificial Analysis
x
"Este modelo es increíble. Ejecuté con éxito un trabajo que tomó más de una hora... me dejó alucinado."
Theo - t3.gg
youtube
"GLM-5 no usó chips de NVIDIA, tiene 745B params y cuesta $1 por millón de tokens de entrada. Este es el futuro."
Legendary
x
"La tasa de alucinación es de locos; está mucho más dispuesto a decir 'no lo sé' que a mentirte."
DevUser456
reddit
"Zhipu AI acaba de lanzar el guante a los modelos de programación open source."
AIExplorer
hackernews
"Finalmente, un modelo open-weight que no pierde el hilo a mitad de una tarea compleja."
CodeMaster
reddit

Videos sobre GLM-5

Mira tutoriales, reseñas y discusiones sobre GLM-5

Es, con diferencia, el mejor modelo open-weight que he visto, especialmente para temas de código.

El hecho de que este sea el primer modelo open-weight con el que he ejecutado con éxito un trabajo de más de una hora... me dejó alucinado.

Parece ser el modelo que menos alucina de todos los existentes hasta la fecha.

Estamos viendo un cambio masivo en lo que los modelos open-weight pueden hacer realmente en producción.

La estabilidad de este modelo durante sesiones largas de uso de herramientas es genuinamente sin precedentes.

La sensación al programar es muy, muy potente... comparable a GLM 4.7, que ya era un unicornio.

La introducción de la dynamic island en su mockup de UI fue una característica especial muy genial e inesperada.

Está superando a casi cualquier otro modelo de su clase en lógica compleja.

La profundidad de reasoning aquí me recuerda a la primera vez que usé o1, pero es open-weight.

Para ser un modelo de solo texto, maneja la lógica visual en el código mejor que muchos modelos de visión.

El uso de memoria se ha desplomado... logramos mejoras de memoria de 33 veces en comparación con lo que hacíamos antes.

Pasó el test de lógica del lavado de coches con el reasoning activado, superando a Claude y GPT-4o.

Desplegar esto requiere un rack de servidores serio, pero el rendimiento por vatio es una locura.

Manejó la migración de mi repositorio heredado sin inventarse ni un solo nombre de librería.

El modo de pensamiento no es solo un truco; cambia fundamentalmente la calidad de la respuesta.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GLM-5

Consejos de expertos para ayudarte a sacar el máximo provecho de GLM-5.

Activa el Modo Thinking

GLM-5 rinde significativamente mejor en acertijos lógicos complejos como el 'test del lavado de coches' cuando el reasoning está habilitado.

Aprovecha la Licencia MIT

Benefíciate de su licenciamiento permisivo para el desarrollo comercial sin restricciones y el alojamiento interno.

Optimización del Uso de Herramientas

Utiliza GLM-5 para tareas de múltiples pasos, ya que está diseñado específicamente para una alta estabilidad en la ejecución de herramientas agentic.

Uso del Context Window

Introduce bases de código completas en su ventana de 200k para realizar auditorías de seguridad o refactorizaciones en todo el repositorio.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

minimax

MiniMax M2.5

minimax

MiniMax M2.5 is a SOTA MoE model featuring a 1M context window and elite agentic coding capabilities at disruptive pricing for autonomous agents.

1M context
$0.30/$1.20/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
alibaba

Qwen3-Coder-Next

alibaba

Qwen3-Coder-Next is Alibaba Cloud's elite Apache 2.0 coding model, featuring an 80B MoE architecture and 256k context window for advanced local development.

256K context
$0.14/$0.42/1M
anthropic

Claude Sonnet 4.5

Anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
alibaba

Qwen-Image-2.0

alibaba

Qwen-Image-2.0 is Alibaba's unified 7B model for professional infographics, photorealism, and precise image editing with native 2K resolution and 1k-token...

1K context
$0.07/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

200K context
$5.00/$25.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
deepseek

DeepSeek-V3.2-Speciale

DeepSeek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

Preguntas Frecuentes Sobre GLM-5

Encuentra respuestas a preguntas comunes sobre GLM-5