zhipu

GLM-4.7

GLM-4.7 de Zhipu AI es un flagship model MoE de 358B con un context window de 200K, rendimiento élite del 73.8% en SWE-bench y Deep Thinking nativo para flujos...

zhipu logozhipuGLMDecember 22, 2025
Contexto
200Ktokens
Salida máx.
131Ktokens
Precio entrada
$0.60/ 1M
Precio salida
$2.20/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
85.7%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GLM-4.7 obtuvo 85.7% en este benchmark.
HLE
42.8%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GLM-4.7 obtuvo 42.8% en este benchmark.
MMLU
90.1%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GLM-4.7 obtuvo 90.1% en este benchmark.
MMLU Pro
84.3%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GLM-4.7 obtuvo 84.3% en este benchmark.
SimpleQA
46%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GLM-4.7 obtuvo 46% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GLM-4.7 obtuvo 88% en este benchmark.
AIME 2025
95.7%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GLM-4.7 obtuvo 95.7% en este benchmark.
MATH
92%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GLM-4.7 obtuvo 92% en este benchmark.
GSM8k
98%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GLM-4.7 obtuvo 98% en este benchmark.
MGSM
94%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GLM-4.7 obtuvo 94% en este benchmark.
MathVista
74%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GLM-4.7 obtuvo 74% en este benchmark.
SWE-Bench
73.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GLM-4.7 obtuvo 73.8% en este benchmark.
HumanEval
94.2%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GLM-4.7 obtuvo 94.2% en este benchmark.
LiveCodeBench
84.9%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GLM-4.7 obtuvo 84.9% en este benchmark.
MMMU
74.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GLM-4.7 obtuvo 74.2% en este benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GLM-4.7 obtuvo 58% en este benchmark.
ChartQA
86%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GLM-4.7 obtuvo 86% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GLM-4.7 obtuvo 93% en este benchmark.
Terminal-Bench
41%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GLM-4.7 obtuvo 41% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GLM-4.7 obtuvo 12% en este benchmark.

Prueba GLM-4.7 Gratis

Chatea con GLM-4.7 gratis. Prueba sus capacidades, haz preguntas y explora lo que este modelo de IA puede hacer.

Prompt
Respuesta
zhipu/glm-4-7

Tu respuesta de IA aparecerá aquí

Acerca de GLM-4.7

Conoce las capacidades, características y formas de uso de GLM-4.7.

GLM-4.7 es el último flagship model de IA de Zhipu AI, que representa un salto significativo en la inteligencia open-weight. Este enorme model Mixture-of-Experts (MoE) de 358 mil millones de parámetros está diseñado específicamente para reasoning avanzado, automatización de programación y flujos de trabajo agentic complejos. Introduce un modo de Deep Thinking dedicado que permite la planificación de múltiples pasos y la recuperación de errores, permitiendo al model resolver tareas críticas de ingeniería de software con una fiabilidad sin precedentes.

El model se distingue por su excepcional rendimiento técnico, logrando una puntuación state-of-the-art del 73.8% en SWE-bench Verified y un 84.9 en LiveCodeBench v6. Con su context window de 200,000 tokens y una capacidad de salida masiva de 131,072 tokens, GLM-4.7 está optimizado para generar aplicaciones completas y realizar investigaciones profundas en vastos conjuntos de datos.

Como un lanzamiento open-weight bajo la licencia MIT, ofrece una alternativa potente y flexible a las API propietarias, admitiendo tanto la integración basada en la nube como el hosting local. Sus capacidades multimodal se extienden al diseño avanzado de UI y al análisis de documentos, convirtiéndolo en una herramienta versátil y potente para el desarrollo moderno impulsado por IA.

GLM-4.7

Casos de uso de GLM-4.7

Descubre las diferentes formas de usar GLM-4.7 para lograr excelentes resultados.

Ingeniería de Software Agentic

Resolución de problemas complejos en GitHub e implementación de funcionalidades full-stack de forma autónoma en repositorios completos.

Vibe Coding de Alta Fidelidad

Generación rápida de interfaces web modernas y listas para producción utilizando Tailwind CSS y componentes interactivos de Framer Motion.

Soporte Técnico Multilingüe

Asistencia avanzada en programación y resolución de problemas lógicos en más de 10 entornos de programación internacionales.

Investigación Académica Profunda

Análisis de conjuntos masivos de documentos para extraer información verificable de múltiples saltos utilizando el framework de búsqueda BrowseComp.

Diseño Automatizado de Presentaciones

Creación de diapositivas estructuradas y visualmente equilibradas con diseños y tipografía precisos a partir de prompts de una sola frase.

Automatización basada en Terminal

Ejecución de tareas complejas de administración de sistemas y DevOps directamente en un sandbox de terminal con una precisión del 41% en benchmark.

Fortalezas

Limitaciones

Dominio Élite en Programación: Lidera actualmente los models open-weight con una puntuación del 73.8% en SWE-bench, superando a muchos competidores propietarios.
Intensidad de Hardware Extrema: El conteo de 355B parámetros hace que el hosting local sea prohibitivo para desarrolladores individuales sin configuraciones multi-GPU.
Tokens de Salida Masivos: Ofrece un límite de salida de 131K tokens, lo que permite la generación de bases de código masivas listas para producción en una sola iteración.
Disparidad entre API y Web: Existe una brecha de rendimiento notable entre las respuestas instantáneas de la API y el reasoning más profundo que se encuentra en la interfaz web.
Motor de Reasoning Nativo: Incorpora capacidades de 'Deep Thinking' que permiten una mejor planificación y reducen la desviación en tareas agentic de larga duración.
Alucinaciones Temporales: Los usuarios han reportado imprecisiones ocasionales con respecto a fechas y eventos actuales inmediatamente después del lanzamiento del model.
Relación Costo-Rendimiento Inbatible: Proporciona inteligencia de nivel frontier model a una fracción del costo, comenzando en solo $0.60 por millón de tokens de entrada.
Alta Latencia de Reasoning: Activar el modo Deep Thinking completo puede aumentar significativamente el tiempo de respuesta para prompts complejos de varios pasos.

Inicio rápido de API

zhipu/glm-4-7

Ver documentación
zhipu SDK
import { ZhipuAI } from "zhipuai";

const client = new ZhipuAI({ apiKey: "YOUR_API_KEY" });

async function main() {
  const response = await client.chat.completions.create({
    model: "glm-4.7",
    messages: [{ role: "user", content: "Build a real-time collaborative whiteboard using Next.js." }],
    stream: true,
    extra_body: { "thinking": true }
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0].delta.content || "");
  }
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GLM-4.7

Mira lo que la comunidad piensa sobre GLM-4.7

"¡GLM 4.7 DESTROZA LOS RÉCORDS DE OPEN SOURCE! ... alcanzó un 42.8% en Humanity's Last Exam"
MindColliers
x/twitter
"GLM-4.7... obtiene un 73.8% en SWE-Bench a $0.6/M de tokens... La carrera de la IA se está volviendo verdaderamente multipolar."
MateusGalasso
x/twitter
"GLM 4.7 aporta ganancias claras... en programación multilingüe agentic y tareas basadas en terminal"
Dear-Success-1441
reddit
"Este model está arrasando en muchos benchmarks de programación de 2025"
cloris_rust
reddit
"GLM 4.7 gana en velocidad y estabilidad, mientras que Minimax M2.1 domina en programación multi-agente"
JamMasterJulian
youtube
"Zhipu realmente está demostrando lo que los pesos abiertos pueden hacer contra los grandes laboratorios de EE. UU."
DevGuru
hackernews

Videos sobre GLM-4.7

Mira tutoriales, reseñas y discusiones sobre GLM-4.7

GLM 4.7 es un model que ofrece mejoras importantes en la calidad del código, reasoning complejo y uso de herramientas

Obtuvo un 73.8 por ciento en SWE-bench verified, lo cual es absolutamente increíble para un model open-source

Incluso supera a Claude Sonnet 4.5 y GPT 5.1 en benchmarks de uso de herramientas

El enfoque de mixture of experts aquí está muy refinado, lo que conduce a una mayor eficiencia a pesar del tamaño

Es esencialmente el primer model open-weight que ofrece una alternativa viable a Claude 3.5 para programación intensiva

Es, por mucho, el mejor model abierto hasta ahora

Produce páginas web más limpias y modernas, y genera mejores diapositivas

Razona, pero las trazas de pensamiento no están disponibles en la API de planes de programación

Los resultados de vibe coding son casi perfectos, incluso con animaciones complejas de Tailwind

El contexto de 200k maneja repositorios largos con muy poca pérdida de información en comparación con versiones anteriores de GLM

Una actualización importante es el pensar antes de actuar, lo que ayuda al model a manejar tareas complejas de forma fiable

Destaca el vibe coding, donde GLM 4.7 mejora la calidad de la UI

El precio de la API rondará los mismos $3, lo que la convierte en una opción muy rentable

El rendimiento multimodal le permite convertir diseños de Figma a código con alta precisión

El despliegue local es posible si tienes una estación de trabajo masiva, pero la API es notablemente rápida

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro

Consejos de expertos para ayudarte a sacar el máximo provecho de este modelo.

Activar Deep Thinking

Para tareas lógicas complejas, active explícitamente el modo de pensamiento mediante los parámetros de la API para permitir la planificación en varios pasos.

Aprovechar el Pensamiento Preservado

Mantenga historiales de conversación largos para utilizar la capacidad del model de retener trazas de reasoning a través de múltiples turnos.

Cuantización Local

Utilice versiones GGUF de 2 o 4 bits optimizadas con Unsloth para ejecutar este model de altos parámetros en hardware de consumo.

Inyección de Fecha

Incluya manualmente la fecha actual en el system prompt para evitar alucinaciones temporales y mejorar la precisión en la programación de tareas.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.