zhipu

GLM-4.7

GLM-4.7 de Zhipu AI es un modelo insignia MoE de 358B con una context window de 200K, un rendimiento de élite del 73.8% en SWE-bench y Deep Thinking nativo...

zhipu logozhipuGLM22 de diciembre de 2025
Contexto
200Ktokens
Salida máx.
131Ktokens
Precio entrada
$0.60/ 1M
Precio salida
$2.20/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
85.7%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). GLM-4.7 obtuvo 85.7% en este benchmark.
HLE
42.8%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. GLM-4.7 obtuvo 42.8% en este benchmark.
MMLU
90.1%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. GLM-4.7 obtuvo 90.1% en este benchmark.
MMLU Pro
84.3%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. GLM-4.7 obtuvo 84.3% en este benchmark.
SimpleQA
46%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. GLM-4.7 obtuvo 46% en este benchmark.
IFEval
88%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. GLM-4.7 obtuvo 88% en este benchmark.
AIME 2025
95.7%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. GLM-4.7 obtuvo 95.7% en este benchmark.
MATH
92%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. GLM-4.7 obtuvo 92% en este benchmark.
GSM8k
98%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. GLM-4.7 obtuvo 98% en este benchmark.
MGSM
94%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. GLM-4.7 obtuvo 94% en este benchmark.
MathVista
74%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. GLM-4.7 obtuvo 74% en este benchmark.
SWE-Bench
73.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). GLM-4.7 obtuvo 73.8% en este benchmark.
HumanEval
94.2%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. GLM-4.7 obtuvo 94.2% en este benchmark.
LiveCodeBench
84.9%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. GLM-4.7 obtuvo 84.9% en este benchmark.
MMMU
74.2%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. GLM-4.7 obtuvo 74.2% en este benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. GLM-4.7 obtuvo 58% en este benchmark.
ChartQA
86%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. GLM-4.7 obtuvo 86% en este benchmark.
DocVQA
93%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. GLM-4.7 obtuvo 93% en este benchmark.
Terminal-Bench
41%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. GLM-4.7 obtuvo 41% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. GLM-4.7 obtuvo 12% en este benchmark.

Acerca de GLM-4.7

Conoce las capacidades, características y formas de uso de GLM-4.7.

Resumen del modelo

GLM-4.7 es un gran modelo de lenguaje insignia desarrollado por Zhipu AI. Utiliza una arquitectura de Mixture-of-Experts (MoE) con 358 mil millones de parámetros totales. El model está diseñado específicamente para manejar tareas agentic complejas y razonamiento de contexto largo a través de sus capacidades únicas de Preserved Thinking e Interleaved Thinking. Estas características permiten al model mantener una lógica estable y estados de reasoning intermedios a través de sesiones de múltiples turnos, abordando la pérdida de contexto común en flujos de trabajo autónomos.

Rendimiento y arquitectura

El model ofrece una extensa context window de 200,000 tokens combinada con una capacidad de salida masiva de 131,072 tokens. Esto lo hace adecuado para generar aplicaciones completas o analizar documentación extensa en una sola pasada. Lanzado bajo la licencia MIT como un model de open-weight, proporciona programación y reasoning de alto rendimiento a una fracción del costo de alternativas propietarias.

Integración y uso

Es totalmente compatible con el formato de OpenAI API, simplificando la integración en ecosistemas de software existentes. Los desarrolladores lo utilizan para tareas de ingeniería de software de alta exigencia, donde logra una puntuación del 73.8% en SWE-bench Verified. Su capacidad para procesar y analizar grandes volúmenes de documentación técnica entre inglés y chino con matices lingüísticos de nivel nativo lo convierte en una herramienta versátil para equipos de desarrollo internacionales.

GLM-4.7

Casos de uso de GLM-4.7

Descubre las diferentes formas de usar GLM-4.7 para lograr excelentes resultados.

Ingeniería de software autónoma

Utilizar la capacidad del 73.8% en SWE-bench para depurar, refactorizar e implementar nuevas funciones de forma autónoma en repositorios complejos.

Síntesis de documentos de alta capacidad

Aprovechar el límite de salida de 131k para generar manuales técnicos completos o capítulos enteros de libros a partir de grandes conjuntos de datos.

Flujos de trabajo agentic de largo alcance

Implementar agentes que utilicen Preserved Thinking para mantener la consistencia y la lógica a lo largo de cientos de tareas secuenciales sin perder el contexto.

Inteligencia empresarial bilingüe

Procesar y analizar grandes volúmenes de documentación técnica entre inglés y chino con matices lingüísticos de nivel nativo.

Generación de código UI/UX automatizada

Generar arquitecturas front-end completas en React o Next.js con animaciones avanzadas y estilos listos para producción en una sola ejecución.

Resolución de problemas matemáticos de nivel competitivo

Resolver problemas matemáticos complejos de nivel olímpico y acertijos de lógica simbólica utilizando el thinking mode especializado en reasoning.

Fortalezas

Limitaciones

Rendimiento de programación de élite: Obtiene un 73.8% en SWE-bench Verified, superando a casi cualquier modelo open-source y equiparándose a las mejores APIs propietarias.
Modalidad solo de texto: A diferencia de Gemini o GPT-4o, GLM-4.7 carece de procesamiento nativo de visión o audio, requiriendo modelos externos para tareas multimodal.
Techo de salida masivo: El límite de salida de 131,072 tokens es uno de los más altos de la industria, permitiendo la generación de aplicaciones completas en un solo turno.
Requisitos locales masivos: Con 358B parameters, ejecutar el model localmente requiere hardware significativo (aprox. 710GB VRAM), haciéndolo inaccesible para GPUs de consumo.
Arquitectura orientada a agentes: Incluye Preserved Thinking para mantener la consistencia lógica en tareas de largo alcance, resolviendo la pérdida de contexto en agentes autónomos.
Picos ocasionales de latency: Los usuarios en el nivel de API personal reportan ralentizaciones periódicas durante las horas punta en comparación con la infraestructura de proveedores más grandes.
Alto valor económico: Ofrece inteligencia de nivel frontier a un costo de 4 a 7 veces menor que los competidores occidentales como OpenAI o Anthropic.
Particularidades en el seguimiento de instrucciones: Aunque es potente en reasoning, el model a veces ignora restricciones específicas de estructura de archivos en sesiones de programación altamente complejas.

Inicio rápido de API

zai/glm-4.7

Ver documentación
zhipu SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: 'YOUR_ZAI_API_KEY',
  baseURL: 'https://api.z.ai/api/paas/v4/',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'glm-4.7',
    messages: [{ role: 'user', content: 'Design a scalable React architecture.' }],
    thinking: { type: 'enabled' }
  });
  console.log(response.choices[0].message.content);
}
main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre GLM-4.7

Mira lo que la comunidad piensa sobre GLM-4.7

GLM-4.7 maneja grandes bases de código de forma confiable con su contexto de 128k. Ha sido sorprendentemente útil para tareas de subagentes y ahorrar costos de API principal.
IulianHI
reddit
GLM-4.7 de Zhipu AI iguala a modelos frontier propietarios como GPT-5.1 High en programación. La función Preserved Thinking es una gran victoria para los agentes autónomos.
Etienne Noumen
youtube
GLM-4.7 sigue siendo el modelo de open weights más inteligente en el Intelligence Index v4.0, situándose por delante de DeepSeek V3.2.
Artificial Analysis
twitter
Los modelos chinos están acortando la brecha rápidamente en utilidad de programación. Esta puntuación de 73% en SWE-bench no es broma para un lanzamiento de open weights.
Epoch AI
hackernews
La velocidad de reasoning es bastante decente para un model de este tamaño. Maneja la lógica compleja mucho mejor que las iteraciones anteriores.
Bijan Bowen
youtube
GLM-4.7 alcanza el puesto #6 en el AI Index, superando a Kimi K2. Descubre por qué este model de $2 está reemplazando a GPT-5.2 en los flujos de trabajo de programación.
TowardsAI
twitter

Videos sobre GLM-4.7

Mira tutoriales, reseñas y discusiones sobre GLM-4.7

La longitud de contexto aquí es de 200k y el máximo de tokens de salida es de 128k, lo cual es bastante impresionante.

Está bien, esto es realmente impresionante. Ninguno de ellos añadió una función especial con ese nivel de complejidad.

La velocidad de reasoning es bastante decente para un model de este tamaño.

Maneja la lógica compleja mucho mejor que las iteraciones anteriores.

Este model es un paso significativo en términos de consistencia lógica.

El model GLM implementó una arquitectura mejor al colocar todos los datos simulados en un solo archivo.

Este es definitivamente un gran salto. Esos benchmark están justificados por las pruebas que he realizado.

Entendió el contexto de todo el proyecto sin necesidad de que se lo recordara.

La capacidad de programación está al mismo nivel que los mejores modelos disponibles.

Obtienes reasoning de alto nivel a una fracción del costo.

Obtuvo un 73.8 por ciento en Swaybench verified, lo cual es absolutamente increíble para un model open-source.

Puedes ver que funciona realmente. Mientras que la generación de Gemini 3 Pro no funciona en absoluto.

La velocidad de generación para este nivel de inteligencia es notable.

Está claramente diseñado para desarrolladores que necesitan una salida de código confiable.

Zhipu AI realmente se ha superado a sí mismo con el ajuste de la arquitectura MoE aquí.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para GLM-4.7

Consejos de expertos para ayudarte a sacar el máximo provecho de GLM-4.7.

Habilitar Thinking Mode para lógica

Configura el parámetro thinking como habilitado para tareas de programación o matemáticas para utilizar las trazas de reasoning interno del model y mejorar la precisión.

Usar SDKs compatibles con OpenAI

Integra GLM-4.7 en flujos de trabajo existentes utilizando el SDK de OpenAI y cambiando la URL base al endpoint de Z.ai.

Maximizar la salida de 131K

Al generar contenido extenso, proporciona primero un esquema detallado para ayudar al model a mantener la coherencia estructural dentro del límite masivo de tokens.

Optimizar system prompts para agentes

Define los requisitos de Preserved Thinking en el system message para asegurar que el model reutilice los estados de reasoning en sesiones de múltiples turnos.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Preguntas Frecuentes Sobre GLM-4.7

Encuentra respuestas a preguntas comunes sobre GLM-4.7