xai

Grok-4

Grok-4 de xAI es un frontier model que cuenta con un context window de 2M de tokens, integración en tiempo real con la plataforma X y capacidades de reasoning...

xai logoxaiGrok9 de julio de 2025
Contexto
2.0Mtokens
Salida máx.
8Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
87.5%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Grok-4 obtuvo 87.5% en este benchmark.
HLE
44.4%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Grok-4 obtuvo 44.4% en este benchmark.
MMLU
94%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Grok-4 obtuvo 94% en este benchmark.
MMLU Pro
81.2%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Grok-4 obtuvo 81.2% en este benchmark.
SimpleQA
48%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Grok-4 obtuvo 48% en este benchmark.
IFEval
89.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Grok-4 obtuvo 89.2% en este benchmark.
AIME 2025
100%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Grok-4 obtuvo 100% en este benchmark.
MATH
92%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Grok-4 obtuvo 92% en este benchmark.
GSM8k
98.4%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Grok-4 obtuvo 98.4% en este benchmark.
MGSM
92.1%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Grok-4 obtuvo 92.1% en este benchmark.
MathVista
72.4%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Grok-4 obtuvo 72.4% en este benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Grok-4 obtuvo 81% en este benchmark.
HumanEval
88%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Grok-4 obtuvo 88% en este benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Grok-4 obtuvo 79.4% en este benchmark.
MMMU
75%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Grok-4 obtuvo 75% en este benchmark.
MMMU Pro
59.2%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Grok-4 obtuvo 59.2% en este benchmark.
ChartQA
90.5%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Grok-4 obtuvo 90.5% en este benchmark.
DocVQA
93.2%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Grok-4 obtuvo 93.2% en este benchmark.
Terminal-Bench
54.2%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Grok-4 obtuvo 54.2% en este benchmark.
ARC-AGI
15.9%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Grok-4 obtuvo 15.9% en este benchmark.

Acerca de Grok-4

Conoce las capacidades, características y formas de uso de Grok-4.

Descripción general del modelo

Grok-4 es el frontier model multimodal de xAI. Está construido para priorizar el reasoning basado en primeros principios y la recuperación de información en tiempo real. El modelo obtiene una ventaja competitiva significativa a través de su integración nativa con la plataforma social X. Esto le permite analizar conversaciones globales y noticias en vivo a medida que suceden. Utiliza el superordenador Colossus para su entrenamiento, lo que resulta en un rendimiento de primer nivel en dominios matemáticos y técnicos.

Capacidades técnicas

La arquitectura admite un context window de 2 millones de tokens en sus variantes de reasoning. Esta capacidad permite el procesamiento de bases de código masivas y documentación técnica densa sin pérdida de datos. Cuenta con un sistema de modo dual donde los usuarios eligen entre un modo de alta velocidad para interacciones rápidas y un modo de pensamiento profundo para tareas lógicas de varios pasos. El modelo gestiona una tasa de alucinación de aproximadamente el 4% empleando un mecanismo de consenso multi-agente en su configuración Heavy.

Integración del ecosistema

Más allá de la simple generación de texto, Grok-4 está diseñado para el uso nativo de herramientas y el function calling complejo. Admite procesamiento de imágenes y audio, lo que lo convierte en una opción versátil para desarrolladores que crean aplicaciones multimodales. Su estrategia de alineamiento se centra en la búsqueda de la verdad objetiva en lugar de las directrices de seguridad estándar de la industria. Esto resulta en menos rechazos para temas controvertidos o arriesgados en comparación con otros frontier models.

Grok-4

Casos de uso de Grok-4

Descubre las diferentes formas de usar Grok-4 para lograr excelentes resultados.

Análisis de sentimiento en tiempo real

Analiza publicaciones en vivo en X para determinar la reacción pública ante noticias de última hora o lanzamientos de productos.

Auditoría de repositorios a gran escala

Evalúa repositorios de software completos usando el context window de 2M de tokens para encontrar fallos arquitectónicos.

Resolución de matemáticas de nivel olímpico

Proporciona soluciones paso a paso para pruebas matemáticas complejas y problemas de nivel AIME.

Contenido creativo sin filtros

Genera guiones y humor basados en personajes sin los filtros restrictivos de otros proveedores de AI.

Síntesis de investigación científica

Resume múltiples artículos académicos de nivel de doctorado simultáneamente manteniendo la precisión técnica.

Depuración técnica

Identifica errores oscuros en código de producción y sugiere correcciones basadas en las mejores prácticas actuales.

Fortalezas

Limitaciones

Reasoning matemático de élite: Logró un 100% perfecto en el benchmark AIME 2025, superando a la mayoría de los frontier models en lógica.
Latencia del modo Heavy: El modo de reasoning multi-agente puede tardar varios minutos en producir una respuesta única de alta precisión.
Contexto líder en la industria: El context window de 2M de tokens permite una profundidad sin precedentes en el análisis de documentos y proyectos de programación a gran escala.
Soporte de video incompleto: Aunque las capacidades de texto e imagen son de primer nivel, el procesamiento nativo de video frame a frame aún no está disponible.
Inteligencia social en vivo: El acceso directo a la plataforma X proporciona información en tiempo real que los datos de entrenamiento estáticos no pueden replicar.
Acceso regional restringido: Las funciones de memoria persistente están actualmente deshabilitadas en la Unión Europea debido a requisitos regulatorios.
Baja tasa de rechazo: Una arquitectura de seguridad más permisiva permite un diálogo honesto y objetivo sobre temas controvertidos.
Límites de precisión en visión: Los creadores reconocen que el modelo sigue estando parcialmente limitado al interpretar detalles visuales de altísima fidelidad.

Inicio rápido de API

xai/grok-4

Ver documentación
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Search X for the latest news on SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Grok-4

Mira lo que la comunidad piensa sobre Grok-4

¡¡¡Grok 4 fast tiene un context window de 2M de tokens!!! Ya no sé por qué hemos estado luchando y conformándonos con ChatGPT.
myfuturewifee
reddit
Un 15.88% en el subconjunto privado ARC-AGI v2 es una locura. Grok 4 es el primer modelo en romper esa barrera del 10% en meses.
Greg (Líder de ARC-AGI)
twitter
El enfoque de grupo de estudio multi-agente en Grok 4 Heavy es la forma correcta de usar el test-time compute. Realmente encuentra el truco del problema.
Tony_xAI
twitter
Grok 4: 79 en LiveCodeBench... los benchmarks no te dicen cómo se siente programar con un modelo, pero este se siente confiable.
thankzr3ddit
reddit
El modelo es de nivel posgrado, como de doctorado en todo. Es increíblemente inteligente y más rápido de lo que cualquier humano puede aprender.
Elon Musk
youtube
La búsqueda en tiempo real no es solo raspar titulares; es analizar contenido a través de múltiples fuentes.
BitBiasedAI
youtube

Videos sobre Grok-4

Mira tutoriales, reseñas y discusiones sobre Grok-4

Grok 4 heavy es para tareas más intensivas en lógica y reasoning, mientras que el Grok 4 normal maneja las otras.

Rastreo completamente mi mano y dedos con precisión para dibujar en la pantalla.

Grok 4 encontró la contraseña que escondí profundamente en el context window después de solo 15 segundos de pensamiento.

La precisión en la prueba de la aguja en el pajar con 2 millones de tokens fue del 100%.

Este modelo es finalmente una alternativa real para aquellos que encontraron el context window de Gemini poco fiable.

Grok 4 es de nivel posgrado, como de doctorado en todo, mejor que la mayoría de los doctores.

Grok 4 Heavy genera múltiples agentes en paralelo... es como un grupo de estudio.

Está en la API y tiene una longitud de contexto de 256k, con planes para mucho más.

El entrenamiento en el clúster Colossus le ha dado una capacidad de reasoning que no habíamos visto.

Está diseñado para ser la IA más centrada en la búsqueda de la verdad que existe actualmente.

Grok 4 Heavy ejecuta hasta 32 modelos de IA en paralelo por cada prompt tuyo.

La búsqueda en tiempo real no es solo raspar titulares; está analizando contenido a través de múltiples fuentes.

Think Mode dedica tiempo computacional adicional a planificar y detectar posibles errores antes de responder.

Puedes ver a los agentes debatiendo entre ellos en los registros si tienes acceso a la API.

El rendimiento multimodal con audio es notablemente más rápido que la generación anterior.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Grok-4

Consejos de expertos para ayudarte a sacar el máximo provecho de Grok-4.

Usa palabras clave de búsqueda

Incluye hashtags o cuentas específicas en tu prompt para dirigir la búsqueda en tiempo real de X del modelo.

Cambia al modo Heavy

Activa Grok-4 Heavy para tareas donde la precisión es más crítica que la velocidad de respuesta.

Proporciona personas detalladas

Aprovecha el alineamiento de seguridad permisivo definiendo personas específicas y provocadoras para la escritura creativa.

Analiza enlaces externos

Pega URLs en vivo directamente en el chat para que el modelo recupere y resuma contenido web actualizado.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre Grok-4

Encuentra respuestas a preguntas comunes sobre Grok-4