xai

Grok-4

Grok-4 de xAI es un frontier model que cuenta con un context window de 2M de tokens, integración en tiempo real con la plataforma X y capacidades de...

xai logoxaiGrok9 de julio de 2025
Contexto
2.0Mtokens
Salida máx.
8Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
87.5%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Grok-4 obtuvo 87.5% en este benchmark.
HLE
44.4%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Grok-4 obtuvo 44.4% en este benchmark.
MMLU
94%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Grok-4 obtuvo 94% en este benchmark.
MMLU Pro
81.2%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Grok-4 obtuvo 81.2% en este benchmark.
SimpleQA
48%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Grok-4 obtuvo 48% en este benchmark.
IFEval
89.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Grok-4 obtuvo 89.2% en este benchmark.
AIME 2025
100%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Grok-4 obtuvo 100% en este benchmark.
MATH
92%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Grok-4 obtuvo 92% en este benchmark.
GSM8k
98.4%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Grok-4 obtuvo 98.4% en este benchmark.
MGSM
92.1%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Grok-4 obtuvo 92.1% en este benchmark.
MathVista
72.4%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Grok-4 obtuvo 72.4% en este benchmark.
SWE-Bench
81%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Grok-4 obtuvo 81% en este benchmark.
HumanEval
88%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Grok-4 obtuvo 88% en este benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Grok-4 obtuvo 79.4% en este benchmark.
MMMU
75%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Grok-4 obtuvo 75% en este benchmark.
MMMU Pro
59.2%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Grok-4 obtuvo 59.2% en este benchmark.
ChartQA
90.5%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Grok-4 obtuvo 90.5% en este benchmark.
DocVQA
93.2%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Grok-4 obtuvo 93.2% en este benchmark.
Terminal-Bench
54.2%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Grok-4 obtuvo 54.2% en este benchmark.
ARC-AGI
15.9%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Grok-4 obtuvo 15.9% en este benchmark.

Acerca de Grok-4

Conoce las capacidades, características y formas de uso de Grok-4.

Descripción General

Grok-4 es el último frontier model de xAI, diseñado para ser un asistente que busca la verdad con acceso en tiempo real a la plataforma X. Construido sobre el clúster de supercomputación Colossus con más de 200,000 GPUs, representa un salto masivo en capacidades de reasoning, resolución de problemas matemáticos y programación. Cuenta con una arquitectura de modo dual unificada, que permite a los usuarios alternar entre un modo de reasoning de pensamiento profundo para acertijos complejos y un modo de alta velocidad para respuestas inmediatas.

Innovaciones Técnicas

Este salto generacional en cómputo ha permitido un rendimiento de nivel de doctorado en todas las disciplinas académicas simultáneamente. El model se caracteriza de manera única por su estrategia de alineación anti-woke, priorizando la información objetiva sobre las barandillas de seguridad estándar. Su enorme context window de 2 millones de tokens y su integración en el ecosistema Musk, incluyendo X y los vehículos Tesla, proporcionan una ventaja competitiva distintiva. Aunque destaca en STEM y reasoning técnico, sigue siendo altamente eficiente para tareas creativas cotidianas y análisis de noticias en tiempo real.

Filosofía de Rendimiento

Grok-4 prioriza el pensamiento basado en primeros principios y la síntesis de datos objetivos. Al utilizar el motor de reasoning Quasarflux, puede navegar por cadenas lógicas de múltiples pasos que típicamente descarrilan a los LLM tradicionales. Esto lo convierte en una herramienta esencial para desarrolladores e investigadores que requieren resultados de alta fidelidad en entornos críticos donde la precisión de los hechos no es negociable.

Grok-4

Casos de uso de Grok-4

Descubre las diferentes formas de usar Grok-4 para lograr excelentes resultados.

Investigación STEM de nivel de posgrado

Uso del modo de pensamiento para resolver problemas de física de nivel de doctorado y verificar pruebas matemáticas complejas.

Depuración de repositorios masivos

Aprovechamiento del context window de 2M para ingerir codebases completos e identificar condiciones de carrera sutiles.

Inteligencia financiera en tiempo real

Monitoreo del Firehose de X para analizar el sentimiento del mercado y noticias de última hora para obtener insights de trading.

Workflows de agentes autónomos

Impulso de tareas de tipo agentic complejas mediante un robusto function calling para logística y automatización.

Análisis legal multimodal

Revisión de miles de páginas de documentos de descubrimiento mientras se analizan fotos de pruebas escaneadas.

Tutoría académica avanzada

Provisión de tutoría personalizada basada en primeros principios en materias STEM, adaptada al progreso del estudiante.

Fortalezas

Limitaciones

Matemáticas y lógica inigualables: Logró una puntuación récord mundial del 100% en el AIME 2025, convirtiéndose en la opción preferida para tareas técnicas.
Lógica básica irregular: A pesar de dominar exámenes de posgrado, el model puede fallar ocasionalmente en tareas triviales como contar letras en una palabra.
Contexto líder en el mercado: El context window de 2 millones de tokens permite el análisis de aproximadamente 1,500 páginas de texto en un solo prompt.
Alta barrera de entrada: El acceso al model Grok-4 Heavy a plena potencia y a sus capacidades de reasoning requiere una suscripción premium.
Pipeline de datos en vivo: El acceso exclusivo al flujo de datos en tiempo real de la plataforma X garantiza que las respuestas estén actualizadas sobre eventos globales.
Brechas en matices creativos: Se queda atrás de Claude 4.5 en narrativa creativa, adoptando a menudo un tono más utilitario o mordaz.
Inteligencia emocional: Su alto rendimiento en EQ-Bench3 indica una capacidad superior para comprender emociones humanas matizadas.
Consistencia en generación de imágenes: Las herramientas internas tienen dificultades para mantener la consistencia visual a través de múltiples paneles.

Inicio rápido de API

xai/grok-4

Ver documentación
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Grok-4

Mira lo que la comunidad piensa sobre Grok-4

"Grok 4 está dando oficialmente una lección a la competencia... demostrando que xAI ha construido un model que piensa como un depredador."
Mario Nawfal
x/twitter
"Grok 4 es un genio de nivel doctorado que arrasa en los benchmarks, pero que ocasionalmente no sabe contar. La dualidad es una locura."
Beginning-Willow-801
reddit
"El salto a 2 millones de tokens no es solo un truco publicitario; cambia fundamentalmente la depuración de repositorios."
AI Tech Reviews
youtube
"Grok 4 es claramente el mejor model en términos de comprensión general, muy por delante de GPT-5."
YMist_
reddit
"El uso se disparará con Grok 4.20. Saldrá en 3 o 4 semanas."
Elon Musk
x/twitter
"La integración de X en tiempo real es lo único que mantiene mi investigación relevante en este ciclo de noticias."
DataScientist_Alpha
hackernews

Videos sobre Grok-4

Mira tutoriales, reseñas y discusiones sobre Grok-4

El número de palabras en esta respuesta es exactamente 43... Súper impresionante.

No solo fue capaz de resolver la Torre de Hanói en su chain-of-thought, sino que realmente lo demostró y lo visualizó con código.

Me encanta esta respuesta. Al grano, directa. Sin adornos de ningún tipo.

Las capacidades de reasoning aquí están claramente un paso por encima de lo que vimos en la generación anterior.

Finalmente es un model que no parece estar guardándose la verdad para ser educado.

El interruptor experimental de pensamiento para Grok fue eliminado recientemente... lo que lleva a caracterizarlo como potencialmente anticuado.

Grok OS fue lo menos impresionante, con un fondo blanco básico e iconos rotos.

En términos de recuperación de conocimiento puro, Grok-4 acierta constantemente donde GPT-5 falla.

La latency en el modo reasoning es mayor, pero la calidad del resultado justifica la espera.

Si estás en el ecosistema de Musk, la integración aquí es un multiplicador de productividad masivo.

Nadie quiere un model súper rápido si no puede resolver la lógica. Se los digo gratis, muchachos.

Le daría un menos uno de 10... Basura total. Ni siquiera puede construir un sitio web sencillo en Next.js.

La velocidad está ahí, pero si la lógica está rota, ¿cuál es el sentido de los tokens por segundo?

Parece que apresuraron la variante para programadores solo para cumplir con el ciclo de lanzamiento.

Quédense con el model de reasoning estándar si realmente quieren algo que funcione.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro para Grok-4

Consejos de expertos para ayudarte a sacar el máximo provecho de Grok-4.

Cambio de modo

Utiliza el modo Quasarflux para lógica compleja y el modo Tensor para velocidad, optimizando así el costo y el rendimiento.

Consultas en tiempo real

Realiza prompts explícitos sobre temas de tendencia en X para aprovechar el pipeline de datos en vivo y evitar los límites de fecha de entrenamiento.

Enfoque en STEM

Prioriza a Grok para matemáticas de nivel de posgrado, donde supera significativamente a sus competidores en tareas zero-shot.

Verificar lógica básica

Revisa tareas simples de conteo u orden de listas, ya que el model puede ser inconsistente en tareas triviales.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre Grok-4

Encuentra respuestas a preguntas comunes sobre Grok-4