xai

Grok-3

Grok-3 es el modelo de reasoning flagship de xAI, con deducción lógica profunda, un context window de 128k y una integración en tiempo real con X para...

xai logoxaiGrok17 de febrero de 2025
Contexto
128Ktokens
Salida máx.
8Ktokens
Precio entrada
$3.00/ 1M
Precio salida
$15.00/ 1M
Modalidad:TextImage
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
84.6%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Grok-3 obtuvo 84.6% en este benchmark.
HLE
36%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Grok-3 obtuvo 36% en este benchmark.
MMLU
87.5%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Grok-3 obtuvo 87.5% en este benchmark.
MMLU Pro
76.5%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Grok-3 obtuvo 76.5% en este benchmark.
SimpleQA
42%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Grok-3 obtuvo 42% en este benchmark.
IFEval
91.2%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Grok-3 obtuvo 91.2% en este benchmark.
AIME 2025
93.3%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Grok-3 obtuvo 93.3% en este benchmark.
MATH
94.4%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Grok-3 obtuvo 94.4% en este benchmark.
GSM8k
98.7%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Grok-3 obtuvo 98.7% en este benchmark.
MGSM
92.4%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Grok-3 obtuvo 92.4% en este benchmark.
MathVista
71.3%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Grok-3 obtuvo 71.3% en este benchmark.
SWE-Bench
49%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Grok-3 obtuvo 49% en este benchmark.
HumanEval
94.5%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Grok-3 obtuvo 94.5% en este benchmark.
LiveCodeBench
79.4%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Grok-3 obtuvo 79.4% en este benchmark.
MMMU
78%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Grok-3 obtuvo 78% en este benchmark.
MMMU Pro
58.5%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Grok-3 obtuvo 58.5% en este benchmark.
ChartQA
89.2%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Grok-3 obtuvo 89.2% en este benchmark.
DocVQA
92.4%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Grok-3 obtuvo 92.4% en este benchmark.
Terminal-Bench
52%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Grok-3 obtuvo 52% en este benchmark.
ARC-AGI
12.5%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Grok-3 obtuvo 12.5% en este benchmark.

Acerca de Grok-3

Conoce las capacidades, características y formas de uso de Grok-3.

Reasoning e inteligencia de frontera

Grok-3 es el modelo flagship de frontera de xAI, representando un salto significativo en escala computacional y lógica. Entrenado en el superordenador Colossus con más de 100,000 GPUs NVIDIA H100, maneja desafíos matemáticos y científicos complejos. El modelo cuenta con un modo de reasoning especializado que utiliza cómputo adicional para verificar su propia lógica antes de ofrecer una respuesta final.

Integración de conocimiento en tiempo real

Un diferenciador principal es su integración nativa con la plataforma X. Esto permite que Grok-3 acceda a noticias de última hora, cambios financieros y tendencias globales con una latencia menor que los modelos que dependen del rastreo web estándar. Combinado con un context window de 1 millón de tokens, permite a los investigadores sintetizar cantidades masivas de datos actualizados al minuto.

Capacidades multimodales y agentic

Más allá del texto, Grok-3 es un potente modelo de visión capaz de interpretar diagramas técnicos, planos y datos visuales. Admite llamadas a funciones avanzadas para su uso en agentes autónomos. Con una puntuación del 83.9% en SWE-Bench Verified, es uno de los modelos más capaces para resolver problemas de ingeniería de software del mundo real.

Grok-3

Casos de uso de Grok-3

Descubre las diferentes formas de usar Grok-3 para lograr excelentes resultados.

Análisis de mercado en tiempo real

Utiliza datos en vivo de X para analizar el sentimiento financiero y las noticias de última hora para inversores.

Investigación científica de nivel doctorado

Resuelve problemas de STEM de nivel graduado y analiza literatura densa utilizando modos de reasoning.

Ingeniería de software competitiva

Genera código de calidad de producción y resuelve issues de GitHub con alta precisión.

Pruebas matemáticas complejas

Utiliza cómputo en tiempo de inferencia para resolver problemas de nivel olímpico que requieren deducción en múltiples pasos.

Interpretación de documentos técnicos

Analiza planos y manuales técnicos a través de su sistema de visión multimodal.

Lógica de agentes autónomos

Sirve como núcleo cognitivo para agentes que requieren planificación de alta fidelidad y uso de herramientas.

Fortalezas

Limitaciones

Reasoning de nivel olímpico: Obtuvo una puntuación perfecta del 100% en el benchmark de matemáticas AIME 2025 utilizando su modo Deep Thinking.
Alta huella ambiental: El entrenamiento requirió 200,000 GPUs y consume aproximadamente 150MW de potencia, lo que plantea problemas de sostenibilidad.
Capacidad de contexto masiva: Ofrece un context window de 1 millón de tokens, lo que permite la ingesta de bibliotecas enteras o proyectos de software.
Precio premium de API: A $15 por millón de tokens de salida, es significativamente más caro que otras alternativas frontier más pequeñas.
Datos en tiempo real inigualables: La integración directa con X proporciona el flujo de datos más reciente de cualquier modelo de IA disponible actualmente.
Límites de tokens de salida: Las respuestas generalmente están limitadas a 4,096 tokens, lo que puede truncar informes o archivos de código extremadamente largos.
Alta precisión en programación: Obtuvo un 83.9% en SWE-Bench Verified, superando a competidores importantes en la resolución de issues complejos de GitHub.
Restricciones de acceso: Las capacidades completas del modelo y las API keys a menudo están restringidas a suscriptores de X Premium Plus o regiones específicas.

Inicio rápido de API

xai/grok-3

Ver documentación
xai SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "grok-3",
    messages: [{ role: "user", content: "Analyze the current market sentiment for Nvidia on X." }],
  });

  console.log(completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Grok-3

Mira lo que la comunidad piensa sobre Grok-3

Grok-3 [es] el mejor modelo de IA para traders e inversores debido a su análisis de sentimiento en tiempo real.
Austin Starks
reddit
Logró resolver algunos prompts complejos de completado de código HVM en los que fallaron Gemini y Sonnet. Siento un nivel de 'calidad' superior al de Sonnet-3.5.
Victor Taelin
twitter
La velocidad es increíble. El reasoning, la información en tiempo real, simplemente parece el modelo flagship más rápido que existe ahora mismo.
Matthew Berman
youtube
Grok tiene acceso a datos en tiempo real y la disposición para explorar áreas donde otros modelos no llegan, convirtiéndolo en la opción 'atrevida' para usuarios avanzados.
Beginning-Willow-801
reddit
El rendimiento de Grok-3 en GPQA es notable. Definitivamente está compitiendo por el primer lugar en reasoning.
EpochAIResearch
twitter
El context window de 1M realmente funciona. Manejó todo mi código base heredado sin perder el hilo en los prompts iniciales.
DevGuru42
hackernews

Videos sobre Grok-3

Mira tutoriales, reseñas y discusiones sobre Grok-3

Introducción a Grok-3 y su escala de entrenamiento.

El modelo está diseñado para la inteligencia y la búsqueda de la verdad.

El reasoning de Grok 3... parece estar superando tanto al modelo 01 de OpenAI como al R1 de DeepSeek en benchmarks científicos.

El rendimiento en el benchmark MMLU muestra que es un modelo de primer nivel.

Grok 3 también intentará resolver problemas no resueltos... mientras que otros modelos simplemente declararán que no tienen solución.

Elon Musk afirma que esta es la IA más poderosa hasta la fecha.

Grok 3 ha reclamado el primer puesto en esta prueba ciega, convirtiéndose en el campeón actual del Chatbot Arena.

La integración con X proporciona una ventaja distintiva en actualidad.

Las capacidades multimodales han mejorado significativamente respecto a Grok-2.

La versión más potente de Grok y la última versión será la versión web en grok.com.

Explorando la arquitectura técnica del clúster Colossus.

Discusión sobre el entrenamiento masivo con 100,000 GPUs H100.

Big brain es una característica verdaderamente única de Grok 3... permite a los usuarios utilizar múltiples agentes de reasoning para resolver problemas complejos.

El desarrollo de Grok 3 fue acelerado por el superordenador Colossus de X, que utilizó 100,000 GPUs Nvidia H100 en la Fase 1.

Reflexiones finales sobre por qué Grok-3 es un gran paso adelante para la transparencia al estilo de los modelos de pesos abiertos.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Grok-3

Consejos de expertos para ayudarte a sacar el máximo provecho de Grok-3.

Aprovecha la búsqueda profunda

Utiliza la búsqueda profunda para consultas sobre noticias de la última hora y obtener los resultados más precisos.

Habilita el nivel alto de reasoning

Especifica un nivel de esfuerzo de reasoning alto para acertijos matemáticos y activar los pasos de autoverificación.

Utiliza la Collections API

Sube documentos confidenciales a la Collections API para mantener tus datos fuera de los ciclos de entrenamiento.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Preguntas Frecuentes Sobre Grok-3

Encuentra respuestas a preguntas comunes sobre Grok-3