xai

Grok-4

Grok-4 от xAI — это frontier модель с context window 2M tokens, интеграцией с платформой X в реальном времени и рекордными возможностями reasoning.

xai logoxaiGrok9 июля 2025 г.
Контекст
2.0Mтокенов
Макс. вывод
8Kтокенов
Цена ввода
$3.00/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
87.5%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Grok-4 набрал 87.5% в этом бенчмарке.
HLE
44.4%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Grok-4 набрал 44.4% в этом бенчмарке.
MMLU
94%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Grok-4 набрал 94% в этом бенчмарке.
MMLU Pro
81.2%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Grok-4 набрал 81.2% в этом бенчмарке.
SimpleQA
48%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Grok-4 набрал 48% в этом бенчмарке.
IFEval
89.2%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Grok-4 набрал 89.2% в этом бенчмарке.
AIME 2025
100%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Grok-4 набрал 100% в этом бенчмарке.
MATH
92%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Grok-4 набрал 92% в этом бенчмарке.
GSM8k
98.4%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Grok-4 набрал 98.4% в этом бенчмарке.
MGSM
92.1%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Grok-4 набрал 92.1% в этом бенчмарке.
MathVista
72.4%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Grok-4 набрал 72.4% в этом бенчмарке.
SWE-Bench
81%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Grok-4 набрал 81% в этом бенчмарке.
HumanEval
88%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Grok-4 набрал 88% в этом бенчмарке.
LiveCodeBench
79.4%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Grok-4 набрал 79.4% в этом бенчмарке.
MMMU
75%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Grok-4 набрал 75% в этом бенчмарке.
MMMU Pro
59.2%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Grok-4 набрал 59.2% в этом бенчмарке.
ChartQA
90.5%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Grok-4 набрал 90.5% в этом бенчмарке.
DocVQA
93.2%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Grok-4 набрал 93.2% в этом бенчмарке.
Terminal-Bench
54.2%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Grok-4 набрал 54.2% в этом бенчмарке.
ARC-AGI
15.9%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Grok-4 набрал 15.9% в этом бенчмарке.

О модели Grok-4

Узнайте о возможностях, функциях и способах использования Grok-4.

Обзор модели

Grok-4, это frontier multimodal модель от xAI. Она создана с приоритетом reasoning на основе фундаментальных принципов и получения информации в реальном времени. Модель получает значительное конкурентное преимущество благодаря нативной интеграции с социальной платформой X, что позволяет анализировать глобальные обсуждения и новости по мере их появления. Обучение модели проводилось на суперкомпьютере Colossus, что обеспечило высочайшую производительность в математических и технических областях.

Технические возможности

Архитектура поддерживает context window в 2 миллиона tokens в вариантах, оптимизированных для reasoning. Такая емкость позволяет обрабатывать огромные кодовые базы и плотную техническую документацию без потери данных. Модель использует систему двойного режима, где пользователи выбирают между высокоскоростным режимом для быстрых взаимодействий и режимом глубокого мышления для многошаговых логических задач. Уровень галлюцинаций поддерживается на отметке около 4% благодаря использованию механизма мультиагентного консенсуса в конфигурации Heavy.

Интеграция с экосистемой

Помимо простой генерации текста, Grok-4 разработан для нативного использования инструментов и сложного function calling. Он поддерживает обработку изображений и аудио, что делает модель универсальным выбором для разработчиков, создающих multimodal приложения. Стратегия безопасности модели сфокусирована на объективном поиске истины, а не на стандартных отраслевых ограничениях. Это приводит к меньшему количеству отказов при обсуждении спорных тем по сравнению с другими frontier моделями.

Grok-4

Варианты использования Grok-4

Откройте для себя различные способы использования Grok-4 для достижения отличных результатов.

Анализ тональности в реальном времени

Анализирует свежие посты на X, чтобы определить общественную реакцию на важные новости или запуск продуктов.

Аудит крупных репозиториев

Оценивает целые репозитории ПО, используя окно в 2M tokens для поиска архитектурных изъянов.

Решение математических задач олимпиадного уровня

Предоставляет пошаговые решения сложных математических доказательств и задач уровня AIME.

Нефильтрованный креативный контент

Генерирует сценарии и юмористические тексты без ограничительных фильтров, свойственных другим AI-провайдерам.

Синтез научных исследований

Одновременно резюмирует несколько академических работ уровня PhD, сохраняя техническую точность.

Техническая отладка

Выявляет скрытые ошибки в производственном коде и предлагает исправления, основываясь на актуальных best practices.

Преимущества

Ограничения

Выдающийся математический reasoning: Достиг идеального результата 100% на benchmark AIME 2025, превосходя большинство frontier моделей в логике.
Latency в Heavy Mode: Режим мультиагентного reasoning может потребовать несколько минут для генерации ответа высокой точности.
Ведущий в индустрии context window: Окно в 2M tokens обеспечивает беспрецедентную глубину анализа документов и масштабных проектов разработки.
Неполная поддержка видео: Хотя работа с текстом и изображениями на высшем уровне, встроенная покадровая обработка видео пока недоступна.
Живой анализ социальных данных: Прямой доступ к платформе X предоставляет информацию в реальном времени, которую не могут воспроизвести статические тренировочные данные.
Ограниченный доступ по регионам: Функции постоянной памяти в настоящее время отключены в Европейском Союзе из-за регуляторных требований.
Низкий уровень отказов: Более гибкая архитектура безопасности позволяет вести честный и объективный диалог по спорным вопросам.
Ограничения точности зрения: Разработчики признают, что модель все еще частично «слепа» при интерпретации визуальных деталей сверхвысокой четкости.

Быстрый старт API

xai/grok-4

Посмотреть документацию
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Search X for the latest news on SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Grok-4

Посмотрите, что думает сообщество о Grok-4

У Grok 4 fast есть окно в 2M tokens!!! Почему мы мучились и довольствовались ChatGPT, я уже не знаю.
myfuturewifee
reddit
15.88% на приватной подвыборке ARC-AGI v2, это безумие. Grok 4, первая модель, пробившая этот барьер в 10% за многие месяцы.
Greg (ARC-AGI Lead)
twitter
Мультиагентный подход в Grok 4 Heavy, это правильный способ использования test-time compute. Модель действительно находит ключ к решению задачи.
Tony_xAI
twitter
Grok 4: 79 на LiveCodeBench... benchmarks не передают ощущений от написания кода с моделью, но эта ощущается надежной.
thankzr3ddit
reddit
Модель находится на уровне PhD во всем. Она пугающе умна и учится быстрее, чем любой человек.
Elon Musk
youtube
Поиск в реальном времени, это не просто парсинг заголовков; он анализирует контент из множества источников.
BitBiasedAI
youtube

Видео о Grok-4

Смотрите обучающие материалы, обзоры и обсуждения о Grok-4

Grok 4 Heavy предназначен для более сложных задач логики и reasoning, в то время как обычный Grok 4 справляется с остальными.

Модель абсолютно точно отследила мою руку и пальцы для рисования на экране.

Grok 4 нашел пароль, спрятанный глубоко в context window, всего за 15 секунд размышлений.

Точность на тесте 'иголка в стоге сена' (2 млн tokens) составила 100%.

Эта модель наконец стала реальной альтернативой для тех, кто нашел context window Gemini ненадежным.

Grok 4 находится на уровне PhD во всем, лучше, чем большинство обладателей степени PhD.

Grok 4 Heavy запускает несколько агентов параллельно... это как учебная группа.

Модель доступна в API и имеет размер контекста 256k с планами на значительное расширение.

Обучение на кластере Colossus наделило ее способностью к reasoning, которую мы еще не видели.

Она создана как самый ориентированный на поиск истины AI из существующих.

Grok 4 Heavy запускает до 32 параллельных AI-моделей на ваш запрос.

Поиск в реальном времени, это не просто парсинг заголовков; он анализирует контент из множества источников.

Think Mode тратит дополнительное вычислительное время на планирование и исправление ошибок перед ответом.

Если у вас есть доступ к API, вы можете буквально видеть, как агенты спорят друг с другом в логах.

Мультимодальная производительность при работе с аудио заметно быстрее, чем у предыдущего поколения.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Grok-4

Экспертные советы для максимальной эффективности Grok-4.

Используйте поисковые ключевые слова

Добавляйте специфические хештеги или аккаунты в ваш prompt, чтобы направить поиск модели в реальном времени на X.

Переключайтесь на Heavy Mode

Активируйте Grok-4 Heavy для задач, где точность важнее скорости ответа.

Задавайте детальные персоны

Используйте менее строгие настройки безопасности, определяя специфические, «острые» персоны для творческого письма.

Анализируйте внешние ссылки

Вставляйте активные URL прямо в чат, чтобы модель могла извлечь и кратко изложить свежий веб-контент.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Часто задаваемые вопросы о Grok-4

Найдите ответы на частые вопросы о Grok-4