xai

Grok-4

Grok-4 от xAI — это frontier model с context window в 2M tokens, интеграцией с платформой X в реальном времени и мировыми рекордами в области reasoning.

xai logoxaiGrok9 июля 2025 г.
Контекст
2.0Mтокенов
Макс. вывод
8Kтокенов
Цена ввода
$3.00/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
87.5%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Grok-4 набрал 87.5% в этом бенчмарке.
HLE
44.4%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Grok-4 набрал 44.4% в этом бенчмарке.
MMLU
94%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Grok-4 набрал 94% в этом бенчмарке.
MMLU Pro
81.2%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Grok-4 набрал 81.2% в этом бенчмарке.
SimpleQA
48%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Grok-4 набрал 48% в этом бенчмарке.
IFEval
89.2%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Grok-4 набрал 89.2% в этом бенчмарке.
AIME 2025
100%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Grok-4 набрал 100% в этом бенчмарке.
MATH
92%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Grok-4 набрал 92% в этом бенчмарке.
GSM8k
98.4%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Grok-4 набрал 98.4% в этом бенчмарке.
MGSM
92.1%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Grok-4 набрал 92.1% в этом бенчмарке.
MathVista
72.4%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Grok-4 набрал 72.4% в этом бенчмарке.
SWE-Bench
81%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Grok-4 набрал 81% в этом бенчмарке.
HumanEval
88%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Grok-4 набрал 88% в этом бенчмарке.
LiveCodeBench
79.4%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Grok-4 набрал 79.4% в этом бенчмарке.
MMMU
75%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Grok-4 набрал 75% в этом бенчмарке.
MMMU Pro
59.2%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Grok-4 набрал 59.2% в этом бенчмарке.
ChartQA
90.5%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Grok-4 набрал 90.5% в этом бенчмарке.
DocVQA
93.2%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Grok-4 набрал 93.2% в этом бенчмарке.
Terminal-Bench
54.2%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Grok-4 набрал 54.2% в этом бенчмарке.
ARC-AGI
15.9%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Grok-4 набрал 15.9% в этом бенчмарке.

О модели Grok-4

Узнайте о возможностях, функциях и способах использования Grok-4.

Обзор

Grok-4 — это новейшая frontier AI model от xAI, разработанная как помощник в поиске истины с доступом к платформе X в реальном времени. Построенная на суперкомпьютерном кластере Colossus с более чем 200 000 GPU, она представляет собой огромный скачок в reasoning, решении математических задач и возможностях кодинга. Она имеет унифицированную двухрежимную архитектуру, позволяющую пользователям переключаться между режимом глубокого мышления (reasoning) для сложных головоломок и высокоскоростным режимом для мгновенных ответов.

Технические инновации

Этот поколенческий скачок в вычислительных мощностях обеспечил производительность уровня PhD во всех академических дисциплинах одновременно. Model уникальна своей стратегией настройки (alignment) «anti-woke», отдающей приоритет объективной информации над стандартными фильтрами безопасности. Ее массивный context window в 2 миллиона tokens и интеграция в экосистему Маска, включая X и автомобили Tesla, создают уникальное конкурентное преимущество. Хотя она превосходит конкурентов в STEM и техническом reasoning, она остается высокоэффективной для повседневных творческих задач и анализа новостей в реальном времени.

Философия производительности

Grok-4 отдает приоритет мышлению на основе первых принципов и синтезу объективных данных. Используя движок reasoning Quasarflux, она может выстраивать многошаговые логические цепочки, которые обычно сбивают с толку традиционные LLM. Это делает ее незаменимым инструментом для разработчиков и исследователей, которым требуются высокоточные результаты в критических условиях, где фактическая точность не подлежит обсуждению.

Grok-4

Варианты использования Grok-4

Откройте для себя различные способы использования Grok-4 для достижения отличных результатов.

Исследования STEM уровня магистратуры

Использование режима Thinking для решения задач по физике уровня PhD и проверки сложных математических доказательств.

Отладка массивных репозиториев

Использование context window в 2M для анализа целых кодовых баз и выявления трудноуловимых состояний гонки.

Финансовая аналитика в реальном времени

Мониторинг потока данных X для анализа рыночных настроений и срочных новостей для получения торговых идей.

Рабочие процессы автономных agent

Обеспечение сложных agentic задач через надежный function calling для логистики и автоматизации.

Мультимодальный юридический анализ

Проверка тысяч страниц документов в ходе досудебного производства с одновременным анализом отсканированных вещественных доказательств.

Продвинутое академическое репетиторство

Предоставление персонализированного обучения STEM-предметам на основе первых принципов, адаптированного под прогресс студента.

Преимущества

Ограничения

Непревзойденная математика и логика: Достигнут мировой рекорд в 100% на AIME 2025, что делает его лучшим выбором для технических задач.
Нестабильная базовая логика: Несмотря на блестящую сдачу экзаменов уровня магистратуры, model может иногда ошибаться в тривиальных задачах, таких как подсчет букв в слове.
Лидирующий на рынке контекст: Окно в 2 миллиона tokens позволяет анализировать примерно 1500 страниц текста в одном prompt.
Высокий порог входа: Доступ к полной мощности Grok-4 Heavy и возможностям reasoning требует премиум-подписки.
Поток данных в реальном времени: Эксклюзивный доступ к потоку данных платформы X в реальном времени гарантирует актуальность ответов о мировых событиях.
Пробелы в креативных нюансах: Он отстает от Claude 4.5 в художественном повествовании, часто придерживаясь более утилитарного или резкого тона.
Эмоциональный интеллект: Высокие результаты в EQ-Bench3 указывают на превосходную способность понимать нюансы человеческих эмоций.
Согласованность генерации изображений: Внутренние инструменты с трудом поддерживают визуальное единообразие на нескольких кадрах.

Быстрый старт API

xai/grok-4

Посмотреть документацию
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Grok-4

Посмотрите, что думает сообщество о Grok-4

"Grok 4 официально обходит конкурентов... доказывая, что xAI создала model, которая думает как хищник."
Mario Nawfal
x/twitter
"Grok 4 — это гений уровня PhD, сокрушающий benchmark, который иногда не умеет считать. Эта дуальность поражает."
Beginning-Willow-801
reddit
"Скачок до 2 миллионов tokens — это не просто маркетинговый ход; это фундаментально меняет процесс отладки репозиториев."
AI Tech Reviews
youtube
"Grok 4 — однозначно лучшая model с точки зрения общего понимания, далеко впереди GPT-5."
YMist_
reddit
"Использование резко возрастет с Grok 4.20. Она выйдет через 3 или 4 недели."
Elon Musk
x/twitter
"Интеграция с X в реальном времени — единственное, что позволяет моим исследованиям оставаться актуальными в этом новостном цикле."
DataScientist_Alpha
hackernews

Видео о Grok-4

Смотрите обучающие материалы, обзоры и обсуждения о Grok-4

Количество слов в этом ответе ровно 43... Очень впечатляет.

Он не только смог решить задачу 'Ханойская башня' в своем chain-of-thought, но и фактически доказал это и визуализировал с помощью кода.

Мне нравится этот ответ. Четко и по делу. Никаких прикрас.

Способности к reasoning здесь явно на ступень выше того, что мы видели в предыдущем поколении.

Наконец-то появилась model, которая не скрывает правду ради вежливости.

Экспериментальный переключатель мышления для Grok был недавно удален... что привело к характеристике его как потенциально устаревшего.

Grok OS впечатлила меньше всего: простой белый фон и неработающие иконки.

Что касается извлечения чистых знаний, Grok-4 стабильно попадает в цель там, где GPT-5 промахивается.

Latency в режиме reasoning выше, но качество вывода оправдывает ожидание.

Если вы находитесь в экосистеме Маска, эта интеграция станет мощным множителем продуктивности.

Никому не нужна супербыстрая model, если она не может справиться с логикой. Говорю вам как есть, ребята.

Я бы поставил минус один из 10... Полный мусор. Не может построить даже простой сайт на Next.js.

Скорость есть, но если логика хромает, какой толк в tokens в секунду?

Похоже, они поспешили с вариантом для кодинга, чтобы успеть к циклу релиза.

Придерживайтесь стандартной reasoning model, если вам действительно нужно что-то рабочее.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы
Смотреть демо

Советы для Grok-4

Экспертные советы для максимальной эффективности Grok-4.

Переключение режимов

Используйте режим Quasarflux для сложной логики и режим Tensor для скорости, чтобы оптимизировать стоимость и производительность.

Запросы в реальном времени

Явно указывайте в prompt трендовые темы в X, чтобы задействовать поток живых данных и обойти ограничения даты обучения.

Фокус на STEM

Отдавайте приоритет Grok для математики уровня магистратуры и выше, где он значительно превосходит конкурентов в задачах zero-shot.

Проверяйте базовую логику

Перепроверяйте простой подсчет или сортировку списков, так как model может быть непоследовательной в тривиальных задачах.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

Часто задаваемые вопросы о Grok-4

Найдите ответы на частые вопросы о Grok-4