xai

Grok-3

Grok-3 — это флагманская reasoning модель от xAI, обладающая глубокой логикой, контекстом 128k и интеграцией с X в реальном времени для исследований и...

xai logoxaiGrok17 февраля 2025 г.
Контекст
128Kтокенов
Макс. вывод
8Kтокенов
Цена ввода
$3.00/ 1M
Цена вывода
$15.00/ 1M
Модальность:TextImage
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
84.6%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Grok-3 набрал 84.6% в этом бенчмарке.
HLE
36%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Grok-3 набрал 36% в этом бенчмарке.
MMLU
87.5%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Grok-3 набрал 87.5% в этом бенчмарке.
MMLU Pro
76.5%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Grok-3 набрал 76.5% в этом бенчмарке.
SimpleQA
42%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Grok-3 набрал 42% в этом бенчмарке.
IFEval
91.2%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Grok-3 набрал 91.2% в этом бенчмарке.
AIME 2025
93.3%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Grok-3 набрал 93.3% в этом бенчмарке.
MATH
94.4%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Grok-3 набрал 94.4% в этом бенчмарке.
GSM8k
98.7%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Grok-3 набрал 98.7% в этом бенчмарке.
MGSM
92.4%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Grok-3 набрал 92.4% в этом бенчмарке.
MathVista
71.3%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Grok-3 набрал 71.3% в этом бенчмарке.
SWE-Bench
49%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Grok-3 набрал 49% в этом бенчмарке.
HumanEval
94.5%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Grok-3 набрал 94.5% в этом бенчмарке.
LiveCodeBench
79.4%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Grok-3 набрал 79.4% в этом бенчмарке.
MMMU
78%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Grok-3 набрал 78% в этом бенчмарке.
MMMU Pro
58.5%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Grok-3 набрал 58.5% в этом бенчмарке.
ChartQA
89.2%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Grok-3 набрал 89.2% в этом бенчмарке.
DocVQA
92.4%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Grok-3 набрал 92.4% в этом бенчмарке.
Terminal-Bench
52%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Grok-3 набрал 52% в этом бенчмарке.
ARC-AGI
12.5%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Grok-3 набрал 12.5% в этом бенчмарке.

О модели Grok-3

Узнайте о возможностях, функциях и способах использования Grok-3.

Frontier reasoning и интеллект

Grok-3, это флагманская frontier модель от xAI, представляющая собой значительный скачок в вычислительных масштабах и логике. Обученная на кластере суперкомпьютера Colossus с более чем 100 000 GPU NVIDIA H100, она справляется со сложными математическими и научными задачами. В модель встроен специализированный режим reasoning, который задействует дополнительные вычислительные ресурсы для проверки собственной логики перед предоставлением окончательного ответа.

Интеграция знаний в реальном времени

Ключевым отличительным фактором является нативная интеграция с платформой X. Это позволяет Grok-3 получать доступ к срочным новостям, финансовым изменениям и глобальным трендам с меньшей latency, чем у моделей, полагающихся на стандартное веб-сканирование. В сочетании с context window в 1 миллион tokens, это дает исследователям возможность синтезировать огромные объемы самой актуальной информации.

Multimodal и агентные возможности

Помимо текста, Grok-3 является мощной vision моделью, способной интерпретировать технические диаграммы, чертежи и визуальные данные. Она поддерживает продвинутый вызов функций (function calling) для использования в автономных агентах. С результатом 83.9% на SWE-Bench Verified, модель является одной из самых способных систем для решения практических задач в области разработки программного обеспечения.

Grok-3

Варианты использования Grok-3

Откройте для себя различные способы использования Grok-3 для достижения отличных результатов.

Анализ рынка в реальном времени

Использует актуальные данные из X для анализа финансовых настроений и срочных новостей для инвесторов.

Научные исследования уровня PhD

Решает задачи по STEM на уровне магистратуры и анализирует сложную литературу с использованием режимов reasoning.

Профессиональная разработка ПО

Генерирует готовый к продакшену код и решает задачи в GitHub с высокой точностью.

Сложные математические доказательства

Задействует дополнительные вычислительные мощности во время inference для решения олимпиадных математических задач, требующих многоступенчатых вычислений.

Интерпретация технической документации

Анализирует чертежи и технические руководства с помощью своей multimodal системы зрения.

Логика автономных агентов

Выступает в качестве когнитивного ядра для агентных систем, требующих высокоточного планирования и использования инструментов.

Преимущества

Ограничения

Reasoning олимпиадного уровня: Достиг идеального результата 100% на benchmark AIME 2025, используя режим Deep Thinking.
Высокий экологический след: Для обучения потребовалось 200 000 GPU и около 150 МВт электроэнергии, что вызывает опасения в плане устойчивого развития.
Огромный объем context window: Предлагает 1 миллион tokens, что позволяет загружать целиком библиотеки или программные проекты.
Премиальная стоимость API: При цене $15 за миллион выходных tokens, модель значительно дороже альтернативных frontier моделей меньшего размера.
Непревзойденный доступ к данным в реальном времени: Прямая интеграция с X предоставляет самый свежий поток данных среди всех доступных AI моделей.
Ограничения на выходные tokens: Длина ответов обычно ограничена 4 096 tokens, что может приводить к обрыву очень длинных отчетов или файлов с кодом.
Высокая точность написания кода: Набрал 83.9% на SWE-Bench Verified, опередив основных конкурентов в разрешении сложных GitHub-задач.
Ограничения доступа: Полный функционал модели и API ключи часто доступны только подписчикам X Premium Plus или в определенных регионах.

Быстрый старт API

xai/grok-3

Посмотреть документацию
xai SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "grok-3",
    messages: [{ role: "user", content: "Проанализируй текущие рыночные настроения по Nvidia в X." }],
  });

  console.log(completion.choices[0].message.content);
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Grok-3

Посмотрите, что думает сообщество о Grok-3

Grok-3 [является] лучшей AI моделью для трейдеров и инвесторов благодаря анализу настроений в реальном времени.
Austin Starks
reddit
Модель справилась с некоторыми сложными задачами на автодополнение кода, с которыми не справились Gemini и Sonnet. Качество кажется выше, чем у Sonnet-3.5.
Victor Taelin
twitter
Скорость невероятная. Reasoning, информация в реальном времени, кажется, это самая быстрая флагманская модель на текущий момент.
Matthew Berman
youtube
Grok имеет доступ к данным в реальном времени и готовность заходить туда, куда другие модели не решаются, что делает его «дерзким» выбором для продвинутых пользователей.
Beginning-Willow-801
reddit
Результаты Grok-3 в GPQA поразительны. Модель определенно борется за первое место в области reasoning.
EpochAIResearch
twitter
Context window в 1 млн действительно работает. Модель обработала всю мою легаси-кодовую базу, не теряя контекст в исходных запросах.
DevGuru42
hackernews

Видео о Grok-3

Смотрите обучающие материалы, обзоры и обсуждения о Grok-3

Введение в Grok-3 и масштаб его обучения.

Модель создана для интеллекта и поиска истины.

Reasoning Grok 3... кажется, превосходит как OpenAI o1, так и модель DeepSeek R1 на научных бенчмарках.

Результаты бенчмарка MMLU показывают, что это модель высшего уровня.

Grok 3 также пытается решать нерешенные задачи... в то время как другие модели просто констатируют, что задача не решена.

Илон Маск утверждает, что это самый мощный AI на сегодняшний день.

Grok 3 занял первое место в этом слепом тестировании, став действующим чемпионом в Chatbot Arena.

Интеграция с X дает явное преимущество в свежести данных.

Multimodal возможности значительно улучшены по сравнению с Grok-2.

Самой мощной и актуальной версией Grok будет веб-версия на сайте grok.com.

Изучение технической архитектуры кластера Colossus.

Обсуждение масштабного процесса обучения на 100 000 GPU H100.

«Big brain», функция, уникальная для Grok 3... она позволяет пользователям задействовать несколько reasoning-агентов для решения сложных проблем.

Разработка Grok 3 была ускорена за счет использования суперкомпьютера Colossus от X, который в первой фазе задействовал 100 000 GPU Nvidia H100.

Заключительные мысли о том, почему Grok-3 является важным шагом вперед для прозрачности моделей типа open-weights.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Grok-3

Экспертные советы для максимальной эффективности Grok-3.

Используйте Deep Search

Используйте глубокий поиск для запросов, касающихся новостей за последний час, чтобы получить максимально точные результаты.

Активируйте высокий уровень reasoning

Установите уровень reasoning на «высокий» для математических задач, чтобы запустить процесс самопроверки модели.

Используйте Collections API

Загружайте конфиденциальные документы через Collections API, чтобы ваши данные не попадали в цикл обучения.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Часто задаваемые вопросы о Grok-3

Найдите ответы на частые вопросы о Grok-3