xai

Grok-4

xAIのGrok-4は、200万tokenのcontext window、Xプラットフォームのリアルタイム統合、世界記録レベルの推論能力を備えたfrontier modelです。

xai logoxaiGrok2025年7月9日
コンテキスト
2.0Mトークン
最大出力
8Kトークン
入力価格
$3.00/ 1M
出力価格
$15.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
87.5%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Grok-4はこのベンチマークで87.5%を記録しました。
HLE
44.4%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Grok-4はこのベンチマークで44.4%を記録しました。
MMLU
94%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Grok-4はこのベンチマークで94%を記録しました。
MMLU Pro
81.2%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Grok-4はこのベンチマークで81.2%を記録しました。
SimpleQA
48%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Grok-4はこのベンチマークで48%を記録しました。
IFEval
89.2%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Grok-4はこのベンチマークで89.2%を記録しました。
AIME 2025
100%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Grok-4はこのベンチマークで100%を記録しました。
MATH
92%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Grok-4はこのベンチマークで92%を記録しました。
GSM8k
98.4%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Grok-4はこのベンチマークで98.4%を記録しました。
MGSM
92.1%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Grok-4はこのベンチマークで92.1%を記録しました。
MathVista
72.4%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Grok-4はこのベンチマークで72.4%を記録しました。
SWE-Bench
81%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Grok-4はこのベンチマークで81%を記録しました。
HumanEval
88%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Grok-4はこのベンチマークで88%を記録しました。
LiveCodeBench
79.4%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Grok-4はこのベンチマークで79.4%を記録しました。
MMMU
75%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Grok-4はこのベンチマークで75%を記録しました。
MMMU Pro
59.2%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Grok-4はこのベンチマークで59.2%を記録しました。
ChartQA
90.5%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Grok-4はこのベンチマークで90.5%を記録しました。
DocVQA
93.2%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Grok-4はこのベンチマークで93.2%を記録しました。
Terminal-Bench
54.2%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Grok-4はこのベンチマークで54.2%を記録しました。
ARC-AGI
15.9%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Grok-4はこのベンチマークで15.9%を記録しました。

Grok-4について

Grok-4の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

Model概要

Grok-4は、xAIによるfrontier multimodal modelです。第一原理に基づく推論とリアルタイムの情報検索を優先するように構築されています。本modelは、Xソーシャルメディアプラットフォームとのネイティブな統合により、大きな競争力を得ています。これにより、ライブでグローバルな会話やニュースが発生した瞬間に分析することが可能です。学習にはColossusスーパーコンピュータを活用しており、数学的および技術的な領域で最高水準のパフォーマンスを発揮します。

技術的能力

本アーキテクチャは、推論バリエーションにおいて200万tokenのcontext windowをサポートしています。この容量により、データ損失なしで膨大なコードベースや高密度な技術ドキュメントを処理できます。ユーザーは、高速な相互作用のためのハイベロシティモードと、多段階の論理的タスクのためのディープシンキングモードを選択できるデュアルモードシステムを採用しています。Heavy構成では、マルチエージェントコンセンサス・メカニズムを採用することで、ハルシネーション率を約4%に抑えています。

エコシステム統合

単なるテキスト生成を超えて、Grok-4はネイティブなツール使用と複雑なfunction callingのために設計されています。画像や音声処理もサポートしており、multimodalなアプリケーションを構築する開発者にとって汎用性の高い選択肢です。そのアライメント戦略は、標準的な業界の安全ガードレールよりも、客観的な真実の追究に焦点を当てています。その結果、他のfrontier modelと比較して、物議を醸す話題や刺激的なトピックに対する拒否が少なくなっています。

Grok-4

Grok-4のユースケース

Grok-4を使って素晴らしい結果を得るさまざまな方法を発見してください。

リアルタイムのセンチメント分析

X上のライブ投稿を分析し、最新ニュースや新製品発表に対する世間の反応を判定します。

大規模リポジトリの監査

2Mのcontext windowを使用してソフトウェアリポジトリ全体を評価し、アーキテクチャ上の欠陥を見つけ出します。

オリンピアードレベルの数学問題解決

複雑な数学的証明やAIMEレベルの問題に対して、ステップバイステップの解決策を提供します。

無修正のクリエイティブコンテンツ作成

他のAIプロバイダーのような制限フィルターに縛られず、キャラクター主導のスクリプトやユーモアを生成します。

科学的研究の統合

技術的な正確さを維持しながら、複数の博士レベルの学術論文を同時に要約します。

技術的なデバッグ

本番環境のコードに含まれる分かりにくいバグを特定し、最新のベストプラクティスに基づいた修正案を提示します。

強み

制限

エリートレベルの数学的推論: AIME 2025 benchmarkで完璧な100%を達成し、多くのfrontier modelを論理面で凌駕しています。
Heavyモードのlatency: マルチエージェント推論モードでは、高精度な回答を1つ生成するのに数分かかる場合があります。
業界をリードするcontext window: 2Mのcontext windowにより、文書分析や大規模なコーディングプロジェクトにおいて前例のない深度を実現します。
不完全な動画サポート: テキストや画像の能力は最高水準ですが、ネイティブのフレームごとの動画処理はまだ利用できません。
ライブなソーシャルインテリジェンス: Xプラットフォームへの直接アクセスにより、静的な学習データでは再現できないリアルタイム情報を提供します。
地域的なアクセス制限: EU圏内では、規制要件により永続メモリ機能が現在無効化されています。
低い拒否率: より寛容な安全アーキテクチャにより、論争の的となる主題についても誠実で客観的な対話が可能です。
ビジョンの精度制限: 極めて高精細な視覚的詳細を解釈する際、本modelが部分的に認識しきれないことがあると認められています。

APIクイックスタート

xai/grok-4

ドキュメントを見る
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Search X for the latest news on SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

Grok-4についてのユーザーの声

Grok-4についてコミュニティがどう思っているか見てください

Grok 4 fastには2Mのtoken windowがある!! なぜこれまでChatGPTで苦労して我慢していたのか、もう分かりません。
myfuturewifee
reddit
ARC-AGI v2のプライベートサブセットで15.88%は正気じゃない。Grok 4は何ヶ月も破られなかった10%の壁を超えた最初のモデルだ。
Greg (ARC-AGI Lead)
twitter
Grok 4 Heavyのマルチエージェント勉強会アプローチこそ、test-time computeの正しい使い方だ。問題のトリックを本当の意味で見抜いている。
Tony_xAI
twitter
Grok 4はLiveCodeBenchで79点... benchmarkだけではmodelでコーディングする感覚は伝わらないが、これは信頼できる。
thankzr3ddit
reddit
このmodelはすべてにおいて博士レベル。恐ろしいほど賢く、人間が学ぶよりずっと速い。
Elon Musk
youtube
リアルタイム検索は単にヘッドラインをスクレイピングするのではなく、複数のソースを横断してコンテンツを分析しています。
BitBiasedAI
youtube

Grok-4についての動画

Grok-4についてのチュートリアル、レビュー、ディスカッションを見る

Grok 4 Heavyはより論理的で推論集約的なタスク向けで、通常のGrok 4は他のタスクを処理します。

画面上の描画において、私の手や指の動きを完全に正確に追跡しました。

Grok 4は、context windowの深くに隠したパスワードをわずか15秒の思考で見つけ出しました。

200万tokenの『干し草の中の針』テストにおける精度は100%でした。

このmodelは、Geminiのcontext windowが信頼できないと感じていた人々にとって、ついに真の代替手段となりました。

Grok 4はすべてにおいて博士レベル、ほとんどの博士号保持者より優れています。

Grok 4 Heavyは複数のエージェントを並列生成します...まるで勉強会のようなものです。

APIで利用可能で、256kのcontext lengthがあり、さらに拡張を計画しています。

Colossusクラスターでの学習により、これまでに見たことのない推論能力を獲得しました。

現在存在する中で、最も真実を追求するAIとして設計されています。

Grok 4 Heavyは、あなたの1つのpromptに対して最大32の並列AIモデルを実行します。

リアルタイム検索は単にヘッドラインをスクレイピングするのではなく、複数のソースを横断してコンテンツを分析しています。

Thinkモードは、回答前に計画を立て、潜在的なエラーを補足するために追加の計算時間を費やします。

APIアクセスがあれば、エージェント同士が議論している様子をログで実際に確認できます。

音声を用いたmultimodalパフォーマンスは、前世代よりも顕著に高速化しています。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Grok-4のプロのヒント

Grok-4を最大限に活用し、より良い結果を得るための専門家のヒント。

検索キーワードの使用

特定のハッシュタグやアカウントをpromptに含めることで、modelによるXのリアルタイム検索を誘導できます。

Heavyモードへの切り替え

回答の速度よりも精度が極めて重要なタスクには、Grok-4 Heavyを有効にしてください。

詳細なペルソナの設定

より自由度の高い安全アライメントを活用し、クリエイティブライティング用に具体的で刺激的なペルソナを定義しましょう。

外部リンクの分析

ライブURLを直接チャットに貼り付けることで、modelが最新のWebコンテンツを取得して要約できます。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Grok-4についてのよくある質問

Grok-4に関するよくある質問への回答を見つけてください