xai

Grok-4

xAIのGrok-4は、200万tokenのcontext window、リアルタイムのXプラットフォーム連携、そして世界記録レベルのreasoning能力を兼ね備えたfrontier modelです。

xai logoxaiGrokJuly 9, 2025
コンテキスト
2.0Mトークン
最大出力
8Kトークン
入力価格
$3.00/ 1M
出力価格
$15.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
87.5%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Grok-4はこのベンチマークで87.5%を記録しました。
HLE
44.4%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Grok-4はこのベンチマークで44.4%を記録しました。
MMLU
94%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Grok-4はこのベンチマークで94%を記録しました。
MMLU Pro
81.2%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Grok-4はこのベンチマークで81.2%を記録しました。
SimpleQA
48%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Grok-4はこのベンチマークで48%を記録しました。
IFEval
89.2%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Grok-4はこのベンチマークで89.2%を記録しました。
AIME 2025
100%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Grok-4はこのベンチマークで100%を記録しました。
MATH
92%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Grok-4はこのベンチマークで92%を記録しました。
GSM8k
98.4%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Grok-4はこのベンチマークで98.4%を記録しました。
MGSM
92.1%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Grok-4はこのベンチマークで92.1%を記録しました。
MathVista
72.4%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Grok-4はこのベンチマークで72.4%を記録しました。
SWE-Bench
81%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Grok-4はこのベンチマークで81%を記録しました。
HumanEval
88%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Grok-4はこのベンチマークで88%を記録しました。
LiveCodeBench
79.4%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Grok-4はこのベンチマークで79.4%を記録しました。
MMMU
75%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Grok-4はこのベンチマークで75%を記録しました。
MMMU Pro
59.2%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Grok-4はこのベンチマークで59.2%を記録しました。
ChartQA
90.5%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Grok-4はこのベンチマークで90.5%を記録しました。
DocVQA
93.2%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Grok-4はこのベンチマークで93.2%を記録しました。
Terminal-Bench
54.2%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Grok-4はこのベンチマークで54.2%を記録しました。
ARC-AGI
15.9%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Grok-4はこのベンチマークで15.9%を記録しました。

Grok-4について

Grok-4の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

概要

Grok-4はxAIが提供する最新のfrontier AIモデルであり、Xプラットフォームへのリアルタイムアクセスを備えた、真実を追究するアシスタントとして設計されています。20万基以上のGPUを搭載したColossusスーパーコンピュータークラスター上で構築され、reasoning、数学的問題解決、およびコーディング能力において飛躍的な進歩を遂げています。統合されたデュアルモードアーキテクチャを採用しており、複雑なパズルを解くためのdeep-thinkingなreasoningモードと、即時の回答を得るための高速モードを切り替えて使用できます。

技術革新

計算資源の世代交代的な飛躍により、あらゆる学術分野において同時に博士レベルのパフォーマンスを実現しました。このモデルは、標準的な安全ガードレールよりも客観的な情報を優先する「アンチ・ウォーク(anti-woke)」なアライメント戦略を特徴としています。200万tokenという巨大なcontext windowに加え、XやTesla車両を含むMuskエコシステムへの統合が、独自の競争優位性(moat)を形成しています。STEM分野やテクニカルなreasoningに優れる一方で、日常的なクリエイティブタスクやリアルタイムのニュース分析においても極めて高い効率性を維持しています。

パフォーマンス哲学

Grok-4は第一原理思考と客観的なデータ合成を優先します。Quasarflux reasoningエンジンを活用することで、従来のLLMが脱落しがちな多段階の論理チェーンを正確に処理できます。これにより、事実の正確性が不可欠なリスクの高い環境で高精度な出力を必要とする開発者や研究者にとって、不可欠なツールとなっています。

Grok-4

Grok-4のユースケース

Grok-4を使って素晴らしい結果を得るさまざまな方法を発見してください。

大学院レベルのSTEM研究

Thinkingモードを活用して、博士レベルの物理学の問題を解決したり、複雑な数学的証明を検証したりする。

大規模リポジトリのデバッグ

2Mのcontext windowを活用してコードベース全体を読み込み、微細なレースコンディションを特定する。

リアルタイムの金融インテリジェンス

XのFirehoseを監視して、市場のセンチメントや速報を分析し、トレーディングの洞察を得る。

自律的なエージェントワークフロー

ロジスティクスや自動化のための堅牢なfunction callingを通じて、複雑なagenticタスクを実行する。

マルチモーダルな法的分析

何千ページもの証拠開示書類をレビューしながら、スキャンされた証拠写真の分析を同時に行う。

高度なアカデミックチュータリング

生徒の進捗に合わせて、STEM科目の第一原理に基づいたパーソナライズされた指導を提供する。

強み

制限

比類なき数学と論理: AIME 2025で100%という世界記録のスコアを達成し、テクニカルなタスクにおける第一の選択肢となっています。
基本的な論理のムラ: 大学院レベルの試験で満点を取る一方で、単語内の文字を数えるような些細なタスクで失敗することがあります。
市場をリードするコンテキスト: 200万tokenのウィンドウにより、一度のpromptで約1,500ページのテキストを分析可能です。
高い参入障壁: フルパワーのGrok-4 Heavyモデルやreasoning機能を利用するには、プレミアムサブスクリプションが必要です。
ライブデータパイプライン: Xプラットフォームのリアルタイムデータストリームへの独占的なアクセスにより、世界的な出来事に対して最新の回答を提供します。
クリエイティブなニュアンスの不足: クリエイティブなストーリーテリングにおいてはClaude 4.5に遅れをとっており、実用的またはエッジの効いたトーンになりがちです。
感情的知能: EQ-Bench3での高いパフォーマンスは、微妙な人間の感情を理解する優れた能力を示しています。
画像生成の一貫性: 内部ツールは、複数のパネルにわたって視覚的な一貫性を維持することに苦戦する場合があります。

APIクイックスタート

xai/grok-4

ドキュメントを見る
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

Grok-4についてのユーザーの声

Grok-4についてコミュニティがどう思っているか見てください

"Grok 4は公式に競合を圧倒している... xAIが捕食者のように思考するモデルを構築したことを証明した。"
Mario Nawfal
x/twitter
"Grok 4はベンチマークを粉砕する博士レベルの天才だが、時々数が数えられない。その二面性は凄まじい。"
Beginning-Willow-801
reddit
"200万tokenへの飛躍は単なるギミックではない。リポジトリのデバッグ方法を根本的に変えるものだ。"
AI Tech Reviews
youtube
"Grok 4は一般的な理解力において明らかに最高のモデルであり、GPT-5を遥かに凌駕している。"
YMist_
reddit
"Grok 4.20で利用者は急増するだろう。3〜4週間以内にリリースされる。"
Elon Musk
x/twitter
"リアルタイムのX統合は、このニュースサイクルの速さの中で私の研究を唯一有効に保ってくれるものだ。"
DataScientist_Alpha
hackernews

Grok-4についての動画

Grok-4についてのチュートリアル、レビュー、ディスカッションを見る

この回答の単語数は正確に43個だ... 非常に印象的だ。

chain-of-thoughtの中でハノイの塔を解くだけでなく、実際にそれを証明し、コードで視覚化した。

この回答は素晴らしい。要点が明確でダイレクトだ。一切の飾り気がない。

ここでのreasoning能力は、前世代で見たものより明らかに一段階上だ。

礼儀正しく振る舞うために真実を隠しているように感じさせない、ついに現れたモデルだ。

Grokの実験的なthinkingトグルが最近削除され、時代遅れになる可能性が指摘されている。

Grok OSは最も印象が薄く、基本的な白い背景と壊れたアイコンが目立った。

生の知識検索に関しては、Grok-4はGPT-5が逃す部分を一貫して捉えている。

reasoningモードのlatencyは高いが、出力の質はその待ち時間を正当化する。

Muskのエコシステム内にいるなら、ここでの統合は巨大な生産性の向上をもたらす。

論理を解けないなら、どれだけ高速なモデルでも誰も望まない。これは断言できる。

10点満点中マイナス1点だ... 全くのゴミだ。単純なNext.jsのウェブサイトすら構築できない。

スピードはあるが、論理が壊れていれば、秒間token数に何の意味があるのか?

リリーサイクルに合わせるために、コーダー版を急いで出したように感じる。

実際に動作するものが必要なら、標準のreasoningモデルを使い続けるべきだ。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー
デモ動画を見る

Grok-4のプロのヒント

Grok-4を最大限に活用し、より良い結果を得るための専門家のヒント。

モードの切り替え

複雑な論理にはQuasarfluxモード、速度を優先する場合はTensorモードを使用することで、コストとパフォーマンスを最適化できます。

リアルタイムクエリ

X上のトレンドトピックを明示的にpromptすることで、ライブデータパイプラインを活用し、学習データのカットオフを回避できます。

STEMへの注力

ゼロショットタスクで競合を大きく上回る大学院レベルの数学には、Grokを優先的に使用してください。

基本的な論理の検証

単純なタスクにおいて不整合が生じることがあるため、単語の文字数カウントやリストの並べ替えなどの基本的な論理はダブルチェックしてください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

Grok-4についてのよくある質問

Grok-4に関するよくある質問への回答を見つけてください