xai

Grok-3

Grok-3はxAIのフラッグシップreasoningモデルです。深い論理推論、128kのcontext window、リアルタイムリサーチやコーディングのためのXとのライブ統合を特徴としています。

xai logoxaiGrok2025年2月17日
コンテキスト
128Kトークン
最大出力
8Kトークン
入力価格
$3.00/ 1M
出力価格
$15.00/ 1M
モダリティ:TextImage
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
84.6%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Grok-3はこのベンチマークで84.6%を記録しました。
HLE
36%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Grok-3はこのベンチマークで36%を記録しました。
MMLU
87.5%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Grok-3はこのベンチマークで87.5%を記録しました。
MMLU Pro
76.5%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Grok-3はこのベンチマークで76.5%を記録しました。
SimpleQA
42%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Grok-3はこのベンチマークで42%を記録しました。
IFEval
91.2%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Grok-3はこのベンチマークで91.2%を記録しました。
AIME 2025
93.3%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Grok-3はこのベンチマークで93.3%を記録しました。
MATH
94.4%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Grok-3はこのベンチマークで94.4%を記録しました。
GSM8k
98.7%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Grok-3はこのベンチマークで98.7%を記録しました。
MGSM
92.4%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Grok-3はこのベンチマークで92.4%を記録しました。
MathVista
71.3%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Grok-3はこのベンチマークで71.3%を記録しました。
SWE-Bench
49%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Grok-3はこのベンチマークで49%を記録しました。
HumanEval
94.5%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Grok-3はこのベンチマークで94.5%を記録しました。
LiveCodeBench
79.4%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Grok-3はこのベンチマークで79.4%を記録しました。
MMMU
78%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Grok-3はこのベンチマークで78%を記録しました。
MMMU Pro
58.5%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Grok-3はこのベンチマークで58.5%を記録しました。
ChartQA
89.2%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Grok-3はこのベンチマークで89.2%を記録しました。
DocVQA
92.4%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Grok-3はこのベンチマークで92.4%を記録しました。
Terminal-Bench
52%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Grok-3はこのベンチマークで52%を記録しました。
ARC-AGI
12.5%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Grok-3はこのベンチマークで12.5%を記録しました。

Grok-3について

Grok-3の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

FrontierクラスのReasoningと知性

Grok-3はxAIのフラッグシップとなるfrontier modelであり、計算スケールと論理性の面で大きな飛躍を遂げました。10万個以上のNVIDIA H100 GPUを搭載したColossusスーパーコンピュータークラスターでトレーニングされ、複雑な数学的および科学的課題を処理します。本モデルは、最終的な回答を出す前に独自の論理を検証するために追加の計算リソースを使用する、専用のreasoningモードを備えています。

リアルタイム知識統合

最大の差別化要因は、Xプラットフォームとのネイティブな統合です。これにより、Grok-3は標準的なウェブクローリングに依存するモデルよりも低いlatencyで、速報ニュース、金融動向、世界的なトレンドにアクセスできます。100万tokenのcontext windowと組み合わせることで、研究者は膨大な最新データを統合することが可能になります。

MultimodalとAgenticな機能

テキストを超えて、Grok-3は技術的な図解、設計図、視覚データを解釈できる強力なビジョンモデルでもあります。自律型agentで使用するための高度な関数呼び出しをサポートしています。SWE-Bench Verifiedで83.9%のスコアを記録しており、現実世界のソフトウェアエンジニアリング課題を解決する上で、最も能力の高いモデルの1つです。

Grok-3

Grok-3のユースケース

Grok-3を使って素晴らしい結果を得るさまざまな方法を発見してください。

リアルタイム市場分析

ライブのXデータを活用し、投資家向けに金融センチメントや最新ニュースを分析します。

博士レベルの科学研究

大学院レベルのSTEM問題を解決し、reasoningモードを用いて膨大な文献を分析します。

競技レベルのソフトウェアエンジニアリング

本番環境レベルのコード生成を行い、高精度でGitHubのissueを解決します。

複雑な数学的証明

test-time computeを活用し、多段階の推論を必要とする数学オリンピックレベルの問題を解きます。

技術文書の解釈

multimodalなビジョンシステムを通じて、設計図や技術マニュアルを分析します。

自律型agentのロジック

高度な計画立案やツール使用を必要とするagentの認知コアとして機能します。

強み

制限

オリンピックレベルのReasoning: Deep Thinkingモードを使用して、AIME 2025数学benchmarkで完璧な100%のスコアを達成しました。
高い環境負荷: トレーニングには20万個のGPUが必要であり、約150MWの電力を消費するため、持続可能性への懸念があります。
大規模なcontext容量: 100万tokenのcontext windowを提供し、ライブラリ全体や大規模なソフトウェアプロジェクトの取り込みが可能です。
プレミアムなAPI料金: 出力100万tokenあたり15ドルという価格は、より小規模なfrontier modelの代替案よりも大幅に高価です。
他に類を見ないリアルタイムデータ: Xとの直接統合により、現存するAIモデルの中で最も鮮度の高いデータストリームを提供します。
出力tokenの制限: 回答は通常4,096 tokenに制限されており、非常に長いレポートやコードファイルは途中で切れる可能性があります。
高いコーディング精度: SWE-Bench Verifiedで83.9%のスコアを記録し、GitHubの複雑なissue解決において主要な競合モデルを上回りました。
アクセス制限: フルモデルの機能やAPIキーは、多くの場合X Premium Plus加入者や特定の地域に制限されています。

APIクイックスタート

xai/grok-3

ドキュメントを見る
xai SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "grok-3",
    messages: [{ role: "user", content: "Analyze the current market sentiment for Nvidia on X." }],
  });

  console.log(completion.choices[0].message.content);
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

Grok-3についてのユーザーの声

Grok-3についてコミュニティがどう思っているか見てください

リアルタイムのセンチメント分析機能により、トレーダーや投資家にとってGrok-3は最高のAIモデルである。
Austin Starks
reddit
GeminiやSonnetでは失敗した難しいHVMコード補完promptを解決できた。Sonnet-3.5よりも「品質」レベルが高いと感じる。
Victor Taelin
twitter
速度がとにかく速い。Reasoning、リアルタイム情報など、現在出ている中で最も高速なフラッグシップモデルのように思える。
Matthew Berman
youtube
Grokはリアルタイムのデータアクセスが可能で、他のモデルでは踏み込まない領域にも対応できるため、パワーユーザーにとって「エッジの効いた」選択肢となっている。
Beginning-Willow-801
reddit
GPQAにおけるGrok-3の性能は驚異的。間違いなくreasoningのトップの座を争っている。
EpochAIResearch
twitter
100万tokenのcontext windowは実際に機能する。既存のコードベース全体を読み込ませても、最初のpromptの文脈を失わなかった。
DevGuru42
hackernews

Grok-3についての動画

Grok-3についてのチュートリアル、レビュー、ディスカッションを見る

Grok-3の紹介とそのトレーニング規模について。

このモデルは知性と真実の探求のために構築されています。

Grok 3のreasoningは…科学的benchmarkにおいてOpenAIのo1やDeepSeek R1モデルを凌駕しているようです。

MMLUでのbenchmark性能は、トップティアのモデルであることを示しています。

Grok 3は未解決の問題を解こうと試みます…他のモデルは単に未解決であると述べるだけですが。

イーロン・マスクは、これが現在最も強力なAIであると主張しています。

Grok 3はブラインドテストでトップの座を獲得し、チャットボットArenaの現役チャンピオンとなりました。

Xとの統合は、鮮度という面で明確な利点をもたらしています。

multimodalな機能はGrok-2から大幅に改善されています。

Grokの最も強力で最新のバージョンは、grok.comのウェブ版になります。

Colossusクラスターの技術アーキテクチャを探る。

10万個のH100 GPUによる大規模トレーニングの議論。

「Big brain」はGrok 3に特有の機能で…ユーザーが複数のreasoning agentを使用して複雑な問題を解決できます。

Grok 3の開発は、フェーズ1で10万個のNvidia H100 GPUを使用したXのColossusスーパーコンピューターによって加速されました。

Grok-3がオープンウェイト形式の透明性に向けて大きな一歩を踏み出した理由についての最終見解。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Grok-3のプロのヒント

Grok-3を最大限に活用し、より良い結果を得るための専門家のヒント。

Deep Searchを活用する

過去1時間以内のニュースに関するクエリにはDeep Searchを使用することで、最も正確な結果が得られます。

High Reasoningを有効にする

数学パズルなどの場合、reasoningのレベルを「High(高)」に指定することで、自己検証ステップをトリガーできます。

Collections APIを利用する

機密性の高いドキュメントはCollections APIにアップロードすることで、学習サイクルからデータを除外できます。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Grok-3についてのよくある質問

Grok-3に関するよくある質問への回答を見つけてください

Grok-3: 100万tokenのcontext windowとAIME 2025数学benchmarkで100%を達成