xai

Grok-3

Grok-3 是 xAI 的旗舰 reasoning model,具备深度逻辑推演、128k context window,并与 X 平台实时集成,助力实时研究与编码。

xai logoxaiGrok2025年2月17日
上下文
128Ktokens
最大输出
8Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
84.6%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Grok-3 在此基准测试中得分 84.6%。
HLE
36%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Grok-3 在此基准测试中得分 36%。
MMLU
87.5%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Grok-3 在此基准测试中得分 87.5%。
MMLU Pro
76.5%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Grok-3 在此基准测试中得分 76.5%。
SimpleQA
42%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Grok-3 在此基准测试中得分 42%。
IFEval
91.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Grok-3 在此基准测试中得分 91.2%。
AIME 2025
93.3%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Grok-3 在此基准测试中得分 93.3%。
MATH
94.4%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Grok-3 在此基准测试中得分 94.4%。
GSM8k
98.7%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Grok-3 在此基准测试中得分 98.7%。
MGSM
92.4%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Grok-3 在此基准测试中得分 92.4%。
MathVista
71.3%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Grok-3 在此基准测试中得分 71.3%。
SWE-Bench
49%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Grok-3 在此基准测试中得分 49%。
HumanEval
94.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Grok-3 在此基准测试中得分 94.5%。
LiveCodeBench
79.4%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Grok-3 在此基准测试中得分 79.4%。
MMMU
78%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Grok-3 在此基准测试中得分 78%。
MMMU Pro
58.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Grok-3 在此基准测试中得分 58.5%。
ChartQA
89.2%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Grok-3 在此基准测试中得分 89.2%。
DocVQA
92.4%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Grok-3 在此基准测试中得分 92.4%。
Terminal-Bench
52%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Grok-3 在此基准测试中得分 52%。
ARC-AGI
12.5%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Grok-3 在此基准测试中得分 12.5%。

关于 Grok-3

了解 Grok-3 的功能、特性以及它如何帮助您获得更好的效果。

前沿 Reasoning 与智能

Grok-3 是 xAI 的旗舰 frontier model,代表了计算规模和逻辑能力的重大飞跃。它在拥有超过 10 万个 NVIDIA H100 GPU 的 Colossus 超级计算机集群上进行训练,能够处理复杂的数学和科学挑战。该 model 具备专用的 reasoning 模式,在提供最终响应之前,利用额外的计算资源验证自身的逻辑。

实时知识集成

其主要差异化优势在于与 X 平台的原生集成。这使得 Grok-3 能够比依赖标准网页爬虫的 model 更快地获取突发新闻、金融变动和全球趋势。配合 100 万 token 的 context window,研究人员可以综合处理海量的实时数据。

Multimodal 与 Agentic 能力

除了文本处理,Grok-3 还是一个强大的视觉 model,能够解读技术图表、蓝图和视觉数据。它支持用于 autonomous agent 的高级函数调用。在 SWE-Bench Verified 上获得 83.9% 的得分,使其成为解决现实软件工程问题能力最强的 model 之一。

Grok-3

Grok-3 的使用案例

发现使用 Grok-3 获得出色效果的不同方式。

实时市场分析

利用实时的 X 数据为投资者分析金融情绪和突发新闻。

博士级科学研究

通过 reasoning 模式解决研究生水平的 STEM 问题并分析密集的文献资料。

专业软件工程

生成生产级代码并高精度地解决 GitHub 问题。

复杂数学证明

利用推理时计算(test-time compute)来解决需要多步推演的奥赛级数学题。

技术文档解读

通过其 multimodal 视觉系统分析蓝图和技术手册。

Agentic 逻辑实现

作为需要高保真规划和工具调用的 agent 的认知核心。

优势

局限性

奥赛级 reasoning 能力: 在使用 Deep Thinking 模式下,在 AIME 2025 数学 benchmark 上取得了 100% 的满分。
高环境足迹: 训练过程使用了 20 万个 GPU,耗电量约为 150MW,引发了可持续性方面的担忧。
海量 context 容量: 提供 100 万 token 的 context window,能够容纳整个代码库或软件项目。
高级 API 定价: 输出 token 每百万 15 美元的定价,使其显著高于其他小型 frontier model。
无与伦比的实时数据: 与 X 的直接集成使其具备了当前所有 AI model 中最新鲜的数据流。
输出 token 限制: 响应通常限制在 4,096 个 tokens 以内,这可能会导致超长报告或代码文件被截断。
高编码精度: 在 SWE-Bench Verified 上得分 83.9%,在解决复杂的 GitHub 问题方面超越了主要竞争对手。
访问限制: 完整的 model 功能和 API keys 通常仅限于 X Premium Plus 订阅者或特定区域。

API快速入门

xai/grok-3

查看文档
xai SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "grok-3",
    messages: [{ role: "user", content: "Analyze the current market sentiment for Nvidia on X." }],
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Grok-3 的评价

看看社区对 Grok-3 的看法

得益于其实时情绪分析,Grok-3 是交易员和投资者最好的 AI model。
Austin Starks
reddit
它成功解决了 Gemini 和 Sonnet 失败的一些高难度 HVM 代码补全提示。我感觉它的“质量”水平比 Sonnet-3.5 更高。
Victor Taelin
twitter
速度快得惊人。Reasoning、实时信息,它似乎是目前最快的旗舰 model。
Matthew Berman
youtube
Grok 拥有实时数据访问权限,并且愿意涉足其他 model 不会涉及的领域,这使其成为高级用户眼中“硬核”的选择。
Beginning-Willow-801
reddit
Grok-3 在 GPQA 上的表现令人瞩目。它绝对是在争夺 reasoning 领域的头把交椅。
EpochAIResearch
twitter
1M 的 context window 确实有效。它处理了我整个遗留代码库,而没有丢失初始提示的上下文。
DevGuru42
hackernews

关于 Grok-3 的视频

观看关于 Grok-3 的教程、评测和讨论

介绍 Grok-3 及其训练规模。

该 model 专为智能和探索真理而构建。

Grok 3 的 reasoning 能力……似乎在科学 benchmark 上超过了 OpenAI 的 o1 和 DeepSeek R1 model。

MMLU 的 benchmark 表现显示它是一款顶级 model。

Grok 3 实际上还会尝试解决未解难题……而其他 model 通常只会说明该问题未解。

Elon Musk 声称这是迄今为止最强大的 AI。

Grok 3 在盲测中占据首位,成为 Chatbot Arena 的卫冕冠军。

与 X 的集成在实时性方面提供了独特的优势。

相比 Grok-2,multimodal 能力有了显著提升。

Grok 的最强大版本和最新版本将是 grok.com 上的 Web 版本。

探索 Colossus 集群的技术架构。

关于 10 万个 H100 GPU 训练任务的讨论。

“Big brain”是 Grok 3 独有的功能……它允许用户使用多个 reasoning agent 来解决复杂问题。

Grok 3 的开发得益于 X 的 Colossus 超级计算机,其第一阶段使用了 10 万个 NVIDIA H100 GPU。

关于为什么 Grok-3 是向 open-weights 风格透明度迈出重大一步的最终想法。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Grok-3专业提示

专家提示助您充分利用Grok-3。

利用深度搜索(Deep Search)

对于过去一小时内的新闻查询,请使用深度搜索以获得最准确的结果。

启用高强度 reasoning

在进行数学难题分析时,将 reasoning 强度设定为“高”,以触发自我验证步骤。

使用 Collections API

将敏感文档上传至 Collections API,以确保您的数据不会进入训练循环。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

关于Grok-3的常见问题

查找关于Grok-3的常见问题答案