xai

Grok-3

Grok-3 是 xAI 的旗舰级推理 model,具备深层逻辑演绎能力、128k context window 以及与 X 平台的实时集成能力,适用于实时研究和编程。

xai logoxaiGrokFebruary 17, 2025
上下文
128Ktokens
最大输出
8Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
84.6%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Grok-3 在此基准测试中得分 84.6%。
HLE
36%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Grok-3 在此基准测试中得分 36%。
MMLU
87.5%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Grok-3 在此基准测试中得分 87.5%。
MMLU Pro
76.5%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Grok-3 在此基准测试中得分 76.5%。
SimpleQA
42%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Grok-3 在此基准测试中得分 42%。
IFEval
91.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Grok-3 在此基准测试中得分 91.2%。
AIME 2025
93.3%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Grok-3 在此基准测试中得分 93.3%。
MATH
94.4%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Grok-3 在此基准测试中得分 94.4%。
GSM8k
98.7%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Grok-3 在此基准测试中得分 98.7%。
MGSM
92.4%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Grok-3 在此基准测试中得分 92.4%。
MathVista
71.3%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Grok-3 在此基准测试中得分 71.3%。
SWE-Bench
49%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Grok-3 在此基准测试中得分 49%。
HumanEval
94.5%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Grok-3 在此基准测试中得分 94.5%。
LiveCodeBench
79.4%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Grok-3 在此基准测试中得分 79.4%。
MMMU
78%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Grok-3 在此基准测试中得分 78%。
MMMU Pro
58.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Grok-3 在此基准测试中得分 58.5%。
ChartQA
89.2%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Grok-3 在此基准测试中得分 89.2%。
DocVQA
92.4%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Grok-3 在此基准测试中得分 92.4%。
Terminal-Bench
52%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Grok-3 在此基准测试中得分 52%。
ARC-AGI
12.5%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Grok-3 在此基准测试中得分 12.5%。

关于 Grok-3

了解 Grok-3 的功能、特性以及它如何帮助您获得更好的效果。

前沿的 Reasoning 与智能

Grok-3 代表了人工智能领域的里程碑式飞跃,它在 xAI 的 Colossus 超级计算集群上进行训练,使用了超过 100,000 块 NVIDIA H100 GPU。该 model 专门针对复杂逻辑、数学演绎和高难度软件工程进行了架构设计。与优先考虑快速生成响应的传统 model 不同,Grok-3 具有专门的 Deep Thinking 模式,利用大规模测试时计算在交付最终输出前验证其内部的 reasoning 步骤。

实时知识集成

Grok-3 的核心优势在于其对 X 平台实时数据流的无双访问能力。这使得 model 能够以秒级的 latency 综合突发新闻、金融波动和全球趋势,而其他 model 仍依赖于知识截止日期或较慢的网页搜索工具。这种实时感知力结合 128,000 token 的 context window,使其成为需要最新见解的市场研究人员和数据科学家的必备工具。

Multimodal 与 Agentic 能力

除了文本和逻辑,Grok-3 还是一个强大的 multimodal vision model,能够以 frontier model 级别的精度解析复杂的技术图纸、蓝图和可视化数据。它支持高级 function calling 和工具使用,使其能够充当自主 agent 的认知引擎。凭借在 HumanEval 上 94.5% 的得分,它目前是市面上能力最强的编程助手之一,在自主调试和架构重构方面足以媲美或超越竞争对手。

Grok-3

Grok-3 的使用案例

发现使用 Grok-3 获得出色效果的不同方式。

高级软件工程

:凭借 deep reasoning 和 94.5% 的 HumanEval 准确率,解决复杂的架构问题并重构整个代码库。

实时市场情报

:利用实时 X 数据,比传统搜索引擎更快速地综合突发财经新闻和消费者情绪。

科学数据综合

:在 Deep Research 模式下处理数千页学术期刊,以发现新的研究联系和假设。

Multimodal 文档分析

:利用 frontier model 级别的 vision 能力解析复杂的技术图纸、蓝图和财务报表。

竞赛级辅导

:使用 Think 模式将复杂的奥数级数学和物理问题分解为易于理解且经过验证的步骤。

Agentic 工作流自动化

:作为自主 agent 的核心引擎,在生产环境中执行精确的 function calling 和工具调用。

优势

局限性

卓越的 reasoning: :在 AIME 2025 (93.3%) 和 MATH (94.4%) 等复杂数学 benchmark 上超越了领先的竞争对手。
Thinking 模式下的高 latency: :在 Think 模式下,复杂的 reasoning prompt 可能需要超过 60 秒才能生成验证后的回答。
集成的 Deep Research: :具备独特的网页搜索能力,综合实时 X 数据速度明显快于对手。
无原生视频或音频支持: :缺乏像 Gemini 2.0 那样的实时 multimodal 音频和视频处理能力。
顶尖编程性能: :HumanEval 评分达 94.5%,是自主软件开发和调试的顶级选择。
严格的使用配额: :Premium+ 订阅者的消息限制在高峰时段目前低于一些老牌竞争对手。
透明的 thinking traces: :允许用户查看 model 的每一步逻辑,增强了信任感并使复杂错误更易调试。
Beta 阶段稳定性问题: :在高流量期间,用户偶尔可能会遇到服务器错误或 thinking traces 截断。

API快速入门

xai/grok-3

查看文档
xai SDK
import OpenAI from "openai";

const xai = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1"
});

const response = await xai.chat.completions.create({
  model: "grok-3",
  messages: [{ role: "user", content: "Analyze current X trends for AGI." }],
  stream: true
});

for await (const chunk of response) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

安装SDK并在几分钟内开始进行API调用。

人们对 Grok-3 的评价

看看社区对 Grok-3 的看法

"Grok-3 的 Deep Research 比 OpenAI 的版本快得多且更准确"
TechEnthusiast
x
"编程性能简直疯狂;它几秒钟就修复了一个困扰我几小时的 bug"
DevLife
reddit
"Grok-3 堪称当今最前沿的 reasoning model"
DataCamp
youtube
"thinking traces 看起来很像 DeepSeek,但速度完全是另一个量级的"
AIResearcher
hackernews
"对技术蓝图的 vision 能力终于可以用于实际工程工作了"
EngDesign
reddit
"对于追踪实时加密货币或股票情绪的人来说,X 集成提供了巨大优势"
FinancePro
x

关于 Grok-3 的视频

观看关于 Grok-3 的教程、评测和讨论

Grok 3 堪称当今最前沿的 reasoning model

它的输出质量远优于 OpenAI 的深度搜索功能

与 o1 相比,Deep Research 模式的速度令人印象深刻

你可以看到 model 确实在同时处理多个搜索结果

就逻辑一致性而言,这是相比 Grok-2 的一次重大飞跃

Grok 3 和 Grok 3 mini 优于所有已发布的 reasoning model

逻辑非常人性化……这是我见过最像人类的 reasoning

内部的 thinking trace 提供了更清晰的逻辑视图

它不仅是猜测,还会检查自己的工作,这是 System 2 思维的标志

在 AIME benchmark 上的数学表现确实是 state-of-the-art 级别的

从这些 benchmark 可以看出,Grok 3 在各项测试中表现都非常出色

与其他竞争对手相比,它非常有前景

编程性能才是重点,足以媲美业内最强 model

它能处理旧版本无法完成的架构重构任务

与 X API 的集成使其在处理时事方面具有独特优势

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

Grok-3专业提示

专家提示助您充分利用Grok-3。

切换 Deep Thinking:对于数学或逻辑任务,务必开启 Think 模式,以确保通过测试时计算进行逐步验证。

利用 X 集成:利用有关突发新闻或时事的热点查询,获取其他 LLM 因知识截止日期而无法访问的数据。

检查 Traces:查看内部的 thinking traces,以准确识别 model 在何处消耗了计算量并验证其逻辑路径。

Vision 辅助 UI:上传 UI 设计截图,让 Grok 生成相应的 React 或 Tailwind 代码,实现快速前端原型开发。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

关于Grok-3的常见问题

查找关于Grok-3的常见问题答案