xai

Grok-4

xAI 推出的 Grok-4 是一款 frontier model,具备 2M token context window、实时 X 平台集成以及破纪录的 reasoning 能力。

xai logoxaiGrokJuly 9, 2025
上下文
2.0Mtokens
最大输出
8Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
87.5%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Grok-4 在此基准测试中得分 87.5%。
HLE
44.4%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Grok-4 在此基准测试中得分 44.4%。
MMLU
94%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Grok-4 在此基准测试中得分 94%。
MMLU Pro
81.2%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Grok-4 在此基准测试中得分 81.2%。
SimpleQA
48%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Grok-4 在此基准测试中得分 48%。
IFEval
89.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Grok-4 在此基准测试中得分 89.2%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Grok-4 在此基准测试中得分 100%。
MATH
92%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Grok-4 在此基准测试中得分 92%。
GSM8k
98.4%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Grok-4 在此基准测试中得分 98.4%。
MGSM
92.1%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Grok-4 在此基准测试中得分 92.1%。
MathVista
72.4%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Grok-4 在此基准测试中得分 72.4%。
SWE-Bench
81%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Grok-4 在此基准测试中得分 81%。
HumanEval
88%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Grok-4 在此基准测试中得分 88%。
LiveCodeBench
79.4%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Grok-4 在此基准测试中得分 79.4%。
MMMU
75%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Grok-4 在此基准测试中得分 75%。
MMMU Pro
59.2%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Grok-4 在此基准测试中得分 59.2%。
ChartQA
90.5%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Grok-4 在此基准测试中得分 90.5%。
DocVQA
93.2%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Grok-4 在此基准测试中得分 93.2%。
Terminal-Bench
54.2%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Grok-4 在此基准测试中得分 54.2%。
ARC-AGI
15.9%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Grok-4 在此基准测试中得分 15.9%。

关于 Grok-4

了解 Grok-4 的功能、特性以及它如何帮助您获得更好的效果。

概述

Grok-4 是 xAI 最新的 frontier AI model,旨在成为一个能够实时访问 X 平台的探求真理的助手。它构建在拥有超过 200,000 个 GPU 的 Colossus 超级计算机集群之上,代表了 reasoning、数学问题解决和编程能力的巨大飞跃。它采用统一的双模式架构,允许用户在用于解决复杂难题的深度思考 reasoning 模式和用于即时响应的高速模式之间切换。

技术创新

算力的跨代提升使其能够同时在所有学术学科中达到博士级水平。该 model 的独特之处在于其“反觉醒”对齐策略,优先考虑客观信息而非标准的安全性护栏。其海量的 200 万 token context window 以及与马斯克生态系统(包括 X 和特斯拉汽车)的集成,提供了独特的竞争壁垒。虽然它在 STEM 和技术 reasoning 方面表现出色,但在处理日常创意任务和实时新闻分析方面依然保持着极高的效率。

性能哲学

Grok-4 优先考虑第一性原理思考和客观数据综合。通过利用 Quasarflux reasoning 引擎,它可以处理通常会让传统 LLM 陷入困境的多步逻辑链。这使其成为开发者和研究人员的必备工具,因为他们需要在事实准确性不容妥协的高风险环境中获得高保真度的输出。

Grok-4

Grok-4 的使用案例

发现使用 Grok-4 获得出色效果的不同方式。

研究生级 STEM 研究

:利用 Thinking 模式解决博士级的物理问题并验证复杂的数学证明。

海量代码库调试

:利用 2M 的 context window 导入整个代码库,并识别细微的竞态条件。

实时金融情报

:监控 X 的数据流 (Firehose) 以分析市场情绪和突发新闻,获取交易洞察。

自主 Agent 工作流

:通过强大的 function calling 为物流和自动化领域的复杂 agentic 任务提供动力。

多模态法律分析

:审阅数千页的调查取证文件,同时分析扫描的证据照片。

高级学术辅导

:提供个性化的、基于第一性原理的 STEM 学科辅导,并根据学生的进度进行调整。

优势

局限性

无与伦比的数学与逻辑: :在 AIME 2025 中创下了 100% 得分的纪录,成为技术任务的首选。
基础逻辑波动: :尽管能通过研究生考试,但该 model 偶尔会在数单词字母数等琐碎任务上失败。
市场领先的 Context: :200 万 token 的 window 允许在单个 prompt 中分析大约 1,500 页的文本。
准入门槛高: :访问功能全开的 Grok-4 Heavy model 和 reasoning 能力需要高级订阅。
实时数据管道: :独家访问 X 平台的实时数据流,确保对全球事件的响应具有时效性。
创意细微差别差距: :在创意叙事方面落后于 Claude 4.5,语气通常更偏向实用主义或犀利风格。
情商: :在 EQ-Bench3 上的高分表现表明其在理解细腻的人类情感方面具有卓越能力。
图像生成一致性: :内部工具在保持多面板视觉一致性方面表现欠佳。

API快速入门

xai/grok-4

查看文档
xai SDK
import { xAI } from '@xai/sdk';

const client = new xAI({
  apiKey: process.env.XAI_API_KEY,
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'grok-4',
    messages: [{ role: 'user', content: 'Analyze the latest news about xAI from the Firehose.' }],
    stream: true,
  });

  for await (const chunk of response) {
    process.stdout.write(chunk.choices[0]?.delta?.content || '');
  }
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Grok-4 的评价

看看社区对 Grok-4 的看法

"Grok 4 正式给竞争对手上了一课... 证明了 xAI 构建了一个像掠食者一样思考的 model。"
Mario Nawfal
x/twitter
"Grok 4 是个横扫 benchmark、博士级的数学天才,但偶尔连数数都不会。这种二元性太疯狂了。"
Beginning-Willow-801
reddit
"跨越到 200 万 tokens 不仅仅是个噱头;它从根本上改变了代码库调试。"
AI Tech Reviews
youtube
"Grok 4 显然是通用理解方面最好的 model,远超 GPT-5。"
YMist_
reddit
"使用量将随着 Grok 4.20 的推出而激增。它将在 3 到 4 周内发布。"
Elon Musk
x/twitter
"实时 X 集成是唯一让我的研究保持相关性的东西。"
DataScientist_Alpha
hackernews

关于 Grok-4 的视频

观看关于 Grok-4 的教程、评测和讨论

这个回答的字数正好是 43 个... 令人印象深刻。

它不仅能在 chain-of-thought 中解决汉诺塔问题,还能实际证明它并用代码将其可视化。

我喜欢这个回答。言简意赅,直截了当,完全没有修饰。

这里的 reasoning 能力显然比我们在上一代中看到的提高了一个层次。

这终于是一个让人觉得不会为了礼貌而隐瞒真相的 model 了。

Grok 的实验性思考切换开关最近被移除了... 这导致它被认为可能有些过时。

Grok OS 的表现最平庸,背景是基础的白色,图标还有损坏。

在原始知识检索方面,Grok-4 始终能击中 GPT-5 遗漏的目标。

reasoning 模式的 latency 较高,但输出的质量足以让等待变得值得。

如果你处于马斯克的生态系统中,这里的集成将是一个巨大的生产力乘数。

如果无法解决逻辑问题,没人会想要一个超快的 model。伙计们,这是显而易见的。

我会给它打负一分(总分十分)... 完全是垃圾。连一个简单的 Next.js 网站都搭不起来。

速度是有了,但如果逻辑是错的,追求 tokens per second 还有什么意义?

感觉他们为了赶发布周期匆忙推出了这个编程变体。

如果你真的想要能用的东西,还是坚持使用标准的 reasoning model 吧。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

Grok-4专业提示

专家提示助您充分利用Grok-4。

模式切换:对于逻辑复杂的问题使用 Quasarflux 模式,对于追求速度的情况使用 Tensor 模式,以优化成本和性能。

实时查询:在 prompt 中明确要求查询 X 上的热门话题,以利用实时数据管道并突破训练数据截止日期的限制。

侧重 STEM:在处理研究生水平的数学问题时优先使用 Grok,它在 zero-shot 任务上的表现明显优于竞争对手。

核实基础逻辑:双重检查简单的计数或列表排序,因为该 model 在处理琐碎任务时可能会出现不一致的情况。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M

关于Grok-4的常见问题

查找关于Grok-4的常见问题答案