xai

Grok-4

由 xAI 推出的 Grok-4 是一款 frontier model,具有 2M token 的 context window、实时 X 平台集成和世界级的推理能力。

xai logoxaiGrok2025年7月9日
上下文
2.0Mtokens
最大输出
8Ktokens
输入价格
$3.00/ 1M
输出价格
$15.00/ 1M
模态:TextImage
能力:视觉工具流式传输推理
基准测试
GPQA
87.5%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Grok-4 在此基准测试中得分 87.5%。
HLE
44.4%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Grok-4 在此基准测试中得分 44.4%。
MMLU
94%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Grok-4 在此基准测试中得分 94%。
MMLU Pro
81.2%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Grok-4 在此基准测试中得分 81.2%。
SimpleQA
48%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Grok-4 在此基准测试中得分 48%。
IFEval
89.2%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Grok-4 在此基准测试中得分 89.2%。
AIME 2025
100%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Grok-4 在此基准测试中得分 100%。
MATH
92%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Grok-4 在此基准测试中得分 92%。
GSM8k
98.4%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Grok-4 在此基准测试中得分 98.4%。
MGSM
92.1%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Grok-4 在此基准测试中得分 92.1%。
MathVista
72.4%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Grok-4 在此基准测试中得分 72.4%。
SWE-Bench
81%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Grok-4 在此基准测试中得分 81%。
HumanEval
88%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Grok-4 在此基准测试中得分 88%。
LiveCodeBench
79.4%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Grok-4 在此基准测试中得分 79.4%。
MMMU
75%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Grok-4 在此基准测试中得分 75%。
MMMU Pro
59.2%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Grok-4 在此基准测试中得分 59.2%。
ChartQA
90.5%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Grok-4 在此基准测试中得分 90.5%。
DocVQA
93.2%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Grok-4 在此基准测试中得分 93.2%。
Terminal-Bench
54.2%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Grok-4 在此基准测试中得分 54.2%。
ARC-AGI
15.9%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Grok-4 在此基准测试中得分 15.9%。

关于 Grok-4

了解 Grok-4 的功能、特性以及它如何帮助您获得更好的效果。

模型概述

Grok-4 是来自 xAI 的 frontier multimodal model。它旨在优先考虑第一性原理推理和实时信息检索。该模型通过与 X 社交媒体平台的原生集成获得了巨大的竞争优势。这使它能够实时分析全球对话和正在发生的实时新闻。它利用 Colossus 超级计算机 进行训练,从而在数学和技术领域实现了顶级性能。

技术能力

其架构在推理变体中支持 200 万 token 的 context window。这一容量使得处理海量代码库和密集的技术文档而不会丢失数据成为可能。它采用双模式系统,用户可以在用于快速交互的高速模式和用于多步逻辑任务的深度思考模式之间进行选择。该模型通过在其 Heavy 配置中采用多 agent 共识机制,将幻觉率控制在 4% 左右。

生态集成

除了简单的文本生成外,Grok-4 还专为原生工具使用和复杂的 function calling 而设计。它支持图像和音频处理,使其成为开发者构建 multimodal 应用的通用选择。其对齐策略专注于客观的真实追求,而非标准的行业安全护栏。与其他 frontier model 相比,这导致它对争议性或前卫话题的拒绝情况更少。

Grok-4

Grok-4 的使用案例

发现使用 Grok-4 获得出色效果的不同方式。

实时情绪分析

分析 X 上的实时帖子,以判断公众对突发新闻或产品发布的反应。

大规模代码库审计

利用 2M token 的 context window 评估整个软件仓库,从而发现架构缺陷。

奥林匹克级数学解题

为复杂的数学证明和 AIME 级别的难题提供分步解决方案。

无过滤的创意内容

在没有其他 AI 提供商限制性过滤器的情况下,生成以角色为导向的剧本和幽默内容。

科学研究综合

同时总结多篇博士级学术论文,并保持技术准确性。

技术调试

识别生产代码中的隐藏 Bug,并根据当前的最佳实践提出修复建议。

优势

局限性

精英级的数学推理: 在 AIME 2025 benchmark 中取得了 100% 的完美成绩,在逻辑方面超越了大多数 frontier model。
Heavy 模式延迟: 多 agent 推理模式可能需要几分钟才能生成一个高精度的响应。
业界领先的 context 能力: 2M token 的 context window 为文档分析和大规模编程项目提供了前所未有的深度。
视频支持不完整: 尽管文本和图像能力处于顶级水平,但原生的逐帧视频处理功能尚不可用。
实时社交智能: 直接访问 X 平台,提供了静态训练数据无法复制的实时信息。
区域访问受限: 由于监管要求,目前在欧盟境内禁用了持久记忆功能。
极低的拒绝率: 更宽松的安全架构允许就争议性话题进行诚实、客观的对话。
视觉精度限制: 开发者承认,在解释极高保真度的视觉细节时,模型仍存在一定的盲区。

API快速入门

xai/grok-4

查看文档
xai SDK
import OpenAI from "openai";

const grok = new OpenAI({
  apiKey: process.env.XAI_API_KEY,
  baseURL: "https://api.x.ai/v1",
});

async function main() {
  const completion = await grok.chat.completions.create({
    model: "grok-4",
    messages: [{ role: "user", content: "Search X for the latest news on SpaceX." }],
    stream: true,
  });

  for await (const chunk of completion) {
    process.stdout.write(chunk.choices[0]?.delta?.content || "");
  }
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Grok-4 的评价

看看社区对 Grok-4 的看法

Grok 4 fast 有 2M token 的 context window!!!我真不知道我们为什么还在苦苦挣扎并凑合使用 ChatGPT。
myfuturewifee
reddit
在 ARC-AGI v2 私有子集上达到 15.88% 真是太疯狂了。Grok 4 是几个月来第一个打破 10% 门槛的模型。
Greg (ARC-AGI Lead)
twitter
Grok 4 Heavy 中的多 agent 研究小组方法是使用 test-time compute 的正确方式。它确实能找到问题的诀窍。
Tony_xAI
twitter
Grok 4: 在 LiveCodeBench 上得分为 79……benchmark 无法告诉你用该模型编码的实际感觉,但这感觉非常值得信赖。
thankzr3ddit
reddit
该模型在各方面都达到了研究生甚至是博士级别。它聪明得可怕,而且学习速度比任何人类都要快。
Elon Musk
youtube
实时搜索不仅是抓取头条新闻;它还能分析跨多个来源的内容。
BitBiasedAI
youtube

关于 Grok-4 的视频

观看关于 Grok-4 的教程、评测和讨论

Grok 4 heavy 适用于更复杂的逻辑和推理任务,而常规版 Grok 4 处理其他任务。

它非常准确地追踪了我的手和手指在屏幕上的绘画轨迹。

Grok 4 只用了 15 秒的思考时间,就找到了我藏在 context window 深处的密码。

在 200 万 token 的“大海捞针”测试中,准确率达到了 100%。

对于那些觉得 Gemini 的 context window 不可靠的人来说,这款模型终于是一个真正的替代品。

Grok 4 在各方面都达到了研究生甚至是博士级别,比大多数博士都要强。

Grok 4 Heavy 并行生成多个 agent……这就像一个研究小组。

它已经在 API 上线,拥有 256k 的 context length,未来还有更多计划。

在 Colossus 集群上的训练赋予了它我们从未见过的推理能力。

它的设计初衷是成为目前世界上最追求真实性的 AI。

Grok 4 Heavy 针对你的单个 prompt 最多运行 32 个并行 AI 模型。

实时搜索不仅是抓取头条新闻,它还能跨多个来源分析内容。

思考模式会花费额外的计算时间在响应前进行规划并捕捉潜在错误。

如果你有 API 权限,你甚至可以在日志中看到 agent 之间互相辩论的过程。

其音频的多模态性能比上一代明显更快。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Grok-4专业提示

专家提示助您充分利用Grok-4。

使用搜索关键词

在 prompt 中包含特定的标签或账户,以引导模型进行实时的 X 搜索。

切换至 Heavy 模式

对于准确性重于响应速度的任务,请激活 Grok-4 Heavy。

提供详细的人格设定

利用其宽松的安全对齐机制,通过定义特定、前卫的人格设定来进行创意写作。

分析外部链接

将实时 URL 直接粘贴到聊天框中,模型即可提取并总结最新的网页内容。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

关于Grok-4的常见问题

查找关于Grok-4的常见问题答案