moonshot

Kimi K2 Thinking

Kimi K2 Thinking 是 Moonshot AI 的万亿参数 reasoning 模型。它在 HLE 上超越了 GPT-5,并支持 300 次自主连续工具调用,适用于...

moonshot logomoonshotKimi K22025 年 11 月 6 日
上下文
256Ktokens
最大输出
16Ktokens
输入价格
$0.15/ 1M
输出价格
$0.15/ 1M
模态:Text
能力:工具流式传输推理
基准测试
GPQA
93%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Kimi K2 Thinking 在此基准测试中得分 93%。
HLE
44.9%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Kimi K2 Thinking 在此基准测试中得分 44.9%。
MMLU
90%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Kimi K2 Thinking 在此基准测试中得分 90%。
MMLU Pro
78%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Kimi K2 Thinking 在此基准测试中得分 78%。
SimpleQA
55%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Kimi K2 Thinking 在此基准测试中得分 55%。
IFEval
92%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Kimi K2 Thinking 在此基准测试中得分 92%。
AIME 2025
99.1%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Kimi K2 Thinking 在此基准测试中得分 99.1%。
MATH
99.1%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Kimi K2 Thinking 在此基准测试中得分 99.1%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Kimi K2 Thinking 在此基准测试中得分 99%。
MGSM
95%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Kimi K2 Thinking 在此基准测试中得分 95%。
MathVista
75%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Kimi K2 Thinking 在此基准测试中得分 75%。
SWE-Bench
71.3%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Kimi K2 Thinking 在此基准测试中得分 71.3%。
HumanEval
83%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Kimi K2 Thinking 在此基准测试中得分 83%。
LiveCodeBench
83.1%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Kimi K2 Thinking 在此基准测试中得分 83.1%。
MMMU
80%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Kimi K2 Thinking 在此基准测试中得分 80%。
MMMU Pro
60%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Kimi K2 Thinking 在此基准测试中得分 60%。
ChartQA
88%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Kimi K2 Thinking 在此基准测试中得分 88%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Kimi K2 Thinking 在此基准测试中得分 94%。
Terminal-Bench
55%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Kimi K2 Thinking 在此基准测试中得分 55%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Kimi K2 Thinking 在此基准测试中得分 12%。

关于 Kimi K2 Thinking

了解 Kimi K2 Thinking 的功能、特性以及它如何帮助您获得更好的效果。

万亿参数 Mixture-of-Experts

Kimi K2 Thinking 是一款利用 Mixture-of-Experts (MoE) 架构的万亿参数 reasoning 模型。由 Moonshot AI 于 2025 年末发布,它在 inference 时仅激活 32B 参数,平衡了海量知识容量与计算效率。它专门被设计为一种思考型 agent,在 inference 阶段扩展其计算能力以解决复杂的逻辑问题。这种方法允许模型在给出最终答案之前反思自己的 reasoning 并纠正错误。

Agentic 工具使用与规划

该模型凭借其能够自主处理多达 300 次连续工具调用的能力而脱颖而出。虽然大多数标准 language model 在长远规划方面表现吃力,但 K2 Thinking 是专为 agentic 工作流(如自主网页浏览和多步软件工程)而构建的。它通过 Quantization-Aware Training 原生支持 INT4 精度,使模型在标准企业级硬件集群上运行时仍能保持 frontier-level 的性能。

开发者与研究重点

凭借 256K 的 context window,该模型专为深度研究和复杂技术任务而构建。它弥合了 closed-source 系统与 open-weights 模型之间的性能差距。它解决博士级科学问题和竞技数学问题的能力,使其成为学术研究、自动化编码助手以及对逻辑一致性有极高要求的应用场景的理想选择。

Kimi K2 Thinking

Kimi K2 Thinking 的使用案例

发现使用 Kimi K2 Thinking 获得出色效果的不同方式。

复杂软件工程

通过迭代式自我修正解决真实的 GitHub issue 并构建多文件代码库。

自主研究 Agent

执行数百次连续的工具调用,以收集和综合深奥的技术资料。

奥数级数学解题

通过深度的 chain-of-thought 验证,解决高级几何和代数问题。

博士级科学探索

回答物理和生物学领域需要多步逻辑推导的专家级问题。

交互式计算机控制

导航终端环境和云基础设施,实现 DevOps 工作流自动化。

重逻辑创意写作

生成需要严格遵守复杂世界观规则的长文本内容。

优势

局限性

state-of-the-art 的 Reasoning 能力: 在 HLE 工具调用 benchmark 上得分 44.9%,在专家级逻辑方面超越了主流 closed-source 模型。
极高的资源需求: 即使经过量化,本地 inference 至少需要 245GB 的 VRAM,限制了其在高端服务器集群之外的使用。
出色的 Agentic 深度: 支持 300 次连续工具调用,实现真正的自主网络研究和浏览器任务。
固有的响应 latency: 深度的 reasoning 过程会导致显著的等待时间,因为 model 会增加 test-time 的计算量。
顶尖的数学准确性: 在 AIME 2025 上达到 94.5% 的准确率,证明了其在高级数学解题方面的可靠性。
缺乏原生 Multimodal 支持: 该版本无法直接处理图像或视频输入,进行 multimodal 任务时需要单独的视觉模型。
Open-Weights 可访问性: 为开发者社区提供 frontier model 级别的智能,支持本地部署和 fine-tuning。
高额的 Token 开销: 内部 reasoning 步骤会消耗大量输出 tokens,这增加了简单查询的 API 成本。

API快速入门

moonshot/kimi-k2-thinking

查看文档
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Design a system for autonomous code review using 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Kimi K2 Thinking 的评价

看看社区对 Kimi K2 Thinking 的看法

Kimi K2.5 是编码方面最好的 open 模型,他们真的做出了精品。
npc_gooner
reddit
Moonshot AI 刚刚发布了 Kimi K2 Thinking。300 次连续工具调用?这就是 Agentic AI 的未来。
@tech_trends
twitter
Kimi 发布了 Kimi K2 Thinking,一个 open-source 的万亿参数 reasoning 模型。这才是真家伙。
nekofneko
reddit
它能够连续处理 300 次工具调用的事实开启了全新的 agent 工作流。
AI Explained
youtube
看到一个 open-source 模型达到这样的数值令人印象深刻。test-time 缩放方法显然正在发挥作用。
jsmith23
hackernews
在本地运行这个模型是一个挑战,但其 reasoning 深度是 open weights 领域中独一无二的。
LocalLlamaEnthusiast
reddit

关于 Kimi K2 Thinking 的视频

观看关于 Kimi K2 Thinking 的教程、评测和讨论

Kimi K2 Thinking 是我用过最好的 AI 模型。

这是有史以来最独立的 agentic 模型,意味着它可以独立运行数小时。

它能够在每一步进行思考和反思,因此永远不会迷失方向。

尽管有万亿参数,其 reasoning 速度却快得惊人。

如果你正在构建 agents,这就是你想要关注的架构。

Kimi K2 Thinking... 是对 Kimi K2 模型的一次思考升级,该模型目前评价极高。

这当然是一个 open-source 模型... 总大小约为 1 万亿参数。

所有 benchmark 结果均在 int4 精度下报告。

它以媲美顶级实验室的逻辑处理复杂的数学问题。

如果你有足够的 VRAM,本地 weight 的安装过程相当简单。

Kimi K2.5 是由中国公司 Moonshot AI 开发的最新 open-source 模型。

它能够启动多达 100 个子 agents 和 1500 次工具调用并并发运行。

如果你想制作一个真正精美的网站,我绝对推荐它。

内部的 chain-of-thought 允许它在提供最终答案之前自我纠正代码错误。

Moonshot 在这个版本中非常专注于长期规划能力。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Kimi K2 Thinking专业提示

专家提示助您充分利用Kimi K2 Thinking。

启用 Thinking 输出

在你的 inference 引擎中使用特殊 token 标志来查看 model 的内部 reasoning 步骤。

优化 Temperature

将采样 temperature 设置为 1.0,min_p 设置为 0.01,以获得最稳定的 reasoning 流程。

利用 System Prompts

在对话开始时使用官方 Moonshot AI 的身份 prompt,以稳定 model 的行为。

扩展 Test-Time Compute

对于较难的问题,允许 model 生成更多的内部 tokens 以提高准确性。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

关于Kimi K2 Thinking的常见问题

查找关于Kimi K2 Thinking的常见问题答案