moonshot

Kimi K2 Thinking

Kimi K2 Thinking 是 Moonshot AI 研发的万亿参数 reasoning model。它在 HLE benchmark 上超越了 GPT-5,并支持开发者进行 300 次自主连续 tool calls。

moonshot logomoonshotKimi2025-11-06
上下文
256Ktokens
最大输出
16Ktokens
输入价格
$0.15/ 1M
输出价格
$0.15/ 1M
模态:Text
能力:工具流式传输推理
基准测试
GPQA
93%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Kimi K2 Thinking 在此基准测试中得分 93%。
HLE
44.9%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Kimi K2 Thinking 在此基准测试中得分 44.9%。
MMLU
90%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Kimi K2 Thinking 在此基准测试中得分 90%。
MMLU Pro
78%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Kimi K2 Thinking 在此基准测试中得分 78%。
SimpleQA
55%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Kimi K2 Thinking 在此基准测试中得分 55%。
IFEval
92%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Kimi K2 Thinking 在此基准测试中得分 92%。
AIME 2025
99.1%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Kimi K2 Thinking 在此基准测试中得分 99.1%。
MATH
99.1%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Kimi K2 Thinking 在此基准测试中得分 99.1%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Kimi K2 Thinking 在此基准测试中得分 99%。
MGSM
95%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Kimi K2 Thinking 在此基准测试中得分 95%。
MathVista
75%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Kimi K2 Thinking 在此基准测试中得分 75%。
SWE-Bench
71.3%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Kimi K2 Thinking 在此基准测试中得分 71.3%。
HumanEval
83%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Kimi K2 Thinking 在此基准测试中得分 83%。
LiveCodeBench
83.1%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Kimi K2 Thinking 在此基准测试中得分 83.1%。
MMMU
80%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Kimi K2 Thinking 在此基准测试中得分 80%。
MMMU Pro
60%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Kimi K2 Thinking 在此基准测试中得分 60%。
ChartQA
88%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Kimi K2 Thinking 在此基准测试中得分 88%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Kimi K2 Thinking 在此基准测试中得分 94%。
Terminal-Bench
55%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Kimi K2 Thinking 在此基准测试中得分 55%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Kimi K2 Thinking 在此基准测试中得分 12%。

关于 Kimi K2 Thinking

了解 Kimi K2 Thinking 的功能、特性以及它如何帮助您获得更好的效果。

万亿参数的开放智能

Kimi K2 Thinking 是来自 Moonshot AI 的一款突破性万亿参数 reasoning model,它重新定义了 open-source 智能的边界。该 model 于 2025 年 11 月发布,采用了复杂的 MoE 架构,拥有 1T 总 parameters,但 inference 时仅激活 32B,使其既强大又具备极高的计算效率。与标准的语言模型不同,K2 Thinking 被设计为一个“思考代理”,通过扩展 test-time computation 来执行深层的逻辑 reasoning、规划和自主 tool use。

agentic 实力与可扩展性

该 model 以其卓越的 agentic 能力而闻名,能够在无需人工干预的情况下成功执行多达 300 个连续的 tool calls。这使其成为复杂研究、竞赛编程和多步技术工作流的理想选择。通过 Quantization-Aware Training 原生利用 INT4 精度,Moonshot AI 使这款庞大的 model 能够在商用硬件集群上运行,同时在关键的 reasoning 和浏览 benchmarks 中超越了 GPT-5 和 Claude 4.5 等 closed-source 巨头。

开发者优先的架构

Kimi K2 Thinking 专为全球开发者社区设计,提供了无可比拟的性价比指标。凭借海量的 256K context window 以及对大规模 chain-of-thought 处理的支持,它弥补了本地专用 models 与企业级云端 API 之间的鸿沟。其训练方法论专注于长程规划,允许 model 进行迭代式的自我反思、纠错和输出优化。

Kimi K2 Thinking

Kimi K2 Thinking 的使用案例

发现使用 Kimi K2 Thinking 获得出色效果的不同方式。

自主研究

:执行深度网络查询,这类查询通常需要数百个连续的 tool calls 和迭代的信息验证。

科学问题解决

:利用 Python 工具执行和 chain-of-thought 处理,解决博士级别的数学和物理问题。

竞赛编程

:以博士级别的准确度解决来自 Codeforces 和 LeetCode 等平台的高难度算法挑战。

复杂代码调试

:通过详尽且长程的 reasoning 步骤,识别并修复大型多文件代码库中的逻辑错误。

法律与合规分析

:在 256K context window 范围内审阅冗长的技术或法律文档,以识别细微的风险或矛盾。

agentic AI 自动化

:为自主 agents 提供动力,使其能够无需人工干预地进行数小时的计划、执行、反思和自我完善。

优势

局限性

agentic 深度: :唯一能够在不降低性能的情况下,管理 200–300 个连续 tool calls 的开放 weights model。
仅限文本输入: :目前缺乏处理直接图像、视频或音频文件的原生 multimodal 视觉支持。
state-of-the-art reasoning: :通过高强度的 test-time scaling,在 Humanity's Last Exam (HLE) 和 BrowseComp 上超越了 GPT-5 和 Claude 4.5。
海量 RAM 需求: :本地部署完整的 1T 架构需要超过 500GB 的 RAM 或分布式 Mac 集群。
无与伦比的成本效率: :定价为统一的 $0.15/1M tokens,以极低的成本提供 frontier model 级别的智能,仅为闭源 API 成本的一小部分。
初始 Token 延迟: :与非 reasoning LLMs 相比,高强度的内部 reasoning 阶段导致 time-to-first-token 较慢。
原生 INT4 优化: :通过 Quantization-Aware Training 实现的原生量化,为在商用硬件上的本地 inference 提供了 2 倍的速度提升。
reasoning 冗长: :即使对于相对简单的问题,model 也可能生成过长的 chain-of-thought 序列。

API快速入门

moonshot/kimi-k2-thinking

查看文档
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Kimi K2 Thinking 的评价

看看社区对 Kimi K2 Thinking 的看法

"Kimi K2 Thinking 是我用过最好的 AI model……没有幻觉,而且能处理数百个 tool calls。"
Alex Finn
youtube
"随着 tokens 成本的崩塌,closed-source 与 open-source 之间的差距正在不断缩小。"
Emad Mostaque
x
"Moonshot K2-Thinking 正在通过 300 个 tool calls 重新定义本地智能 agents。"
Brian Roemmele
x
"终于有一个 model 能在回答前真正透彻思考 prompt 逻辑了!"
ai_user_2025
reddit
"中国正通过 Kimi 系列不断推高 open-source 和开放 weights 的 frontier model 边界。"
Nathan Lambert
x
"在竞赛数学问题上的表现简直令人惊叹。"
MathWizard
hackernews

关于 Kimi K2 Thinking 的视频

观看关于 Kimi K2 Thinking 的教程、评测和讨论

这是有史以来最具有 agentic 独立性的 model。

它能够在每一步都进行思考和反思,因此永远不会迷失方向。

它的成本效益极高……价格只有 GPT-5 的一半,大约是 Sonnet 4.5 的十分之一。

它成功避开了标准 LLMs 常见的逻辑陷阱。

Moonshot 确实改变了开放 weights 可访问性的游戏规则。

它可以在无需人工干预的情况下执行多达 200 到 300 个连续的 tool calls。

K2 thinking 取得了 60.2% 的分数,在 BrowseComp 上显著超越了 29.2% 的人类基准线。

中国正在全力推进 open-source 和开放 weights 的 frontier model 前沿。

这里的 MoE 实现在处理 1 万亿 parameters 时效率惊人。

你基本上只需花极少的钱就能获得 frontier model 级别的 reasoning 能力。

我已经让它在 Mac Studio 上跑起来了,使用的是专用的控制限制方案。

我们占用了 500 GB 的 RAM。处理速度慢了下来,大约每秒 6.9 个 tokens。

它确实写出了这段代码,但并没有停下来,而是又开始了新一轮的思考。

即使经过了量化,该 model 的逻辑连贯性依然是顶级水准。

内部独白清晰地展示了它是如何纠正自己的编码错误的。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

Kimi K2 Thinking专业提示

专家提示助您充分利用Kimi K2 Thinking。

开启 Thinking Tags:通过 llama.cpp 等工具本地运行时,确保使用 --special 标志以正确渲染内部 <think> tokens。

优化 Temperature:将 temperature 设置为 1.0,min_p 设置为 0.01,以获得最稳定且严谨的 reasoning 结果。

硬件集群化:在通过 RDMA 连接的两台 Mac Studio M3 Ultras 集群上部署 INT4 quantized 版本,即可获得无损的 1T 本地体验。

长程规划:在构建 prompt 时,明确要求先提供“分步计划”,以触发 model 的自适应学习和搜索优势。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

关于Kimi K2 Thinking的常见问题

查找关于Kimi K2 Thinking的常见问题答案