Kimi K2.5

探索 Moonshot AI 的 Kimi K2.5:一款拥有 1T parameters 的 open-source agentic model,具备原生 multimodal 能力、262K context window 和 state-of-the-art 的 reasoning 表现。

Agentic AIMultimodalOpen-sourceReasoningMoE
moonshot logomoonshotKimi K 系列2026年1月27日
上下文
262Ktokens
最大输出
33Ktokens
输入价格
$0.60/ 1M
输出价格
$2.50/ 1M
模态:TextImageVideo
能力:视觉工具流式传输推理
基准测试
GPQA
87.6%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Kimi K2.5 在此基准测试中得分 87.6%。
HLE
50.2%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Kimi K2.5 在此基准测试中得分 50.2%。
MMLU
92%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Kimi K2.5 在此基准测试中得分 92%。
MMLU Pro
87.1%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Kimi K2.5 在此基准测试中得分 87.1%。
SimpleQA
54%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Kimi K2.5 在此基准测试中得分 54%。
IFEval
94%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Kimi K2.5 在此基准测试中得分 94%。
AIME 2025
96.1%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Kimi K2.5 在此基准测试中得分 96.1%。
MATH
98%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Kimi K2.5 在此基准测试中得分 98%。
GSM8k
99%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Kimi K2.5 在此基准测试中得分 99%。
MGSM
96%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Kimi K2.5 在此基准测试中得分 96%。
MathVista
84.2%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Kimi K2.5 在此基准测试中得分 84.2%。
SWE-Bench
76.8%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Kimi K2.5 在此基准测试中得分 76.8%。
HumanEval
99%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Kimi K2.5 在此基准测试中得分 99%。
LiveCodeBench
85%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Kimi K2.5 在此基准测试中得分 85%。
MMMU
84%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Kimi K2.5 在此基准测试中得分 84%。
MMMU Pro
78.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Kimi K2.5 在此基准测试中得分 78.5%。
ChartQA
77.5%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Kimi K2.5 在此基准测试中得分 77.5%。
DocVQA
88.8%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Kimi K2.5 在此基准测试中得分 88.8%。
Terminal-Bench
50.8%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Kimi K2.5 在此基准测试中得分 50.8%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Kimi K2.5 在此基准测试中得分 12%。

关于 Kimi K2.5

了解 Kimi K2.5 的功能、特性以及它如何帮助您获得更好的效果。

Agentic 智能的新边疆

Kimi K2.5 是来自 Moonshot AI 的 flagship open-source agentic model,代表了统一 multimodal 智能的重大飞跃。它基于庞大的 1 万亿参数混合专家 (MoE) 架构构建,拥有 320 亿激活 parameters,将文本、图像和视频处理原生集成到单个 reasoning 框架中。与传统的 LLM 不同,K2.5 专门为自主执行而设计,具有独特的 'Thinking' 模式,使其能够在无需人工干预的情况下,通过自我纠错来推理并解决复杂的、多步骤的问题。

架构突破

该 model 引入了一项名为 'Agent Swarm' 的革命性功能,使系统能够动态协调多达 100 个并行子 agent 来解决海量的研究或工程任务。通过在 SWE-Bench 和 AIME 2025 等 benchmark 中取得顶级表现,Kimi K2.5 有效弥补了 open-source 模型与闭源 frontier model 之间的差距,以极低的运营成本提供精英级的能力。其集成的 MoonViT-3D 编码器实现了前所未有的视频理解,能够覆盖数小时的内容并保持极高的时序准确度。

无与伦比的效率

除了原生动力,K2.5 还专注于可持续的 token 经济学。通过利用强力的 context 缓存和高度优化的 MoE 结构,它在提供媲美最昂贵 closed-source 模型性能的同时,保持了极具竞争力的价格(每百万 input tokens 0.60 美元)。这使其成为希望大规模部署复杂、长 context 自主 agent 的企业的理想骨干。

Kimi K2.5

Kimi K2.5 的使用案例

发现使用 Kimi K2.5 获得出色效果的不同方式。

自主软件工程

:解决复杂的 GitHub issue,并根据视觉 UI 草图进行全栈网站克隆。

奥数级数学解题

:应对高级数学证明和竞赛级难题,在 AIME 2025 上达到 96% 以上的准确率。

长视频 reasoning

:分析并总结长达两小时的视频内容,无 context 丢失或时序衰减。

动态研究 agent

:使用 'Agent Swarm' 进行多线程网页研究,并并行综合来自数百个数据源的信息。

美观的前端生成

:将手绘 UI 线框图或截图转换为带有生动动效的、功能完备的 React 代码。

自主终端控制

:执行复杂的 bash 命令和系统级操作,以管理服务器集群和开发环境。

优势

局限性

顶级数学 reasoning: :在 AIME 2025 上取得 96.1% 的成绩,在纯逻辑推演方面超越了几乎所有 closed-source 模型。
硬件要求极高: :在本地运行完整的 1T model 需要企业级 AI 集群,配备多个 H100 或 B200 GPU。
海量并行: :'Agent Swarm' 能力支持 100 多个子 agent,大幅缩短研究任务的完成时间。
Thinking 延迟: :与标准处理相比,激活深度 reasoning 模式会显著增加首个 token 的生成 latency。
统一 multimodal 架构: :原生处理 2 小时视频和高分辨率图像,无需独立的 vision 编码器。
博士级知识差距: :在 'Humanity's Last Exam' 中得分为 50.2%,表明在高水平科学专业知识方面仍有提升空间。
极具竞争力的 token 经济性: :每 100 万 input tokens 仅需 0.60 美元,比 Claude 4.5 等同类 frontier model 便宜约 8-10 倍。
合规考量: :作为中国 model,其 API 使用和数据主权对于西方企业可能涉及不同的监管框架。

API快速入门

fireworks/kimi-k2p5

查看文档
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1'
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [{ role: 'user', content: 'Create a full-stack Next.js dashboard with a dark mode glassmorphism UI.' }],
    max_tokens: 2048,
  });
  console.log(response.choices[0].message.content);
}

main();

安装SDK并在几分钟内开始进行API调用。

人们对 Kimi K2.5 的评价

看看社区对 Kimi K2.5 的看法

"对于一个 open model 来说,AIME 2025 的 reasoning 能力简直不可思议。"
LogicLover
reddit
"Kimi K2.5 刚刚为长视频理解树立了新标杆。终于有一个 model 不会忘记片段的开头了。"
AI_Pioneer
x
"将 K2.5 作为 coding agent 是游戏规则的改变者。它的 SWE-Bench 评分不只是个数字,你能感受到它的实力。"
DevGuru
hackernews
"中国刚刚发布了 Kimi K2.5,其性能一如既往地与美国 frontier model 旗鼓相当。"
BasedTorba
x
"来自中国的 Kimi 刚刚粉碎了 OpenAI 的万亿商业梦想……价格便宜 8 倍。"
nrqa__
x
"Kimi K2.5 是第一个真正让人感觉像是 co-pilot 而不仅仅是一个对话框的 model。"
CodeWizard
reddit

关于 Kimi K2.5 的视频

观看关于 Kimi K2.5 的教程、评测和讨论

测试 AIME 题目时,Kimi K2.5 几乎全部正确,甚至包括 GPT-4o 都感到棘手的题目。

对于 coding 任务,与标准 LLM 相比,agentic 能力显然是该 model 的闪光点。

在当前市场下,像这样一个拥有万亿 parameters 的 model 能够 open-source 是史无前例的。

在我最初的数学测试中,你看到的逻辑处理能力足以媲美 o1。

token 定价非常低,这实际上终结了在基础任务中使用闭源 frontier model 的理由。

能够一次性处理两小时视频且不丢失 context 是一个巨大的突破。

它不仅是一个对话 model;它从底层设计上就是为了使用工具和终端而生的。

当你触发 Swarm 模式时,网页研究的并行能力基本上是无可匹敌的。

这是 Moonshot AI 在向世界宣告,他们拥有足够的算力和人才。

看到它操作实时终端来修复 bug,这就是自主工程的未来。

Kimi K2.5 在 BrowseComp benchmark 中的飞跃表明,它能以我们从未见过的持久性在网页中导航。

它将 vision 和 thinking 模式统一到同一个架构中,这才是真正的架构级亮点。

在 MMLU 和 GSM8k 上的表现证明了用于训练的数据质量是顶级的。

与之前的版本不同,这里的视频理解没有出现时序衰减问题。

如果你是开发者,OpenAI 的兼容性使得切换到此 model 进行测试几乎是零成本的。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流
观看演示视频

Kimi K2.5专业提示

专家提示助您充分利用Kimi K2.5。

利用 Thinking 模式:在 prompt 中明确要求 model '逐步思考',以激活其处理重逻辑数学或代码任务的 reasoning 模式。

视频 context 优势:使用 model 的 MoonViT-3D 编码器处理超长视频;它在从 2 小时片段中寻找特定细节方面表现出色。

Agent 编排:对于大型项目,利用 swarm 能力让 K2.5 将任务拆分为子任务,从而加快执行速度。

缓存命中节省:优化您的 API 调用结构,利用 Moonshot 强力的 context 缓存功能,最高可降低 75% 的输入成本。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

关于Kimi K2.5的常见问题

查找关于Kimi K2.5的常见问题答案