moonshot

Kimi K2.5

探索 Moonshot AI 的 Kimi K2.5,这是一款 1T 参数的 open-source agentic 模型,具备原生多模态能力、262K context window 和 SOTA reasoning。

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimiJanuary 27, 2026
上下文
256Ktokens
最大输出
66Ktokens
输入价格
$0.60/ 1M
输出价格
$3.00/ 1M
模态:TextImageVideo
能力:视觉工具流式传输推理
基准测试
GPQA
87.6%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Kimi K2.5 在此基准测试中得分 87.6%。
HLE
50.2%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Kimi K2.5 在此基准测试中得分 50.2%。
MMLU
91.5%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Kimi K2.5 在此基准测试中得分 91.5%。
MMLU Pro
87.1%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Kimi K2.5 在此基准测试中得分 87.1%。
SimpleQA
48%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Kimi K2.5 在此基准测试中得分 48%。
IFEval
85%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Kimi K2.5 在此基准测试中得分 85%。
AIME 2025
96.1%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Kimi K2.5 在此基准测试中得分 96.1%。
MATH
90.1%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Kimi K2.5 在此基准测试中得分 90.1%。
GSM8k
97.1%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Kimi K2.5 在此基准测试中得分 97.1%。
MGSM
95%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Kimi K2.5 在此基准测试中得分 95%。
MathVista
90.1%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Kimi K2.5 在此基准测试中得分 90.1%。
SWE-Bench
76.8%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Kimi K2.5 在此基准测试中得分 76.8%。
HumanEval
88%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Kimi K2.5 在此基准测试中得分 88%。
LiveCodeBench
85%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Kimi K2.5 在此基准测试中得分 85%。
MMMU
78.5%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Kimi K2.5 在此基准测试中得分 78.5%。
MMMU Pro
78.5%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Kimi K2.5 在此基准测试中得分 78.5%。
ChartQA
77.5%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Kimi K2.5 在此基准测试中得分 77.5%。
DocVQA
88.8%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Kimi K2.5 在此基准测试中得分 88.8%。
Terminal-Bench
50.8%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Kimi K2.5 在此基准测试中得分 50.8%。
ARC-AGI
12%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Kimi K2.5 在此基准测试中得分 12%。

关于 Kimi K2.5

了解 Kimi K2.5 的功能、特性以及它如何帮助您获得更好的效果。

Kimi K2.5 是 Moonshot AI 推出的 open-source 多模态模型。它采用 1 万亿参数的 Mixture-of-Experts 架构,每个 token 激活 320 亿参数。该系统通过单一的 reasoning 框架统一了文本、图像和视频处理,而不是为每种模态使用单独的外部编码器。这种架构使模型能够处理 256,000 token 的上下文,同时在超长序列中保持高检索准确性和逻辑一致性。

该模型的独特之处在于其 Agent Swarm 功能。此功能允许系统协调多达 100 个并行子 agent 同时执行复杂的研究或工程任务。通过集成 4 亿参数的 MoonViT-3D 编码器,K2.5 可以精确分析数小时的视频内容。它专为自主执行而设计,在 SWE-Bench 和 BrowseComp 等 agentic benchmark 上表现优于许多 proprietary 模型。

Kimi K2.5 为需要深度逻辑的任务提供了专门的 Thinking 模式。启用后,模型会生成内部 reasoning 链,在生成最终答案前进行自我纠正和步骤验证。这使其在竞赛级数学和大规模软件开发方面极其有效。其 token 经济性针对企业部署进行了优化,以极低的成本提供 frontier 级别的智能。

Kimi K2.5

Kimi K2.5 的使用案例

发现使用 Kimi K2.5 获得出色效果的不同方式。

自主软件工程

利用针对 SWE-Bench 优化的逻辑,解决复杂的 GitHub 问题并构建多文件项目架构。

视觉 Web 开发

直接根据现有网站交互的屏幕录像,创建功能性的前端代码和 UI 设计。

多线程研究

使用 Agent Swarm 在单一并行工作流中抓取并综合来自 100 多个来源的信息。

长视频分析

无需外部帧提取工具,即可从数小时的安防或讲座录像中提取特定事件和时间数据。

数学证明生成

应用 deep thinking 模式解决奥数级别的数学问题,准确率达到 96%。

企业文档自动化

从非结构化商业数据源生成多页 PDF 报告和复杂的财务电子表格。

优势

局限性

精英级的 Agentic 性能: 在 SWE-Bench Verified 上得分 76.8,在软件工程任务中超越了许多 proprietary 的 frontier model。
极高的本地 VRAM 需求: 完整未量化模型需要 632GB VRAM,这对大多数消费级用户来说无法在本地部署。
无与伦比的 token 经济性: 以每百万输入 token $0.60 的价格提供 1T 参数的 MoE 智能,成本约为 Claude Opus 的 10%。
较高的 reasoning 延迟: Thinking 模式可能会带来显著延迟,因为模型在回复前需要生成内部逻辑链。
原生视频理解: 无需外部帧提取即可处理复杂的视频文件,实现对长录像的精确时序分析。
格式重复: 除非严格要求使用特定的段落结构,否则可能会生成过长的文本墙。
并行 Swarm 编排: 唯一训练有素、可协调多达 100 个子 agent 进行大规模多线程研究工作流的 open model。
数据驻留担忧: 主要基础设施位于中国,对于某些西方企业而言,这可能带来合规性问题。

API快速入门

fireworks/kimi-k2p5

查看文档
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

安装SDK并在几分钟内开始进行API调用。

人们对 Kimi K2.5 的评价

看看社区对 Kimi K2.5 的看法

Kimi K2.5 的成本几乎只有性能相当的 Opus 的 10%。
Odd_Tumbleweed574
reddit
人们忘了 Nvidia 在中国实验室开源重大成果时损失了 6000 亿美元。Kimi 正在用 frontier intelligence 再次做到这一点。
chetaslua
twitter
K2.5 中的 Attention Residuals 概念是多年来第一个真正解决 LLM 遗忘问题的架构变革。
logic_king
hackernews
Workers AI 现在可以运行大模型了。Kimi K2.5 是首选。它是目前最好的 open-source 模型之一,在编码方面也非常出色。
dok2001
twitter
Kimi K2.5 是一个完全不同的野兽。它是一个非常聪明的 RP 模型,但如果你不使用社区预设,它可能会变得神经质。
dptgreg
reddit
我用 Kimi K2.5 替换了 GPT 4 工作流,因为它的 thinking 模式更透明,且 context window 可以处理我的整个代码库。
Dev_Max
reddit

关于 Kimi K2.5 的视频

观看关于 Kimi K2.5 的教程、评测和讨论

Kimi K2.5 通过高强度 thinking 击败了 GPT 5.2,彻底碾压了其他 frontier model。

它是目前为止最强的 open-source 编码模型,在 SWE-Bench Verified 上得分 76.8。

Agent swarm 是从单 agent 向多 agent 的转变,能够在 1500 个协同步骤中执行并行工作流。

256k token 的 context window 非常大,足以满足大多数项目需求。

Moonshot 确实在 2026 年初突破了 open weights 的极限。

它确实精准还原了苹果的设计美学,仅凭一段视频就生成了一个带有动画的精美网站。

Swarm 功能看起来非常酷,且使用起来很有趣,因为它会为每个子 agent 分配 ID 徽章。

K2.5 的价格更低,每百万输入 token 仅 60 美分,输出 token 每百万 3 美元。

原生视频处理意味着你不需要使用昂贵的外部工具来处理帧。

对于需要低预算自主 agent 的开发者来说,这款模型是游戏规则的改变者。

Moonshot 通过在不同的关键步骤阶段给予每个子 agent 奖励来实现这一目标,从而防止了串行崩溃。

模型学会了只有在能缩短关键路径时才选择并行化,这是一种非常巧妙的创新。

Kimi K2.5 已经非常接近能够使用 GGUF 在消费级硬件上运行的边缘了。

Thinking 模式在解决 Python 中复杂的逻辑错误方面非常稳健。

看到这样一个 1 万亿参数的模型发布,对 open-source 社区来说意义重大。

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Kimi K2.5专业提示

专家提示助您充分利用Kimi K2.5。

启用 Thinking 模式

在 API 请求中传递 thinking 参数,以在数学和编码任务中获得最高准确度。

触发 Agent Swarm

在执行研究任务时指示模型部署 swarm,以强制在各个子 agent 之间进行并行编排。

优化 Temperature

在 thinking 模式下使用 1.0 的 temperature 以实现多样的 reasoning,但在标准对话中应降低至 0.6。

联合视觉 Prompt

将错误截图与代码片段一起上传,以利用模型统一的文本-视觉训练效果。

Context Caching

对重复的长文档利用 context caching,可降低高达 90% 的输入成本。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

关于Kimi K2.5的常见问题

查找关于Kimi K2.5的常见问题答案