Chi phí sử dụng Kimi K2.5 là bao nhiêu?

Chi phí cho input tokens là $0,60 mỗi triệu và output tokens là $3,00 mỗi triệu. Mức giá này khiến nó trở thành một trong những frontier model dễ tiếp cận nhất hiện nay.

Độ dài context tối đa của Kimi K2.5 là bao nhiêu?

Kimi K2.5 hỗ trợ context window lên tới 256.000 tokens. Điều này cho phép người dùng xử lý toàn bộ sách hoặc các codebase lớn chỉ trong một prompt.

Kimi K2.5 có thể xử lý các tệp video không?

Có, nó được tích hợp sẵn bộ mã hóa MoonViT-3D để xử lý nội dung video dài. Nó có thể phân tích hàng giờ video để tìm kiếm sự kiện, tóm tắt và chi tiết hình ảnh.

Kimi K2.5 có phải là open-source không?

Moonshot AI đã phát hành trọng số mô hình (model weights) theo Giấy phép MIT sửa đổi. Điều này cho phép các nhà phát triển tự lưu trữ mô hình trên cơ sở hạ tầng của riêng họ.

Tính năng Agent Swarm là gì?

Đây là một chế độ điều phối (orchestration mode) nơi mô hình quản lý tới 100 sub-agents chạy song song. Tính năng này được sử dụng cho các tác vụ yêu cầu nghiên cứu cường độ cao hoặc chỉnh sửa nhiều tệp cùng lúc.

Kimi K2.5 so sánh như thế nào với Claude 3.7 Sonnet?

Kimi K2.5 cung cấp khả năng reasoning tương đương nhưng bao gồm hỗ trợ video gốc và mức giá thấp hơn đáng kể. Nó cũng có kiến trúc swarm song song độc đáo.

Cần phần cứng gì để chạy Kimi K2.5 cục bộ?

Mô hình đầy đủ chưa được định lượng (unquantized) yêu cầu khoảng 632GB VRAM. Hầu hết người dùng cá nhân sẽ cần sử dụng các phiên bản đã được định lượng trên phần cứng cao cấp.

Làm thế nào để truy cập Thinking mode thông qua API?

Bạn có thể kích hoạt bằng cách thêm đối tượng thinking với type được đặt là enabled trong extra_body của lệnh gọi API. Điều này cải thiện hiệu suất trong các tác vụ đòi hỏi logic phức tạp.

Kimi K2.5

Khám phá Kimi K2.5 của Moonshot AI, một mô hình agentic open-source 1T tham số với khả năng multimodal gốc, context window 262K và khả năng reasoning...

Agentic AIMultimodalOpen SourceReasoningMoE

moonshotKimi27 tháng 1, 2026

Ngu canh

256Ktoken

Dau ra toi da

66Ktoken

Gia dau vao

$0.60/ 1M

Gia dau ra

$3.00/ 1M

Phuong thuc:TextImageVideo

Kha nang:Thi giacCong cuTruyen truc tiepSuy luan

Diem chuan

GPQA

87.6%

HLE

50.2%

MMLU

91.5%

MMLU Pro

87.1%

SimpleQA

48%

IFEval

85%

AIME 2025

96.1%

MATH

90.1%

GSM8k

97.1%

MGSM

95%

MathVista

90.1%

SWE-Bench

76.8%

HumanEval

88%

LiveCodeBench

85%

MMMU

78.5%

MMMU Pro

78.5%

ChartQA

77.5%

DocVQA

88.8%

Terminal-Bench

50.8%

ARC-AGI

12%

Xem tai lieu API

Ve Kimi K2.5

Tim hieu ve kha nang cua Kimi K2.5, tinh nang va cach no co the giup ban dat ket qua tot hon.

Kimi K2.5 là mô hình multimodal open-source từ Moonshot AI. Nó sử dụng kiến trúc Mixture-of-Experts 1 nghìn tỷ tham số với 32 tỷ tham số hoạt động cho mỗi token. Hệ thống hợp nhất xử lý văn bản, hình ảnh và video thông qua một framework reasoning duy nhất thay vì sử dụng các bộ mã hóa bên ngoài riêng biệt cho từng modality. Kiến trúc này cho phép mô hình xử lý 256.000 tokens context trong khi vẫn duy trì độ chính xác truy xuất cao và tính nhất quán logic xuyên suốt các chuỗi rất dài.

Mô hình nổi bật nhờ khả năng Agent Swarm. Tính năng này cho phép hệ thống phối hợp tới 100 sub-agents song song để thực thi các tác vụ nghiên cứu hoặc kỹ thuật phức tạp cùng lúc. Bằng cách tích hợp bộ mã hóa MoonViT-3D 400M tham số, K2.5 có thể phân tích vài giờ nội dung video với độ chính xác theo thời gian. Nó được thiết kế đặc biệt cho việc thực thi tự hành, vượt trội so với nhiều mô hình độc quyền trên các benchmark agentic như SWE-Bench và BrowseComp.

Kimi K2.5 cung cấp Thinking mode chuyên dụng cho các tác vụ đòi hỏi logic sâu. Khi được kích hoạt, mô hình tạo ra một chuỗi lý luận nội bộ để tự sửa lỗi và xác minh các bước trước khi đưa ra câu trả lời cuối cùng. Điều này làm cho nó cực kỳ hiệu quả đối với toán học cấp độ thi đấu và phát triển phần mềm quy mô lớn. Kinh tế token của nó được tối ưu hóa cho triển khai doanh nghiệp, mang đến trí tuệ cấp độ frontier với chi phí chỉ bằng một phần nhỏ so với các hệ thống closed-source cạnh tranh.

Truong hop su dung cho Kimi K2.5

Kham pha cac cach khac nhau ban co the su dung Kimi K2.5 de dat ket qua tuyet voi.

Kỹ thuật phần mềm tự hành

Giải quyết các issue phức tạp trên GitHub và xây dựng kiến trúc dự án đa tệp bằng logic đã được tối ưu hóa theo SWE-Bench.

Phát triển Web trực quan

Tạo mã frontend và thiết kế UI có chức năng trực tiếp từ video quay màn hình các tương tác website hiện có.

Nghiên cứu đa luồng

Sử dụng Agent Swarm để thu thập và tổng hợp thông tin từ hơn 100 nguồn trong một quy trình làm việc song song duy nhất.

Phân tích Video dài

Trích xuất các sự kiện cụ thể và dữ liệu thời gian từ hàng giờ video an ninh hoặc bài giảng mà không cần công cụ trích xuất khung hình.

Tạo chứng minh toán học

Áp dụng deep thinking mode để giải các bài toán cấp độ Olympic với tỷ lệ chính xác 96 phần trăm.

Tự động hóa tài liệu doanh nghiệp

Tạo báo cáo PDF nhiều trang và bảng tính tài chính phức tạp từ các nguồn dữ liệu kinh doanh phi cấu trúc.

Diem manh

Han che

Hiệu suất Agentic đỉnh cao: Đạt 76.8 điểm trên SWE-Bench Verified, vượt qua nhiều frontier model độc quyền trong các tác vụ kỹ thuật phần mềm.

Yêu cầu VRAM cục bộ cực lớn: Yêu cầu 632GB VRAM cho mô hình unquantized đầy đủ, khiến hầu hết người dùng cá nhân không thể triển khai cục bộ.

Kinh tế token vượt trội: Cung cấp trí tuệ MoE 1T tham số với giá $0,60 mỗi triệu input tokens, chỉ bằng khoảng 10 phần trăm chi phí của Claude Opus.

Latency của reasoning cao hơn: Thinking mode có thể gây ra độ trễ đáng kể do mô hình tạo các chuỗi logic nội bộ trước khi phản hồi.

Khả năng hiểu Video gốc: Xử lý các tệp video phức tạp mà không cần trích xuất khung hình bên ngoài, cho phép phân tích thời gian chính xác của các bản ghi dài.

Sự lặp lại trong định dạng: Có thể tạo ra các khối văn bản quá dài trừ khi được prompt chặt chẽ để sử dụng cấu trúc đoạn văn cụ thể.

Điều phối Swarm song song: Mô hình mở duy nhất được huấn luyện để phối hợp lên đến 100 sub-agents cho các quy trình nghiên cứu đa luồng quy mô lớn.

Lo ngại về quyền lưu trữ dữ liệu: Cơ sở hạ tầng chính đặt tại Trung Quốc, có thể gây ra các vấn đề tuân thủ đối với một số doanh nghiệp phương Tây.

Bat dau nhanh API

fireworks/kimi-k2p5

Xem tai lieu

moonshot SDK

import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Kimi K2.5

Xem cong dong nghi gi ve Kimi K2.5

“Kimi K2.5 chỉ tốn khoảng 10 phần trăm chi phí của Opus ở cùng mức hiệu suất.”

— Odd_Tumbleweed574

“Mọi người quên rằng Nvidia đã mất 600 tỷ đô la khi một phòng thí nghiệm Trung Quốc open source một thứ quan trọng. Kimi đang làm điều đó một lần nữa với trí tuệ frontier.”

— chetaslua

twitter

“Khái niệm Attention Residuals trong K2.5 là thay đổi kiến trúc đầu tiên trong nhiều năm thực sự sửa được vấn đề 'quên' của LLM.”

— logic_king

hackernews

“Workers AI hiện có thể chạy các mô hình lớn. Kimi K2.5 đứng đầu. Nó là một trong những mô hình open source tốt nhất hiện nay, rất tốt cho lập trình.”

— dok2001

twitter

“Kimi K2.5 là một con quái vật khác biệt. Nó là một mô hình RP thông minh đáng kinh ngạc, nhưng có thể trở nên 'loạn thần' nếu bạn không sử dụng các preset của cộng đồng.”

— dptgreg

“Tôi đã thay thế quy trình làm việc GPT 4 của mình bằng Kimi K2.5 vì thinking mode minh bạch hơn và context window xử lý được toàn bộ repo của tôi.”

— Dev_Max

Video ve Kimi K2.5

Xem huong dan, danh gia va thao luan ve Kimi K2.5

“Kimi K2.5 đánh bại GPT 5.2 với chế độ thinking chuyên sâu, thực sự đè bẹp các frontier model khác.”

“Đây là mô hình lập trình open-source mạnh nhất tính đến thời điểm hiện tại với 76.8 trên SWE verified.”

“Agent swarm là một sự chuyển dịch từ đơn tác nhân sang đa tác nhân thực thi các quy trình song song trên tối đa 1500 bước phối hợp.”

“Context window rất lớn với 256k tokens, quá đủ cho hầu hết các dự án.”

“Moonshot thực sự đang đẩy xa ranh giới của những gì model open weights có thể làm vào đầu năm 2026.”

“Nó thực sự nắm bắt được toàn bộ thẩm mỹ thiết kế của Apple và tạo ra một trang web đẹp mắt với hiệu ứng chuyển động chỉ từ một video.”

“Tính năng Swarm trông rất ngầu và chắc chắn là thú vị khi sử dụng vì nó gán huy hiệu ID cho từng sub-agent.”

“K2.5 rẻ hơn nhiều với giá 60 cent cho mỗi triệu input tokens và 3 đô la cho mỗi triệu output tokens.”

“Khả năng xử lý video gốc có nghĩa là bạn không phải sử dụng các công cụ bên ngoài đắt đỏ để xử lý từng khung hình.”

“Mô hình này thay đổi cuộc chơi cho các nhà phát triển cần agent tự hành với ngân sách tiết kiệm.”

“Moonshot đạt được điều này bằng cách thưởng cho mỗi sub-agent ở các giai đoạn bước ngoặt để ngăn chặn sự sụp đổ chuỗi.”

“Mô hình học cách chọn tính song song chỉ khi nó rút ngắn con đường quan trọng, đây là sự đổi mới rất thông minh.”

“Kimi K2.5 vừa chạm ngưỡng có thể chạy được trên phần cứng người dùng thông thường bằng cách sử dụng GGUF.”

“Thinking mode cực kỳ mạnh mẽ để giải các lỗi logic phức tạp trong Python.”

“Chứng kiến một mô hình 1 nghìn tỷ tham số được phát hành như thế này là một điều to lớn cho cộng đồng open source.”

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent

Tu dong hoa web

Quy trinh thong minh

Bat dau mien phi

Meo chuyen nghiep cho Kimi K2.5

Meo chuyen gia giup ban tan dung toi da Kimi K2.5 va dat ket qua tot hon.

Kích hoạt Thinking Mode

Truyền tham số thinking trong yêu cầu API của bạn để đạt độ chính xác tối đa cho các tác vụ toán học và lập trình.

Kích hoạt Agent Swarm

Yêu cầu mô hình triển khai swarm cho các tác vụ nghiên cứu để ép buộc điều phối song song giữa các sub-agents.

Tối ưu hóa Temperature

Sử dụng temperature 1.0 cho thinking mode để cho phép reasoning đa dạng, nhưng hạ xuống 0.6 cho chat tiêu chuẩn.

Kết hợp Prompts Hình ảnh và Văn bản

Tải lên ảnh chụp màn hình lỗi kèm theo đoạn mã để tận dụng khả năng huấn luyện tích hợp text-vision của mô hình.

Context Caching

Sử dụng context caching cho các tài liệu dài được truy cập lặp lại để giảm chi phí input lên đến 90 phần trăm.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context

$3.00/$15.00/1M

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context

$1.25/$10.00/1M

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context

$5.00/$25.00/1M

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context

$0.25/$1.50/1M

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context

$0.40/$2.40/1M

Claude Fable 5

Anthropic

Anthropic's Claude Fable 5 is a Mythos-class model featuring a 1M context window and 128K output tokens. It excels at agentic coding and 3D physics.

1M context

$10.00/$50.00/1M

GLM-5.1

Zhipu (GLM)

GLM-5.1 is Zhipu AI's flagship reasoning model, featuring a 202K context window and an autonomous 8-hour execution loop for complex agentic engineering.

203K context

$1.40/$4.40/1M

Qwen3.6-Max-Preview

alibaba

Qwen3.6-Max-Preview is Alibaba's flagship MoE model featuring 1M context, a native thinking mode, and SOTA scores in agentic coding and reasoning.

1M context

$1.25/$10.00/1M

Cau hoi thuong gap ve Kimi K2.5

Tim cau tra loi cho cac cau hoi thuong gap ve Kimi K2.5