Context window của Kimi K2 Thinking là bao nhiêu?

Nó hỗ trợ lên đến 256.000 tokens. Điều này cho phép xử lý toàn bộ sách hoặc các kho lưu trữ mã nguồn lớn trong một prompt duy nhất.

API có giá bao nhiêu?

Model này có chi phí 0,60 USD cho mỗi 1 triệu input tokens và 2,50 USD cho mỗi 1 triệu output tokens. Mức giá này rẻ hơn đáng kể so với các reasoning model closed-source cạnh tranh khác.

Tôi có thể chạy Kimi K2 Thinking cục bộ (locally) không?

Có, trọng số của model có sẵn trên HuggingFace để tải xuống công khai. Bạn sẽ cần khoảng 245GB VRAM để chạy phiên bản nén 1-bit một cách hiệu quả.

Điều gì làm nên sự độc đáo trong khả năng sử dụng công cụ của nó?

Nó có thể xử lý từ 200 đến 300 lệnh gọi công cụ (tool calls) tuần tự trong một lượt. Điều này biến nó thành chuyên gia trong việc duyệt web tự động và các tác vụ agentic nhiều bước.

Nó có hỗ trợ đầu vào multimodal như hình ảnh không?

Biến thể Thinking cụ thể này chỉ hỗ trợ văn bản. Đối với các tác vụ hình ảnh, Moonshot cung cấp dòng Kimi-VL được tối ưu hóa cho khả năng hiểu multimodal.

Nó so sánh thế nào với OpenAI o1?

K2 Thinking ngang ngửa với o1 trong các benchmark về reasoning như AIME và MATH. Nó đặc biệt vượt trội so với o1 trong các tác vụ duyệt web agentic và benchmark HLE.

API có hỗ trợ streaming không?

Có, API hỗ trợ streaming từng token một. Điều này rất hữu ích để theo dõi quá trình reasoning của model trong thời gian thực.

Nó sử dụng kiến trúc gì?

Nó sử dụng kiến trúc Mixture-of-Experts với tổng cộng 1 nghìn tỷ parameters. Chỉ 32 tỷ parameters được kích hoạt trong mỗi bước inference.

Kimi K2 Thinking

Kimi K2 Thinking là reasoning model 1 nghìn tỷ parameters của Moonshot AI. Nó vượt trội hơn GPT-5 trên HLE và hỗ trợ 300 lệnh gọi công cụ tuần tự một cách tự...

moonshotKimi K2Ngày 6 tháng 11 năm 2025

Ngu canh

256Ktoken

Dau ra toi da

16Ktoken

Gia dau vao

$0.15/ 1M

Gia dau ra

$0.15/ 1M

Phuong thuc:Text

Kha nang:Cong cuTruyen truc tiepSuy luan

Diem chuan

GPQA

93%

HLE

44.9%

MMLU

90%

MMLU Pro

78%

SimpleQA

55%

IFEval

92%

AIME 2025

99.1%

MATH

99.1%

GSM8k

99%

MGSM

95%

MathVista

75%

SWE-Bench

71.3%

HumanEval

83%

LiveCodeBench

83.1%

MMMU

80%

MMMU Pro

60%

ChartQA

88%

DocVQA

94%

Terminal-Bench

55%

ARC-AGI

12%

Xem tai lieu API

Ve Kimi K2 Thinking

Tim hieu ve kha nang cua Kimi K2 Thinking, tinh nang va cach no co the giup ban dat ket qua tot hon.

Trillion-Parameter Mixture of Experts

Kimi K2 Thinking là một reasoning model với 1 nghìn tỷ parameters sử dụng kiến trúc Mixture-of-Experts (MoE). Được phát triển bởi Moonshot AI và ra mắt vào cuối năm 2025, nó chỉ kích hoạt 32 tỷ parameters cho inference, giúp cân bằng giữa khả năng xử lý kiến thức khổng lồ và hiệu quả tính toán. Model được thiết kế đặc biệt như một agent tư duy, có khả năng mở rộng việc tính toán trong giai đoạn inference để giải quyết các vấn đề logic phức tạp. Cách tiếp cận này cho phép model suy ngẫm về lập luận của chính mình và sửa lỗi trước khi đưa ra câu trả lời cuối cùng.

Agentic Tool Use và lập kế hoạch

Model này tạo nên sự khác biệt nhờ khả năng xử lý tới 300 lệnh gọi công cụ tuần tự một cách tự động. Trong khi hầu hết các ngôn ngữ model tiêu chuẩn gặp khó khăn với việc lập kế hoạch dài hạn, K2 Thinking được xây dựng cho các luồng công việc agentic như duyệt web tự động và kỹ thuật phần mềm đa bước. Nó hỗ trợ độ chính xác INT4 thông qua Quantization-Aware Training, cho phép model duy trì hiệu suất ở cấp độ frontier trong khi chạy trên các cụm phần cứng doanh nghiệp tiêu chuẩn.

Tập trung vào Developer và Nghiên cứu

Với context window 256K tokens, model được xây dựng cho các công việc nghiên cứu chuyên sâu và kỹ thuật phức tạp. Nó thu hẹp khoảng cách hiệu suất giữa các hệ thống closed-source và các model trọng số mở. Khả năng giải quyết các câu hỏi khoa học cấp tiến sĩ và các bài toán thi đấu khiến nó trở thành lựa chọn phù hợp cho nghiên cứu học thuật, trợ lý viết code tự động và các ứng dụng reasoning độ tin cậy cao nơi tính nhất quán logic là yêu cầu hàng đầu.

Truong hop su dung cho Kimi K2 Thinking

Kham pha cac cach khac nhau ban co the su dung Kimi K2 Thinking de dat ket qua tuyet voi.

Kỹ thuật phần mềm phức tạp

Giải quyết các issue thực tế trên GitHub và xây dựng kiến trúc các codebase đa tệp tin bằng cách tự sửa lỗi lặp đi lặp lại.

Agent nghiên cứu tự động

Thực hiện hàng trăm lệnh gọi công cụ tuần tự để thu thập và tổng hợp các dữ liệu kỹ thuật chuyên sâu.

Toán học cấp độ Olympic

Giải các bài toán hình học và đại số nâng cao với khả năng xác minh qua chain-of-thought sâu sắc.

Nghiên cứu khoa học cấp tiến sĩ

Trả lời các câu hỏi chuyên gia về vật lý và sinh học đòi hỏi suy luận logic đa bước.

Điều khiển máy tính tương tác

Điều hướng môi trường terminal và cơ sở hạ tầng đám mây để tự động hóa các quy trình devops.

Viết sáng tạo cần nhiều logic

Tạo nội dung dài đòi hỏi sự tuân thủ nghiêm ngặt các quy tắc xây dựng thế giới phức tạp.

Diem manh

Han che

Reasoning đỉnh cao: Đạt 44,9% trên HLE với các công cụ, vượt qua các model closed-source lớn trong khả năng logic cấp chuyên gia.

Yêu cầu tài nguyên khổng lồ: Việc chạy inference cục bộ yêu cầu ít nhất 245GB VRAM ngay cả với kỹ thuật nén, giới hạn việc sử dụng cho các cụm máy chủ cao cấp.

Chiều sâu agentic vượt trội: Có khả năng thực hiện 300 lệnh gọi công cụ tuần tự, cho phép nghiên cứu web và các tác vụ trình duyệt hoàn toàn tự động.

Độ trễ phản hồi vốn có: Quá trình suy nghĩ sâu (deep thinking) dẫn đến thời gian chờ đợi đáng kể khi model mở rộng quy mô tính toán trong thời gian thực.

Độ chính xác toán học hàng đầu: Đạt 94,5% trên AIME 2025, khẳng định độ tin cậy trong việc giải quyết các vấn đề toán học cấp cao.

Thiếu khả năng multimodal gốc: Biến thể này không thể xử lý đầu vào hình ảnh hoặc video trực tiếp, cần một vision model riêng cho các tác vụ multimodal.

Khả năng tiếp cận trọng số mở: Mang trí tuệ cấp frontier đến với cộng đồng developer để triển khai cục bộ và fine-tuning.

Chi phí token cao: Các bước reasoning nội bộ tiêu tốn một lượng lớn output tokens, làm tăng chi phí API cho các truy vấn đơn giản.

Bat dau nhanh API

moonshot/kimi-k2-thinking

Xem tai lieu

moonshot SDK

import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Thiết kế hệ thống review mã nguồn tự động sử dụng 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Cai dat SDK va bat dau thuc hien cac cuoc goi API trong vai phut.

Moi nguoi dang noi gi ve Kimi K2 Thinking

Xem cong dong nghi gi ve Kimi K2 Thinking

“Kimi K2.5 là model mở tốt nhất để viết code, họ thực sự đã làm rất tốt.”

— npc_gooner

“Moonshot AI vừa tung ra Kimi K2 Thinking. 300 lệnh gọi công cụ tuần tự ư? Đó chính là tương lai của AI agentic.”

— @tech_trends

twitter

“Kimi vừa phát hành Kimi K2 Thinking, một model reasoning nguồn mở với 1 nghìn tỷ parameters. Đây là hàng thật giá thật.”

— nekofneko

“Việc nó có thể xử lý 300 lệnh gọi công cụ tuần tự mở ra những luồng công việc agent hoàn toàn mới.”

— AI Explained

youtube

“Ấn tượng khi thấy một model nguồn mở đạt được những con số này. Cách tiếp cận test-time scaling rõ ràng đã mang lại hiệu quả.”

— jsmith23

hackernews

“Việc chạy model này cục bộ là một thử thách, nhưng chiều sâu suy luận thì không giống bất kỳ thứ gì khác trong không gian trọng số mở.”

— LocalLlamaEnthusiast

Video ve Kimi K2 Thinking

Xem huong dan, danh gia va thao luan ve Kimi K2 Thinking

“Kimi K2 Thinking là model AI tốt nhất tôi từng dùng.”

“Đây là model độc lập có tính agentic nhất từng được tạo ra. Nghĩa là nó có thể tự vận hành hàng giờ.”

“Nó có khả năng suy nghĩ và phản tư trong từng bước. Vì vậy, nó không bao giờ bị lạc lối.”

“Tốc độ reasoning nhanh đến kinh ngạc bất chấp số lượng trillion parameters.”

“Nếu bạn đang xây dựng các agents, đây là kiến trúc bạn nên tham khảo.”

“Kimi K2 Thinking... là bản nâng cấp tư duy của model Kimi K2, vốn đã được công nhận rộng rãi.”

“Tất nhiên đây là một model nguồn mở... với tổng kích thước khoảng 1 nghìn tỷ parameters.”

“Tất cả kết quả benchmark đều được báo cáo ở độ chính xác int4.”

“Nó xử lý các bài toán phức tạp với logic cạnh tranh được với các phòng thí nghiệm hàng đầu.”

“Quy trình cài đặt cho trọng số cục bộ khá đơn giản nếu bạn có đủ VRAM.”

“Kimi K2.5 là model nguồn mở mới nhất được phát triển bởi công ty Moonshot AI của Trung Quốc.”

“Nó có khả năng khởi chạy tới 100 sub-agents và 1.500 lệnh gọi công cụ chạy đồng thời.”

“Tôi chắc chắn khuyên dùng nó nếu bạn muốn tạo ra một trang web tuyệt đẹp.”

“Chain-of-thought nội bộ cho phép nó tự sửa lỗi mã nguồn trước khi đưa ra câu trả lời cuối cùng.”

“Moonshot thực sự đã tập trung vào việc lập kế hoạch dài hạn cho bản phát hành cụ thể này.”

Hon ca prompt

Tang cuong quy trinh lam viec cua ban voi Tu dong hoa AI

Automatio ket hop suc manh cua cac AI agent, tu dong hoa web va tich hop thong minh de giup ban lam duoc nhieu hon trong thoi gian ngan hon.

AI Agent

Tu dong hoa web

Quy trinh thong minh

Bat dau mien phi

Meo chuyen nghiep cho Kimi K2 Thinking

Meo chuyen gia giup ban tan dung toi da Kimi K2 Thinking va dat ket qua tot hon.

Bật Thinking Output

Sử dụng cờ (flag) đặc biệt cho các token trong engine inference để xem các bước reasoning nội bộ của model.

Tối ưu hóa Temperature

Đặt sampling temperature là 1.0 và min_p là 0.01 để có luồng reasoning nhất quán nhất.

Tận dụng System Prompts

Bắt đầu hội thoại với prompt định danh chính thức của Moonshot AI để ổn định hành vi của model.

Mở rộng Test-Time Compute

Cho phép model tạo nhiều internal tokens hơn đối với các vấn đề khó để tăng độ chính xác.

Danh gia

Nguoi dung cua chung toi noi gi

Tham gia cung hang nghin nguoi dung hai long da thay doi quy trinh lam viec cua ho

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Lien quan AI Models

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context

$21.00/$168.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context

$5.00/$30.00/1M

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context

$3.00/$15.00/1M

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context

$0.75/$4.50/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context

$5.00/$25.00/1M

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context

$2.00/$12.00/1M

Cau hoi thuong gap ve Kimi K2 Thinking

Tim cau tra loi cho cac cau hoi thuong gap ve Kimi K2 Thinking