moonshot

Kimi K2 Thinking

Kimi K2 ThinkingはMoonshot AIの1兆parametersのreasoningモデルです。HLEにおいてGPT-5を上回り、300の逐次的なtool callを自律的にサポートします。

moonshot logomoonshotKimi K22025年11月6日
コンテキスト
256Kトークン
最大出力
16Kトークン
入力価格
$0.15/ 1M
出力価格
$0.15/ 1M
モダリティ:Text
機能:ツールストリーミング推論
ベンチマーク
GPQA
93%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Kimi K2 Thinkingはこのベンチマークで93%を記録しました。
HLE
44.9%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Kimi K2 Thinkingはこのベンチマークで44.9%を記録しました。
MMLU
90%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Kimi K2 Thinkingはこのベンチマークで90%を記録しました。
MMLU Pro
78%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Kimi K2 Thinkingはこのベンチマークで78%を記録しました。
SimpleQA
55%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Kimi K2 Thinkingはこのベンチマークで55%を記録しました。
IFEval
92%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Kimi K2 Thinkingはこのベンチマークで92%を記録しました。
AIME 2025
99.1%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Kimi K2 Thinkingはこのベンチマークで99.1%を記録しました。
MATH
99.1%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Kimi K2 Thinkingはこのベンチマークで99.1%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Kimi K2 Thinkingはこのベンチマークで99%を記録しました。
MGSM
95%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Kimi K2 Thinkingはこのベンチマークで95%を記録しました。
MathVista
75%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Kimi K2 Thinkingはこのベンチマークで75%を記録しました。
SWE-Bench
71.3%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Kimi K2 Thinkingはこのベンチマークで71.3%を記録しました。
HumanEval
83%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Kimi K2 Thinkingはこのベンチマークで83%を記録しました。
LiveCodeBench
83.1%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Kimi K2 Thinkingはこのベンチマークで83.1%を記録しました。
MMMU
80%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Kimi K2 Thinkingはこのベンチマークで80%を記録しました。
MMMU Pro
60%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Kimi K2 Thinkingはこのベンチマークで60%を記録しました。
ChartQA
88%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Kimi K2 Thinkingはこのベンチマークで88%を記録しました。
DocVQA
94%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Kimi K2 Thinkingはこのベンチマークで94%を記録しました。
Terminal-Bench
55%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Kimi K2 Thinkingはこのベンチマークで55%を記録しました。
ARC-AGI
12%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Kimi K2 Thinkingはこのベンチマークで12%を記録しました。

Kimi K2 Thinkingについて

Kimi K2 Thinkingの機能、特徴、そしてより良い結果を得るための方法について学びましょう。

1兆パラメータのMixture of Experts

Kimi K2 Thinkingは、Mixture-of-Experts (MoE) アーキテクチャを利用した1兆parametersのreasoningモデルです。Moonshot AIによって開発され、2025年後半にリリースされた本モデルは、inference時に32B parametersのみをアクティブにすることで、膨大な知識量と計算効率を両立させています。複雜な論理問題を解決するために、inferenceフェーズで計算量を拡張する思考型エージェントとして設計されています。このアプローチにより、モデルは自身のreasoningを振り返り、最終的な回答を出す前に間違いを修正することが可能です。

Agenticなツール使用と計画

本モデルは、最大300のtool callを自律的に逐次処理できる能力によって差別化されています。標準的なLLMの多くは長期的な計画立案に苦戦しますが、K2 Thinkingは自律的なウェブブラウジングや多段階のソフトウェアエンジニアリングといったagenticなワークフローのために構築されています。Quantization-Aware Trainingを通じてINT4精度をネイティブでサポートしており、標準的なエンタープライズハードウェアクラスター上でfrontier levelのパフォーマンスを維持できます。

開発者および研究者向け

256K tokenのcontext windowを備え、深いリサーチや複雑な技術的タスクに対応するように構築されています。クローズドソースシステムとオープンウェイトモデルのパフォーマンスギャップを埋める存在です。博士レベルの科学的質問や競技レベルの数学問題を解決できる能力は、学術研究、自動コーディングアシスタント、そして論理的一貫性が最も重視されるreasoningアプリケーションに最適です。

Kimi K2 Thinking

Kimi K2 Thinkingのユースケース

Kimi K2 Thinkingを使って素晴らしい結果を得るさまざまな方法を発見してください。

複雑なソフトウェアエンジニアリング

反復的な自己修正プロセスを用いて、GitHubの実際の問題を解決し、複数ファイルにまたがるコードベースを設計します。

自律型リサーチエージェント

何百もの逐次的なtool callを実行し、専門的な技術データを収集・統合します。

オリンピックレベルの数学

高度な幾何学や代数の問題を、詳細なchain-of-thought検証を用いて解きます。

博士レベルの科学的探究

物理学や生物学などの専門的な質問に対し、多段階の論理的推論を駆使して回答します。

対話型コンピュータ制御

ターミナル環境やクラウドインフラを操作し、DevOpsワークフローを自動化します。

論理重視のクリエイティブライティング

複雑な世界観のルールを厳格に遵守した長文コンテンツを生成します。

強み

制限

最先端のReasoning: ツール使用時のHLEで44.9%のスコアを記録し、専門レベルの論理推論で主要なクローズドソースモデルを上回っています。
膨大なリソース要件: ローカルでのinferenceには量子化を行っても最低245GBのVRAMが必要であり、ハイエンドのサーバークラスターでの利用に限定されます。
卓越したAgenticな深み: 300回もの逐次的なtool callが可能で、真に自律的なウェブ調査やブラウザタスクを実現します。
応答のレイテンシ: 深い思考プロセスを経るため、推論時計算量が増えるほど結果が出るまでにかなりの待ち時間が発生します。
トップレベルの数学的精度: AIME 2025で94.5%を達成し、高度な数学的課題解決における信頼性を証明しています。
ネイティブなマルチモーダル対応の欠如: このバリアントは画像や動画の入力を直接処理できないため、マルチモーダルなタスクには別途vision modelが必要です。
オープンウェイトによるアクセシビリティ: frontier modelレベルの知能を開発者コミュニティに提供し、ローカル展開やfine-tuningを可能にします。
高いtokenオーバーヘッド: 内部のreasoningステップが大量の出力tokenを消費するため、単純なクエリでもAPIコストが高くなります。

APIクイックスタート

moonshot/kimi-k2-thinking

ドキュメントを見る
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: '300のtool callを使用した自律コードレビューシステムを設計してください。' }],
  });
  console.log(response.choices[0].message.content);
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

Kimi K2 Thinkingについてのユーザーの声

Kimi K2 Thinkingについてコミュニティがどう思っているか見てください

Kimi K2.5はコーディングにおいて最高のオープンモデルだ。本当にすごいものを作った。
npc_gooner
reddit
Moonshot AIがKimi K2 Thinkingをリリースした。300の逐次tool call?これこそがagentic AIの未来だ。
@tech_trends
twitter
Kimiが1兆parametersのオープンソースreasoningモデル、Kimi K2 Thinkingを公開した。これは本物だ。
nekofneko
reddit
300のtool callを逐次処理できるという事実は、全く新しいエージェントワークフローを切り拓く。
AI Explained
youtube
オープンソースモデルがこの数字を出しているのは感動的だ。推論時スケーリングのアプローチが明らかに功を奏している。
jsmith23
hackernews
このモデルをローカルで動かすのは挑戦的だが、そのreasoningの深さはオープンウェイト界隈では他に類を見ない。
LocalLlamaEnthusiast
reddit

Kimi K2 Thinkingについての動画

Kimi K2 Thinkingについてのチュートリアル、レビュー、ディスカッションを見る

Kimi K2 Thinkingはこれまで使った中で最高のAIモデルです。

これまで作られた中で最もagenticで独立したモデルです。つまり、何時間も自分自身で動作し続けられます。

あらゆるステップで思考し、振り返ることができます。そのため、道を見失うことがありません。

1兆parametersという規模にもかかわらず、reasoningの速度は驚くほど速いです。

もしagentを構築しているなら、注目すべきアーキテクチャです。

Kimi K2 Thinkingは、広く支持されているKimi K2モデルの「思考」アップグレード版です。

これはもちろんオープンソースのモデルで、合計サイズは約1兆parametersです。

すべてのbenchmark結果はint4精度で報告されています。

トップクラスのプロプライエタリな研究所に匹敵するレベルの論理で複雑な数学の問題を処理します。

VRAMさえあれば、ローカルウェイトのインストール手順はかなり簡単です。

Kimi K2.5は、中国企業のMoonshot AIによって開発された最新のオープンソースモデルです。

最大100個のサブエージェントと1,500個のtool callを並行して実行できます。

本当に美しいウェブサイトを作りたいなら、間違いなくおすすめします。

内部のchain-of-thoughtにより、最終回答を出す前にコードのミスを自己修正できます。

Moonshotはこのリリースで、長期間の計画立案に特に注力しています。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー

Kimi K2 Thinkingのプロのヒント

Kimi K2 Thinkingを最大限に活用し、より良い結果を得るための専門家のヒント。

Thinking出力を有効にする

inferenceエンジンで特別なトークンフラグを使用すると、モデルの内部的な思考ステップを確認できます。

Temperatureの最適化

最も一貫したreasoningフローを得るには、サンプリングのTemperatureを1.0、min_pを0.01に設定してください。

システムプロンプトの活用

対話の開始時にMoonshot AIの公式なIDプロンプトを使用することで、モデルの挙動を安定させることができます。

推論時計算量(Test-Time Compute)の調整

難易度の高い問題に対しては、モデルにより多くの内部tokenを生成させることで精度が向上します。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Kimi K2 Thinkingについてのよくある質問

Kimi K2 Thinkingに関するよくある質問への回答を見つけてください