moonshot

Kimi K2 Thinking

Kimi K2 Thinkingは、Moonshot AIが開発した1兆 parametersのreasoning modelです。HLEにおいてGPT-5を凌駕し、開発者向けに最大300回の連続したtool callsを自律的にサポートします。

moonshot logomoonshotKimi2025-11-06
コンテキスト
256Kトークン
最大出力
16Kトークン
入力価格
$0.15/ 1M
出力価格
$0.15/ 1M
モダリティ:Text
機能:ツールストリーミング推論
ベンチマーク
GPQA
93%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Kimi K2 Thinkingはこのベンチマークで93%を記録しました。
HLE
44.9%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Kimi K2 Thinkingはこのベンチマークで44.9%を記録しました。
MMLU
90%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Kimi K2 Thinkingはこのベンチマークで90%を記録しました。
MMLU Pro
78%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Kimi K2 Thinkingはこのベンチマークで78%を記録しました。
SimpleQA
55%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Kimi K2 Thinkingはこのベンチマークで55%を記録しました。
IFEval
92%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Kimi K2 Thinkingはこのベンチマークで92%を記録しました。
AIME 2025
99.1%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Kimi K2 Thinkingはこのベンチマークで99.1%を記録しました。
MATH
99.1%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Kimi K2 Thinkingはこのベンチマークで99.1%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Kimi K2 Thinkingはこのベンチマークで99%を記録しました。
MGSM
95%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Kimi K2 Thinkingはこのベンチマークで95%を記録しました。
MathVista
75%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Kimi K2 Thinkingはこのベンチマークで75%を記録しました。
SWE-Bench
71.3%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Kimi K2 Thinkingはこのベンチマークで71.3%を記録しました。
HumanEval
83%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Kimi K2 Thinkingはこのベンチマークで83%を記録しました。
LiveCodeBench
83.1%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Kimi K2 Thinkingはこのベンチマークで83.1%を記録しました。
MMMU
80%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Kimi K2 Thinkingはこのベンチマークで80%を記録しました。
MMMU Pro
60%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Kimi K2 Thinkingはこのベンチマークで60%を記録しました。
ChartQA
88%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Kimi K2 Thinkingはこのベンチマークで88%を記録しました。
DocVQA
94%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Kimi K2 Thinkingはこのベンチマークで94%を記録しました。
Terminal-Bench
55%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Kimi K2 Thinkingはこのベンチマークで55%を記録しました。
ARC-AGI
12%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Kimi K2 Thinkingはこのベンチマークで12%を記録しました。

Kimi K2 Thinkingについて

Kimi K2 Thinkingの機能、特徴、そしてより良い結果を得るための方法について学びましょう。

1兆パラメータのオープン・インテリジェンス

Kimi K2 Thinkingは、Moonshot AIが開発した画期的な1兆parametersのreasoning modelであり、open-sourceインテリジェンスの限界を再定義しました。2025年11月にリリースされたこのモデルは、合計1T parameters(inference時には32Bのみがアクティブ化される)の高度なMixture-of-Experts (MoE) アーキテクチャを採用しており、驚異的なパワーと計算効率の両立を実現しています。標準的な言語モデルとは異なり、K2 Thinkingは「思考するエージェント」として設計されており、test-time computationをスケーリングすることで、深い論理的reasoning、プランニング、および自律的なtool useを実行します。

Agenticな卓越性とスケーラビリティ

このmodelは、特にそのagenticな能力で知られており、人間の介入なしに最大300回の連続したtool callsを正常に実行できます。これにより、複雑なリサーチ、競技プログラミング、多段階の技術ワークフローにおいて強力な選択肢となります。Quantization-Aware Trainingを通じてネイティブにINT4精度を利用することで、Moonshot AIはこの巨大なmodelを一般的なハードウェアクラスターで実行可能にし、一方でcritical reasoningやブラウジングのbenchmarkにおいて、GPT-5やClaude 4.5といったclosed-sourceの巨人を凌駕することに成功しました。

開発者ファーストのアーキテクチャ

グローバルな開発者コミュニティ向けに設計されたKimi K2 Thinkingは、比類のないコストパフォーマンスを提供します。大規模な256K context windowと広範なchain-of-thought処理のサポートにより、ローカルの特化型モデルとエンタープライズ級のクラウドAPIの間のギャップを埋めます。その訓練手法は長期的なプランニングに焦点を当てており、modelがアウトプットを反復的に内省、修正、最適化することを可能にしています。

Kimi K2 Thinking

Kimi K2 Thinkingのユースケース

Kimi K2 Thinkingを使って素晴らしい結果を得るさまざまな方法を発見してください。

自律的なリサーチ

数百回の連続したtool callsと反復的な情報検証を必要とする、深掘りしたWeb調査の実行。

科学的問題解決

Pythonのツール実行とchain-of-thought処理を使用した、博士レベルの数学や物理学の問いへの取り組み。

競技プログラミング

CodeforcesやLeetCodeなどのプラットフォームにおける高難度のアルゴリズム課題を、博士レベルの精度で解決。

複雑なコードのデバッグ

網羅的で高度なreasoningステップを通じて、大規模なマルチファイル構成のコードベースにおける論理エラーを特定し修正。

法務およびコンプライアンス分析

256Kのcontext windowを活用し、長大な技術文書や法的文書をレビューして、微妙なリスクや矛盾を特定。

Agentic AIの自動化

人間の介入なしに数時間にわたって自ら計画、実行、内省、そしてアウトプットの改善を行う自律的なagentの強化。

強み

制限

エージェンティックな深み: パフォーマンスを低下させることなく、200〜300回の連続したtool callsを管理できる唯一のopen-weightsモデル。
テキスト入力のみ: 現時点では、画像、動画、音声ファイルを直接処理するためのネイティブなmultimodalビジョン機能が欠如しています。
最先端のReasoning: 集中的なtest-time scalingにより、Humanity's Last Exam (HLE)やBrowseCompでGPT-5やClaude 4.5を凌駕。
膨大なRAM要件: フルスケールの1Tアーキテクチャをローカルにデプロイするには、500GB以上のRAMまたは分散されたMacクラスターが必要です。
比類のないコスト効率: 100万tokenあたり一律0.15ドルという価格設定で、商用APIの数分の一のコストでfrontier model級のインテリジェンスを提供。
初期トークンのレイテンシ: 集中的な内部reasoningフェーズにより、思考プロセスを持たないLLMと比較して、最初のtoken生成までの時間(time-to-first-token)が長くなります。
ネイティブなINT4最適化: Quantization-Aware Trainingによるネイティブな量子化により、一般的なハードウェアでのローカルinferenceにおいて2倍の速度向上を実現。
冗長なReasoning: 比較的単純なクエリに対しても、過度に長いchain-of-thoughtシーケンスを生成することがあります。

APIクイックスタート

moonshot/kimi-k2-thinking

ドキュメントを見る
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

Kimi K2 Thinkingについてのユーザーの声

Kimi K2 Thinkingについてコミュニティがどう思っているか見てください

"Kimi K2 Thinkingはこれまで使った中で最高のAI modelです... ハルシネーションもなく、何百ものtool callsをこなします。"
Alex Finn
youtube
"tokenのコストが崩壊する一方で、closedとopenの差は縮まり続けています。"
Emad Mostaque
x
"Moonshot K2-Thinkingは、300回のtool callsをこなすローカルなインテリジェントagentを再定義しています。"
Brian Roemmele
x
"ようやく、回答する前にpromptの論理を実際に思考するmodelが登場しました!"
ai_user_2025
reddit
"中国はKimiシリーズで、open-sourceかつopen weightsの最前線を確実に押し広げています。"
Nathan Lambert
x
"競技数学の問題におけるパフォーマンスは、文字通り驚異的です。"
MathWizard
hackernews

Kimi K2 Thinkingについての動画

Kimi K2 Thinkingについてのチュートリアル、レビュー、ディスカッションを見る

これは、これまでに作られた中で最もagenticで独立したモデルです。

あらゆるステップで考え、内省することができるため、道を見失うことがありません。

非常にコスト効率が高く、ChatGPT-5の半額、Sonnet 4.5の約10分の1の価格です。

標準的なLLMが陥りやすい一般的な論理の罠を見事に回避しています。

Moonshotは、open-weightのアクセシビリティにおけるゲームチェンジャーとなっています。

人間の介入なしに、最大200回から300回の連続したtool callsを実行できます。

K2 ThinkingはBrowseCompで60.2%を記録し、人間のベースラインである29.2%を大幅に上回りました。

中国は、open-sourceおよびopen weightsの最前線を確実に押し広げています。

1兆parametersに対して、ここでのMixture-of-Expertsの実装は驚くほど効率的です。

わずかなコストでfrontier modelレベルのreasoningを手に入れることができます。

ここではMac Studioを使用して実行しています。

500GBのRAMを消費しており、処理速度は秒間約6.9 tokensまで落ち込んでいます。

実際にこのコードを書き出しましたが、そこで止まらずに再び考え始めました。

量子化しても、このmodelの論理的整合性はエリートレベルのままです。

内部モノローグを見ると、自身のコーディングミスをどこで修正したかが正確に分かります。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー
デモ動画を見る

Kimi K2 Thinkingのプロのヒント

Kimi K2 Thinkingを最大限に活用し、より良い結果を得るための専門家のヒント。

Thinking Tagsの有効化

llama.cppなどのツールを使用してローカルで実行する際は、内部の<think> tokenを正しく表示するために--specialフラグを使用してください。

Temperatureの最適化

最も安定し、厳密なreasoning結果を得るには、temperatureを1.0に、min_pを0.01に設定してください。

ハードウェアクラスタリング

損失のない1Tローカル体験を実現するには、RDMAを備えた2台のMac Studio M3 UltraクラスターにINT4 quantizedバージョンをデプロイしてください。

長期的なプランニング

modelの適応学習と検索の強みを引き出すために、最初に明示的に「ステップバイステップの計画」を求めるようにpromptを構成してください。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Kimi K2 Thinkingについてのよくある質問

Kimi K2 Thinkingに関するよくある質問への回答を見つけてください