Kimi K2.5

Moonshot AIのKimi K2.5を紹介。1T parametersのopen-sourceなagentic modelで、ネイティブなmultimodal機能、262Kのcontext window、state-of-the-artなreasoningを備えています。

Agentic AIMultimodalOpen-sourceReasoningMoE
moonshot logomoonshotKimi Kシリーズ2026年1月27日
コンテキスト
262Kトークン
最大出力
33Kトークン
入力価格
$0.60/ 1M
出力価格
$2.50/ 1M
モダリティ:TextImageVideo
機能:ビジョンツールストリーミング推論
ベンチマーク
GPQA
87.6%
GPQA: 大学院レベル科学Q&A. 生物学、物理学、化学の448問の選択問題からなる厳格なベンチマーク。博士号専門家でも65-74%の正解率。 Kimi K2.5はこのベンチマークで87.6%を記録しました。
HLE
50.2%
HLE: 高レベル専門推論. 専門分野でエキスパートレベルの推論を示すモデルの能力をテスト。 Kimi K2.5はこのベンチマークで50.2%を記録しました。
MMLU
92%
MMLU: 大規模多タスク言語理解. 57の学術科目にわたる16,000問の選択問題からなる包括的なベンチマーク。 Kimi K2.5はこのベンチマークで92%を記録しました。
MMLU Pro
87.1%
MMLU Pro: MMLUプロフェッショナル版. より難しい10択形式の12,032問を含むMMLUの強化版。 Kimi K2.5はこのベンチマークで87.1%を記録しました。
SimpleQA
54%
SimpleQA: 事実精度ベンチマーク. 直接的な質問に対して正確で事実に基づく回答を提供するモデルの能力をテスト。 Kimi K2.5はこのベンチマークで54%を記録しました。
IFEval
94%
IFEval: 指示遵守評価. モデルが特定の指示と制約にどれだけ従うかを測定。 Kimi K2.5はこのベンチマークで94%を記録しました。
AIME 2025
96.1%
AIME 2025: アメリカ招待数学試験. 名門AIME試験からの競技レベルの数学問題。 Kimi K2.5はこのベンチマークで96.1%を記録しました。
MATH
98%
MATH: 数学問題解決. 代数、幾何、微積分などの分野をテストする包括的な数学ベンチマーク。 Kimi K2.5はこのベンチマークで98%を記録しました。
GSM8k
99%
GSM8k: 小学校算数8K. 多段階推論を必要とする8,500問の小学校レベルの算数文章問題。 Kimi K2.5はこのベンチマークで99%を記録しました。
MGSM
96%
MGSM: 多言語小学校算数. GSM8kベンチマークを10言語に翻訳したもの。 Kimi K2.5はこのベンチマークで96%を記録しました。
MathVista
84.2%
MathVista: 数学的視覚推論. グラフや図などの視覚要素を含む数学問題を解く能力をテスト。 Kimi K2.5はこのベンチマークで84.2%を記録しました。
SWE-Bench
76.8%
SWE-Bench: ソフトウェアエンジニアリングベンチマーク. AIモデルがオープンソースPythonプロジェクトの実際のGitHub課題を解決しようとする。 Kimi K2.5はこのベンチマークで76.8%を記録しました。
HumanEval
99%
HumanEval: Pythonプログラミング問題. モデルが正しいPython関数実装を生成する必要がある164問の手書きプログラミング問題。 Kimi K2.5はこのベンチマークで99%を記録しました。
LiveCodeBench
85%
LiveCodeBench: ライブコーディングベンチマーク. 継続的に更新される実世界のプログラミングチャレンジでコーディング能力をテスト。 Kimi K2.5はこのベンチマークで85%を記録しました。
MMMU
84%
MMMU: マルチモーダル理解. 大学レベルの問題でビジョン言語モデルをテストする大規模多分野マルチモーダル理解ベンチマーク。 Kimi K2.5はこのベンチマークで84%を記録しました。
MMMU Pro
78.5%
MMMU Pro: MMMUプロフェッショナル版. より挑戦的な問題とより厳格な評価を備えたMMMUの強化版。 Kimi K2.5はこのベンチマークで78.5%を記録しました。
ChartQA
77.5%
ChartQA: チャート質問応答. チャートやグラフに表示された情報を理解し推論する能力をテスト。 Kimi K2.5はこのベンチマークで77.5%を記録しました。
DocVQA
88.8%
DocVQA: ドキュメント視覚Q&A. ドキュメント画像から情報を抽出する能力をテストするドキュメント視覚質問応答ベンチマーク。 Kimi K2.5はこのベンチマークで88.8%を記録しました。
Terminal-Bench
50.8%
Terminal-Bench: ターミナル/CLIタスク. コマンドライン操作を実行し、シェルスクリプトを書く能力をテスト。 Kimi K2.5はこのベンチマークで50.8%を記録しました。
ARC-AGI
12%
ARC-AGI: 抽象化と推論. AGIのための抽象化と推論コーパス - 新しいパターン認識パズルで流動的知性をテスト。 Kimi K2.5はこのベンチマークで12%を記録しました。

Kimi K2.5について

Kimi K2.5の機能、特徴、そしてより良い結果を得るための方法について学びましょう。

Agentic Intelligenceの新境地

Kimi K2.5は、Moonshot AIによるフラッグシップのopen-sourceなagentic modelであり、統合されたマルチモーダルインテリジェンスにおける大きな飛躍を象徴しています。320億の有効パラメータを持つ、巨大な1兆パラメータのMixture-of-Experts (MoE) アーキテクチャに基づいて構築されており、テキスト、画像、ビデオ処理を単一のreasoningフレームワークにネイティブに統合しています。従来のLLMとは異なり、K2.5は自律的な実行に特化して設計されており、独自の「Thinking」モードを搭載しています。これにより、人間の介入なしに、複雑で多段階の問題を自己修正しながらreasoningすることが可能です。

アーキテクチャの革新

このモデルは、「Agent Swarm」と呼ばれる画期的な機能を導入しています。これにより、システムは最大100個のサブエージェントを動的に調整し、大規模な調査やエンジニアリングタスクを解決できます。SWE-BenchやAIME 2025などのベンチマークでトップクラスのパフォーマンスを達成することで、Kimi K2.5はopen-sourceモデルと商用のfrontier AIとのギャップを効果的に埋め、運用コストを抑えながらエリートレベルの能力を提供します。MoonViT-3Dエンコーダーの統合により、数時間にわたるコンテンツを高い時間的精度で把握する、これまでにないビデオ理解を実現しました。

比類なき効率性

Beyond raw power, K2.5は持続可能なトークン経済性にも焦点を当てています。強力なcontext cachingと高度に最適化されたMoE構造を活用することで、100万入力tokenあたり0.60ドルという非常に競争力のある価格を維持しながら、最も高価なクローズドモデルに匹敵するパフォーマンスを実現します。これにより、複雑で長いコンテキストを必要とする自律型エージェントを大規模に展開しようとする企業にとって、理想的なバックボーンとなります。

Kimi K2.5

Kimi K2.5のユースケース

Kimi K2.5を使って素晴らしい結果を得るさまざまな方法を発見してください。

自律型ソフトウェアエンジニアリング

複雑なGitHub issueの解決や、UIのスケッチ画像からのフルスタックWebサイトのクローニング。

オリンピックレベルの数学

AIME 2025で96%以上の精度を誇り、高度な数学的証明や競技レベルの問題を解決。

長尺ビデオのreasoning

文脈の喪失や時間的な劣化なしに、最大2時間のビデオ内容を分析・要約。

動的リサーチエージェント

「Agent Swarm」を使用してマルチスレッドでWeb調査を行い、数百のソースからデータを並行して合成。

デザイン性の高いフロントエンド生成

手書きのUIワイヤーフレームやスクリーンショットを、動きのある洗練された機能的なReactコードに変換。

自律的なターミナル操作

複雑なbashコマンドやシステムレベルの操作を実行し、サーバークラスターや開発環境を管理。

強み

制限

エリートクラスの数学的reasoning: AIME 2025で96.1%を記録し、純粋な論理的推論においてほぼすべてのclosed-sourceなモデルを凌駕。
高いハードウェア要件: フルサイズの1T parameters modelをローカルで動かすには、複数のH100やB200 GPUを搭載したエンタープライズ級のAIクラスターが必要。
大規模な並列性: 「Agent Swarm」機能により100以上のサブエージェントを稼働させ、調査タスクの完了時間を大幅に短縮。
思考時のレイテンシ: 深いreasoningモードを有効にすると、標準的な処理に比べて最初のtokenが出るまでの時間が大幅に増加。
統合マルチモーダルアーキテクチャ: 独立したvisionエンコーダーを必要とせず、2時間のビデオや高解像度画像をネイティブに処理。
専門知識のギャップ: 「Humanity's Last Exam」でのスコアは50.2%であり、高度な科学的専門知識には改善の余地がある。
圧倒的なトークン経済性: 100万入力tokenあたり0.60ドルという価格は、Claude 4.5などの同等のfrontier modelと比較して約8〜10倍安価。
規制に関する懸念: 中国製modelであるため、APIの利用やデータ主権に関して、欧米企業には異なる規制の枠組みが適用される可能性がある。

APIクイックスタート

fireworks/kimi-k2p5

ドキュメントを見る
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1'
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [{ role: 'user', content: 'Create a full-stack Next.js dashboard with a dark mode glassmorphism UI.' }],
    max_tokens: 2048,
  });
  console.log(response.choices[0].message.content);
}

main();

SDKをインストールして、数分でAPIコールを開始しましょう。

Kimi K2.5についてのユーザーの声

Kimi K2.5についてコミュニティがどう思っているか見てください

"AIME 2025でのreasoning能力は、open modelとしては完全に異常だ。"
LogicLover
reddit
"Kimi K2.5は長尺ビデオ理解の新しい基準を打ち立てた。ようやくクリップの冒頭を忘れないモデルが登場した。"
AI_Pioneer
x
"K2.5をコーディングエージェントとして使うと世界が変わる。SWE-Benchのスコアは単なる数字じゃない、その有能さを実感できる。"
DevGuru
hackernews
"中国がKimi K2.5をリリースしたが、時計の針のように正確にアメリカのfrontier AIモデルと同等のパフォーマンスを出してきた。"
BasedTorba
x
"中国のKimiがOpenAIの兆単位のビジネスの夢をぶち壊した... 8倍も安い。"
nrqa__
x
"Kimi K2.5は、単なるチャットボックスではなく、本当にコパイロットのように感じられる初めてのモデルだ。"
CodeWizard
reddit

Kimi K2.5についての動画

Kimi K2.5についてのチュートリアル、レビュー、ディスカッションを見る

AIMEの問題をテストしたところ、Kimi K2.5はGPT-4oが苦戦したものも含め、ほぼすべて正解しました。

コーディングタスクにおいて、このモデルのagenticな能力は標準的なLLMと比較して明らかに輝いています。

1兆パラメータのモデルがopen-sourceであることは、現在の市場において前例がありません。

初期の数学テストでは、o1に匹敵する論理処理能力が見て取れました。

tokenの価格が非常に安いため、基本的なタスクに高価なclosed-sourceモデルを使う理由は事実上なくなりました。

文脈を失わずに2時間のビデオを一度に処理できる能力は、大きなブレイクスルーです。

単なるチャットモデルではなく、最初からツールやターミナルを使いこなすように設計されています。

Swarmモードを起動した時のWeb調査の並列処理能力は、基本的に他の追随を許しません。

Moonshot AIは、彼らが十分な計算資源と才能を持っていることを世界に知らしめました。

ライブターミナルを操作してバグを修正する様子は、自律型エンジニアリングの未来そのものです。

BrowseCompベンチマークでの躍進は、これまで見たことのないレベルの執着心でWebをナビゲートできることを示唆しています。

visionとthinkingモードを一つのアーキテクチャに統合していることこそが、真の技術的ストーリーです。

MMLUとGSM8kのパフォーマンスは、トレーニングに使用されたデータの質が最高峰であることを証明しています。

以前のバージョンと異なり、ビデオ理解において時間的な劣化に悩まされることはありません。

開発者にとって、OpenAI互換性があることで、テスト目的でのこのモデルへの切り替えコストはほぼゼロです。

プロンプト以上のもの

ワークフローを強化する AI自動化

AutomatioはAIエージェント、ウェブ自動化、スマート統合のパワーを組み合わせ、より短時間でより多くのことを達成するお手伝いをします。

AIエージェント
ウェブ自動化
スマートワークフロー
デモ動画を見る

Kimi K2.5のプロのヒント

Kimi K2.5を最大限に活用し、より良い結果を得るための専門家のヒント。

Thinking Modeの活用

論理性の高い数学やコーディングタスクでは、明示的に「ステップバイステップで考えてください」とpromptを与えることで、reasoningモードを有効にします。

ビデオコンテキストの利点

MoonViT-3Dエンコーダーを活用して超長尺ビデオを処理します。2時間のクリップから特定の詳細を見つけ出すことに長けています。

エージェントのオーケストレーション

大規模プロジェクトではswarm機能を利用し、K2.5にタスクをサブタスクへ分解させることで、実行速度を向上させます。

キャッシュによるコスト削減

Moonshotの強力なcontext cachingを活用するようにAPIコールを構成することで、入力コストを最大75%削減できます。

お客様の声

ユーザーの声

ワークフローを変革した何千人もの満足したユーザーに加わりましょう

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

関連 AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

Kimi K2.5についてのよくある質問

Kimi K2.5に関するよくある質問への回答を見つけてください