moonshot

Kimi K2.5

Découvrez Kimi K2.5 de Moonshot AI, un modèle agentique open-source de 1T de paramètres avec des capacités multimodales natives, une context window de 262K et...

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi27 janvier 2026
Contexte
256Ktokens
Sortie max.
66Ktokens
Prix entrée
$0.60/ 1M
Prix sortie
$3.00/ 1M
Modalité:TextImageVideo
Capacités:VisionOutilsStreamingRaisonnement
Benchmarks
GPQA
87.6%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). Kimi K2.5 a obtenu 87.6% sur ce benchmark.
HLE
50.2%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. Kimi K2.5 a obtenu 50.2% sur ce benchmark.
MMLU
91.5%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. Kimi K2.5 a obtenu 91.5% sur ce benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. Kimi K2.5 a obtenu 87.1% sur ce benchmark.
SimpleQA
48%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. Kimi K2.5 a obtenu 48% sur ce benchmark.
IFEval
85%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. Kimi K2.5 a obtenu 85% sur ce benchmark.
AIME 2025
96.1%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. Kimi K2.5 a obtenu 96.1% sur ce benchmark.
MATH
90.1%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. Kimi K2.5 a obtenu 90.1% sur ce benchmark.
GSM8k
97.1%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. Kimi K2.5 a obtenu 97.1% sur ce benchmark.
MGSM
95%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. Kimi K2.5 a obtenu 95% sur ce benchmark.
MathVista
90.1%
MathVista: Raisonnement Mathématique Visuel. Teste la capacité à résoudre des problèmes mathématiques impliquant des éléments visuels comme les graphiques, les diagrammes de géométrie et les figures scientifiques. Combine la compréhension visuelle avec le raisonnement mathématique. Kimi K2.5 a obtenu 90.1% sur ce benchmark.
SWE-Bench
76.8%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. Kimi K2.5 a obtenu 76.8% sur ce benchmark.
HumanEval
88%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. Kimi K2.5 a obtenu 88% sur ce benchmark.
LiveCodeBench
85%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. Kimi K2.5 a obtenu 85% sur ce benchmark.
MMMU
78.5%
MMMU: Compréhension Multimodale. Benchmark de Compréhension Multimodale Multi-discipline Massive testant les modèles vision-langage sur des problèmes universitaires dans 30 matières nécessitant à la fois la compréhension d'images et des connaissances expertes. Kimi K2.5 a obtenu 78.5% sur ce benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Édition Professionnelle. Version améliorée du MMMU avec des questions plus difficiles et une évaluation plus stricte. Teste le raisonnement multimodal avancé aux niveaux professionnel et expert. Kimi K2.5 a obtenu 78.5% sur ce benchmark.
ChartQA
77.5%
ChartQA: Questions-Réponses sur Graphiques. Teste la capacité à comprendre et raisonner sur les informations présentées dans les graphiques. Nécessite l'extraction de données, la comparaison de valeurs et l'exécution de calculs à partir de représentations visuelles de données. Kimi K2.5 a obtenu 77.5% sur ce benchmark.
DocVQA
88.8%
DocVQA: Q&R Visuelle sur Documents. Benchmark de Questions-Réponses Visuelles sur Documents testant la capacité à extraire et raisonner sur les informations des images de documents incluant les formulaires, rapports et textes numérisés. Kimi K2.5 a obtenu 88.8% sur ce benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. Kimi K2.5 a obtenu 50.8% sur ce benchmark.
ARC-AGI
12%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. Kimi K2.5 a obtenu 12% sur ce benchmark.

À propos de Kimi K2.5

Découvrez les capacités, fonctionnalités et façons d'utiliser Kimi K2.5.

Kimi K2.5 est un modèle multimodal open-source de Moonshot AI. Il utilise une architecture Mixture-of-Experts de 1 trillion de paramètres où 32 milliards de paramètres sont actifs par token. Le système unifie le traitement du texte, de l'image et de la vidéo à travers un cadre de reasoning unique plutôt que d'utiliser des encodeurs externes séparés pour chaque modalité. Cette architecture permet au modèle de gérer 256 000 tokens de contexte tout en maintenant une haute précision de récupération et une cohérence logique sur de très longues séquences.

Le modèle se distingue par sa capacité Agent Swarm. Cette fonctionnalité permet au système de coordonner jusqu'à 100 sous-agents en parallèle pour exécuter des tâches de recherche ou d'ingénierie complexes simultanément. En intégrant un encodeur MoonViT-3D de 400M de paramètres, K2.5 peut analyser plusieurs heures de contenu vidéo avec une précision temporelle. Il est spécifiquement conçu pour l'exécution autonome, surpassant de nombreux modèles propriétaires sur les benchmarks agentiques comme SWE-Bench et BrowseComp.

Kimi K2.5 propose un mode Thinking dédié aux tâches nécessitant une logique approfondie. Lorsqu'il est activé, le modèle génère une chaîne de reasoning interne pour s'autocorriger et vérifier ses étapes avant de produire une réponse finale. Cela le rend très efficace pour les mathématiques de niveau compétition et le développement logiciel à grande échelle. Son économie de tokens est optimisée pour le déploiement en entreprise, offrant une intelligence de classe frontier à une fraction du coût des systèmes fermés concurrents.

Kimi K2.5

Cas d'utilisation de Kimi K2.5

Découvrez les différentes façons d'utiliser Kimi K2.5 pour obtenir d'excellents résultats.

Ingénierie logicielle autonome

Résolution de problèmes GitHub complexes et création d'architectures de projets multi-fichiers utilisant une logique optimisée pour SWE-Bench.

Développement web visuel

Création de code frontend fonctionnel et de designs UI directement à partir d'enregistrements d'écran d'interactions de sites web existants.

Recherche multi-thread

Utilisation de l'Agent Swarm pour explorer et synthétiser des informations provenant de plus de 100 sources dans un seul flux de travail parallèle.

Analyse de vidéos longues

Extraction d'événements spécifiques et de données temporelles à partir d'heures de séquences de sécurité ou de cours sans outils d'extraction d'images.

Génération de preuves mathématiques

Application du mode de deep thinking pour résoudre des problèmes mathématiques de niveau olympiade avec un taux de précision de 96 pour cent.

Automatisation documentaire en entreprise

Génération de rapports PDF de plusieurs pages et de feuilles de calcul financières complexes à partir de sources de données métier non structurées.

Points forts

Limitations

Performance agentique d'élite: Obtient un score de 76.8 sur SWE-Bench Verified, surpassant de nombreux modèles frontier propriétaires dans les tâches d'ingénierie logicielle.
Besoin extrême en VRAM locale: Nécessite 632 Go de VRAM pour le modèle complet non quantifié, rendant le déploiement local impossible pour la plupart des utilisateurs grand public.
Économie de tokens inégalée: Fournit une intelligence MoE de 1T de paramètres à 0,60 $ par million de tokens d'entrée, soit environ 10 pour cent du coût de Claude Opus.
Latence de reasoning plus élevée: Le mode thinking peut introduire des délais significatifs car le modèle génère des chaînes de logique interne avant de répondre.
Compréhension vidéo native: Traite des fichiers vidéo complexes sans extraction d'images externe, permettant une analyse temporelle précise d'enregistrements longs.
Répétition de formatage: Peut produire des blocs de texte excessivement longs si aucune instruction stricte sur la structure des paragraphes n'est donnée.
Orchestration par swarm parallèle: Le seul modèle ouvert entraîné à coordonner jusqu'à 100 sous-agents pour des workflows de recherche massifs et multi-thread.
Préoccupations liées à la résidence des données: L'infrastructure principale est basée en Chine, ce qui peut poser des problèmes de conformité pour certaines entreprises occidentales.

Démarrage rapide API

fireworks/kimi-k2p5

Voir la documentation
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Kimi K2.5

Voyez ce que la communauté pense de Kimi K2.5

Kimi K2.5 coûte presque 10 pour cent du prix d'Opus pour un niveau de performance similaire.
Odd_Tumbleweed574
reddit
Les gens oublient que Nvidia a perdu 600 milliards de dollars lorsqu'un laboratoire chinois a rendu open-source une avancée majeure. Kimi réitère cela avec une intelligence frontier.
chetaslua
twitter
Le concept d'Attention Residuals dans K2.5 est le premier changement architectural en des années qui résout réellement le problème d'oubli des LLM.
logic_king
hackernews
Workers AI exécute désormais de gros modèles. Kimi K2.5 en premier. C'est l'un des meilleurs modèles open-source disponibles, très bon pour le code également.
dok2001
twitter
Kimi K2.5 est une bête différente. C'est un modèle RP incroyablement intelligent, mais il peut devenir névrosé si vous n'utilisez pas les presets de la communauté.
dptgreg
reddit
J'ai remplacé mon workflow GPT 4 par Kimi K2.5 car le mode thinking est plus transparent et la context window gère tout mon dépôt.
Dev_Max
reddit

Vidéos sur Kimi K2.5

Regardez des tutoriels, critiques et discussions sur Kimi K2.5

Kimmy K2.5 bat GPT 5.2 avec son mode thinking élevé, surpassant littéralement les autres modèles frontier.

C'est le modèle de code open-source le plus puissant à ce jour avec 76.8 sur SWE-Bench Verified.

L'Agent swarm marque une transition du modèle mono-agent vers l'exécution multi-agent de workflows parallèles sur jusqu'à 1500 étapes coordonnées.

La context window est massive avec 256k tokens, ce qui est largement suffisant pour la plupart des projets.

Moonshot repousse vraiment les limites de ce que les open weights peuvent accomplir début 2026.

Il a vraiment capturé l'esthétique du design Apple et a produit un site web attrayant avec des animations juste à partir d'une vidéo.

La fonctionnalité Swarm est très impressionnante et amusante à utiliser car elle assigne des badges d'identification à chaque sous-agent.

K2.5 est beaucoup moins cher à 60 centimes par million de tokens d'entrée et 3 dollars par million de tokens de sortie.

Le traitement vidéo natif signifie que vous n'avez pas besoin d'utiliser des outils externes coûteux pour traiter les images.

Ce modèle change la donne pour les développeurs qui ont besoin d'agents autonomes avec un budget limité.

Moonshot a réussi cela en donnant à chaque sous-agent des récompenses à des étapes critiques distinctes pour éviter l'effondrement en série.

Le modèle apprend à choisir le parallélisme uniquement lorsque cela raccourcit le chemin critique, une innovation très intelligente.

Kimi K2.5 est à la limite de pouvoir être exécuté sur du matériel grand public en utilisant GGUF.

Le mode thinking est incroyablement robuste pour résoudre des erreurs logiques complexes en Python.

Voir un modèle de 1 trillion de paramètres publié ainsi est énorme pour la communauté open-source.

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents

Conseils Pro pour Kimi K2.5

Conseils d'experts pour tirer le meilleur parti de Kimi K2.5.

Activer le mode Thinking

Passez le paramètre thinking dans votre requête API pour atteindre une précision maximale sur les tâches mathématiques et de code.

Déclencher l'Agent Swarm

Demandez au modèle de déployer un swarm pour les tâches de recherche afin de forcer l'orchestration parallèle entre les sous-agents.

Optimiser la Temperature

Utilisez une température de 1.0 en mode thinking pour permettre un reasoning diversifié, mais réduisez-la à 0.6 pour une conversation standard.

Prompts de vision combinée

Téléchargez des captures d'écran d'erreurs avec des snippets de code pour tirer parti de l'entraînement texte-vision unifié du modèle.

Context Caching

Utilisez le context caching pour les longs documents répétés afin de réduire les coûts d'entrée jusqu'à 90 pour cent.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Questions Fréquentes sur Kimi K2.5

Trouvez des réponses aux questions courantes sur Kimi K2.5