moonshot

Kimi K2.5

Ontdek Kimi K2.5 van Moonshot AI, een 1T-parameter open-source agentic model met native multimodale mogelijkheden, een 262K context window en SOTA reasoning.

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi27 januari 2026
Context
256Ktokens
Max output
66Ktokens
Invoerprijs
$0.60/ 1M
Uitvoerprijs
$3.00/ 1M
Modaliteit:TextImageVideo
Mogelijkheden:VisieToolsStreamingRedeneren
Benchmarks
GPQA
87.6%
GPQA: Wetenschappelijke vragen op graduate-niveau. Een rigoureuze benchmark met 448 vragen over biologie, fysica en chemie. PhD-experts behalen slechts 65-74% nauwkeurigheid. Kimi K2.5 scoorde 87.6% op deze benchmark.
HLE
50.2%
HLE: Expert-niveau redeneren. Test het vermogen van een model om expert-niveau redeneren te demonstreren in gespecialiseerde domeinen. Kimi K2.5 scoorde 50.2% op deze benchmark.
MMLU
91.5%
MMLU: Massale multitask taalbegrip. Een uitgebreide benchmark met 16.000 vragen over 57 academische vakken. Kimi K2.5 scoorde 91.5% op deze benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Professionele editie. Een verbeterde versie van MMLU met 12.032 vragen en een moeilijker 10-optie formaat. Kimi K2.5 scoorde 87.1% op deze benchmark.
SimpleQA
48%
SimpleQA: Feitelijke nauwkeurigheidsbenchmark. Test het vermogen van een model om accurate, feitelijke antwoorden te geven. Kimi K2.5 scoorde 48% op deze benchmark.
IFEval
85%
IFEval: Instructie-opvolging evaluatie. Meet hoe goed een model specifieke instructies en beperkingen volgt. Kimi K2.5 scoorde 85% op deze benchmark.
AIME 2025
96.1%
AIME 2025: Amerikaanse uitnodigingswiskunde-examen. Wiskundeproblemen op wedstrijdniveau van het prestigieuze AIME-examen. Kimi K2.5 scoorde 96.1% op deze benchmark.
MATH
90.1%
MATH: Wiskundig probleemoplossen. Een uitgebreide wiskunde-benchmark die probleemoplossen test in algebra, meetkunde, calculus. Kimi K2.5 scoorde 90.1% op deze benchmark.
GSM8k
97.1%
GSM8k: Basisschool wiskunde 8K. 8.500 wiskundige woordproblemen op basisschoolniveau. Kimi K2.5 scoorde 97.1% op deze benchmark.
MGSM
95%
MGSM: Meertalige basisschool wiskunde. De GSM8k-benchmark vertaald naar 10 talen. Kimi K2.5 scoorde 95% op deze benchmark.
MathVista
90.1%
MathVista: Wiskundig visueel redeneren. Test het vermogen om wiskundeproblemen met visuele elementen op te lossen. Kimi K2.5 scoorde 90.1% op deze benchmark.
SWE-Bench
76.8%
SWE-Bench: Software engineering benchmark. AI-modellen proberen echte GitHub-issues op te lossen in Python-projecten. Kimi K2.5 scoorde 76.8% op deze benchmark.
HumanEval
88%
HumanEval: Python programmeerproblemen. 164 programmeerproblemen waarbij modellen correcte Python-functie-implementaties moeten genereren. Kimi K2.5 scoorde 88% op deze benchmark.
LiveCodeBench
85%
LiveCodeBench: Live codeerbenchmark. Test codeervaardigheden op continu bijgewerkte, real-world programmeeruitdagingen. Kimi K2.5 scoorde 85% op deze benchmark.
MMMU
78.5%
MMMU: Multimodaal begrip. Multimodaal begripsbenchmark over 30 universitaire vakken. Kimi K2.5 scoorde 78.5% op deze benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Professionele editie. Verbeterde versie van MMMU met uitdagendere vragen. Kimi K2.5 scoorde 78.5% op deze benchmark.
ChartQA
77.5%
ChartQA: Grafiek vraag-antwoord. Test het vermogen om informatie uit grafieken en diagrammen te begrijpen en te analyseren. Kimi K2.5 scoorde 77.5% op deze benchmark.
DocVQA
88.8%
DocVQA: Document visueel vraag-antwoord. Test het vermogen om informatie uit documentafbeeldingen te extraheren. Kimi K2.5 scoorde 88.8% op deze benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Terminal/CLI-taken. Test het vermogen om command-line operaties uit te voeren. Kimi K2.5 scoorde 50.8% op deze benchmark.
ARC-AGI
12%
ARC-AGI: Abstractie en redeneren. Test fluide intelligentie door nieuwe patroonherkennigspuzzels. Kimi K2.5 scoorde 12% op deze benchmark.

Over Kimi K2.5

Leer over de mogelijkheden van Kimi K2.5, functies en hoe het je kan helpen betere resultaten te behalen.

Kimi K2.5 is een open-source multimodaal model van Moonshot AI. Het gebruikt een 1 biljoen parameter Mixture-of-Experts architectuur waarbij 32 miljard parameters actief zijn per token. Het systeem verenigt tekst-, beeld- en videoverwerking via één reasoning-framework, in plaats van aparte externe encoders per modaliteit te gebruiken. Deze architectuur stelt het model in staat om 256.000 tokens aan context te verwerken met behoud van een hoge retrieval-nauwkeurigheid en logische consistentie over zeer lange sequenties.

Het model onderscheidt zich door de Agent Swarm-mogelijkheid. Deze functie stelt het systeem in staat om tot 100 parallelle sub-agents te coördineren voor het gelijktijdig uitvoeren van complexe onderzoeks- of engineeringtaken. Door de integratie van een 400M parameter MoonViT-3D encoder kan K2.5 uren aan videobeelden analyseren met temporele precisie. Het is specifiek ontworpen voor autonome executie en presteert beter dan veel propriëtaire modellen op agentic benchmarks zoals SWE-Bench en BrowseComp.

Kimi K2.5 biedt een speciale Thinking-modus voor taken die diepe logica vereisen. Wanneer deze is ingeschakeld, genereert het model een interne chain-of-reasoning om stappen zelf te corrigeren en te verifiëren voordat er een definitief antwoord wordt gegeven. Dit maakt het uiterst effectief voor wiskunde op competitieniveau en grootschalige softwareontwikkeling. De token-economie is geoptimaliseerd voor enterprise-implementatie en biedt frontier-niveau intelligentie tegen een fractie van de kosten van concurrerende closed-source systemen.

Kimi K2.5

Gebruikscases voor Kimi K2.5

Ontdek de verschillende manieren waarop je Kimi K2.5 kunt gebruiken voor geweldige resultaten.

Autonome software-engineering

Het oplossen van complexe GitHub-issues en het bouwen van projectarchitecturen met meerdere bestanden met behulp van SWE-Bench geoptimaliseerde logica.

Visuele webontwikkeling

Functionele frontend-code en UI-ontwerpen maken op basis van schermopnames van bestaande website-interacties.

Multi-threaded onderzoek

Gebruik van Agent Swarm om informatie te verzamelen en te synthetiseren uit meer dan 100 bronnen in één parallelle workflow.

Lange video-analyse

Specifieke gebeurtenissen en temporele data extraheren uit uren aan beveiligings- of collegebeelden zonder externe tools voor frame-extractie.

Genereren van wiskundige bewijzen

Toepassen van de deep thinking-modus om wiskundige problemen op olympiade-niveau op te lossen met een nauwkeurigheidspercentage van 96 procent.

Enterprise document-automatisering

Genereren van PDF-rapporten van meerdere pagina's en complexe financiële spreadsheets op basis van ongestructureerde bedrijfsdata.

Sterke punten

Beperkingen

Elite Agentic-prestaties: Scoort 76.8 op SWE-Bench Verified en overtreft daarmee veel propriëtaire frontier models bij software-engineeringtaken.
Extreme lokale VRAM-behoefte: Vereist 632GB VRAM voor het volledige ongekwantiseerde model, waardoor lokale implementatie voor de meeste consumenten onmogelijk is.
Ongeëvenaarde token-economie: Biedt 1T parameter MoE-intelligentie voor $0,60 per miljoen input tokens, wat ongeveer 10 procent van de kosten van Claude Opus is.
Hogere latency bij reasoning: De thinking-modus kan aanzienlijke vertragingen veroorzaken omdat het model interne logische chains genereert voordat het antwoord geeft.
Native video-begrip: Verwerkt complexe videobestanden zonder externe frame-extractie, wat nauwkeurige temporele analyse van lange opnames mogelijk maakt.
Herhaling in formattering: Kan overdreven lange lappen tekst produceren tenzij er strikt gevraagd wordt om specifieke paragraafstructuren te gebruiken.
Parallelle Swarm-orchestratie: Het enige open-source model dat getraind is om tot 100 sub-agents te coördineren voor massale, multi-threaded onderzoeksworkflows.
Zorgen over datalocatie: De primaire infrastructuur is gevestigd in China, wat voor bepaalde westerse bedrijven compliance-uitdagingen met zich mee kan brengen.

API snelstart

fireworks/kimi-k2p5

Bekijk documentatie
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Installeer de SDK en begin binnen enkele minuten met API-calls.

Wat mensen zeggen over Kimi K2.5

Bekijk wat de community denkt over Kimi K2.5

Kimi K2.5 kost bijna 10 procent van wat Opus kost bij een vergelijkbaar prestatieniveau.
Odd_Tumbleweed574
reddit
Mensen vergeten dat Nvidia 600 miljard dollar verloor toen een Chinees lab iets belangrijks open-source maakte. Kimi doet dat nu opnieuw met frontier-intelligentie.
chetaslua
twitter
Het Attention Residuals-concept in K2.5 is de eerste architecturale verandering in jaren die het LLM 'vergeet'-probleem echt oplost.
logic_king
hackernews
Workers AI draait nu grote modellen. Kimi K2.5 als eerste. Het is een van de beste open-source modellen die er zijn, ook erg goed voor coding.
dok2001
twitter
Kimi K2.5 is een ander beest. Het is een slim en ongelooflijk RP-model, maar het kan neurotisch worden als je geen community-presets gebruikt.
dptgreg
reddit
Ik heb mijn GPT 4-workflow vervangen door Kimi K2.5 omdat de thinking-modus transparanter is en de context window mijn hele repo aankan.
Dev_Max
reddit

Video's over Kimi K2.5

Bekijk tutorials, reviews en discussies over Kimi K2.5

Kimmy K2.5 verslaat GPT 5.2 met krachtige reasoning; het vernietigt de andere frontier models volledig.

Het is tot op heden het krachtigste open-source coding-model met een score van 76.8 op SWE verified.

Agent swarm is een verschuiving van single-agent naar multi-agent die parallelle workflows uitvoert over maximaal 1500 gecoördineerde stappen.

De context window is enorm met 256k tokens, wat ruim voldoende is voor de meeste projecten.

Moonshot verlegt echt de grenzen van wat open weights kunnen doen begin 2026.

Het wist de hele Apple design-esthetiek perfect te vangen en produceerde een goed uitziende website met animaties op basis van enkel een video.

De Swarm-functie ziet er erg gaaf uit en is zeker leuk om te gebruiken, omdat het ID-badges toewijst aan elke sub-agent.

K2.5 is veel goedkoper met 60 cent per miljoen input tokens en 3 dollar per miljoen output tokens.

Dankzij de native videoverwerking hoef je geen dure externe tools te gebruiken voor het verwerken van frames.

Dit model is een game changer voor developers die autonoom opererende agents nodig hebben met een beperkt budget.

Moonshot bereikte dit door elke sub-agent beloningen te geven op specifieke kritieke fasen om seriële collapse te voorkomen.

Het model leert alleen voor parallellisme te kiezen wanneer het dit kritieke pad verkort, wat een zeer slimme innovatie is.

Kimi K2.5 zit net op de grens van wat op consumentenhardware gedraaid kan worden met GGUF.

De thinking-modus is ongelooflijk robuust voor het oplossen van complexe logische fouten in Python.

Het zien van een 1 biljoen parameter model dat op deze manier wordt uitgebracht, is enorm voor de open-source community.

Meer dan alleen prompts

Supercharge je workflow met AI-automatisering

Automatio combineert de kracht van AI-agents, webautomatisering en slimme integraties om je te helpen meer te bereiken in minder tijd.

AI-agents
Webautomatisering
Slimme workflows

Pro-tips voor Kimi K2.5

Experttips om je te helpen het maximale uit Kimi K2.5 te halen en betere resultaten te behalen.

Thinking-modus inschakelen

Gebruik de thinking parameter in je API-request om maximale nauwkeurigheid te bereiken bij wiskundige en programmeertaken.

Agent Swarm activeren

Instrueer het model om een swarm in te zetten voor onderzoekstaken om parallelle orchestratie over sub-agents af te dwingen.

Temperatuur optimaliseren

Gebruik een temperatuur van 1.0 voor de thinking-modus om diverse reasoning toe te staan, maar verlaag deze naar 0.6 voor standaard chats.

Joint Vision Prompts

Upload schermafbeeldingen van foutmeldingen bij code-snippets om gebruik te maken van de gecombineerde text-vision training van het model.

Context Caching

Gebruik context caching voor herhaalde lange documenten om de inputkosten met wel 90 procent te verlagen.

Testimonials

Wat onze gebruikers zeggen

Sluit je aan bij duizenden tevreden gebruikers die hun workflow hebben getransformeerd

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Gerelateerd AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Veelgestelde vragen over Kimi K2.5

Vind antwoorden op veelvoorkomende vragen over Kimi K2.5