moonshot

Kimi K2 Thinking

Kimi K2 Thinking is het reasoning-model van Moonshot AI met een biljoen parameters. Het presteert beter dan GPT-5 op HLE en ondersteunt autonoom 300...

moonshot logomoonshotKimi K26 november 2025
Context
256Ktokens
Max output
16Ktokens
Invoerprijs
$0.15/ 1M
Uitvoerprijs
$0.15/ 1M
Modaliteit:Text
Mogelijkheden:ToolsStreamingRedeneren
Benchmarks
GPQA
93%
GPQA: Wetenschappelijke vragen op graduate-niveau. Een rigoureuze benchmark met 448 vragen over biologie, fysica en chemie. PhD-experts behalen slechts 65-74% nauwkeurigheid. Kimi K2 Thinking scoorde 93% op deze benchmark.
HLE
44.9%
HLE: Expert-niveau redeneren. Test het vermogen van een model om expert-niveau redeneren te demonstreren in gespecialiseerde domeinen. Kimi K2 Thinking scoorde 44.9% op deze benchmark.
MMLU
90%
MMLU: Massale multitask taalbegrip. Een uitgebreide benchmark met 16.000 vragen over 57 academische vakken. Kimi K2 Thinking scoorde 90% op deze benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professionele editie. Een verbeterde versie van MMLU met 12.032 vragen en een moeilijker 10-optie formaat. Kimi K2 Thinking scoorde 78% op deze benchmark.
SimpleQA
55%
SimpleQA: Feitelijke nauwkeurigheidsbenchmark. Test het vermogen van een model om accurate, feitelijke antwoorden te geven. Kimi K2 Thinking scoorde 55% op deze benchmark.
IFEval
92%
IFEval: Instructie-opvolging evaluatie. Meet hoe goed een model specifieke instructies en beperkingen volgt. Kimi K2 Thinking scoorde 92% op deze benchmark.
AIME 2025
99.1%
AIME 2025: Amerikaanse uitnodigingswiskunde-examen. Wiskundeproblemen op wedstrijdniveau van het prestigieuze AIME-examen. Kimi K2 Thinking scoorde 99.1% op deze benchmark.
MATH
99.1%
MATH: Wiskundig probleemoplossen. Een uitgebreide wiskunde-benchmark die probleemoplossen test in algebra, meetkunde, calculus. Kimi K2 Thinking scoorde 99.1% op deze benchmark.
GSM8k
99%
GSM8k: Basisschool wiskunde 8K. 8.500 wiskundige woordproblemen op basisschoolniveau. Kimi K2 Thinking scoorde 99% op deze benchmark.
MGSM
95%
MGSM: Meertalige basisschool wiskunde. De GSM8k-benchmark vertaald naar 10 talen. Kimi K2 Thinking scoorde 95% op deze benchmark.
MathVista
75%
MathVista: Wiskundig visueel redeneren. Test het vermogen om wiskundeproblemen met visuele elementen op te lossen. Kimi K2 Thinking scoorde 75% op deze benchmark.
SWE-Bench
71.3%
SWE-Bench: Software engineering benchmark. AI-modellen proberen echte GitHub-issues op te lossen in Python-projecten. Kimi K2 Thinking scoorde 71.3% op deze benchmark.
HumanEval
83%
HumanEval: Python programmeerproblemen. 164 programmeerproblemen waarbij modellen correcte Python-functie-implementaties moeten genereren. Kimi K2 Thinking scoorde 83% op deze benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Live codeerbenchmark. Test codeervaardigheden op continu bijgewerkte, real-world programmeeruitdagingen. Kimi K2 Thinking scoorde 83.1% op deze benchmark.
MMMU
80%
MMMU: Multimodaal begrip. Multimodaal begripsbenchmark over 30 universitaire vakken. Kimi K2 Thinking scoorde 80% op deze benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionele editie. Verbeterde versie van MMMU met uitdagendere vragen. Kimi K2 Thinking scoorde 60% op deze benchmark.
ChartQA
88%
ChartQA: Grafiek vraag-antwoord. Test het vermogen om informatie uit grafieken en diagrammen te begrijpen en te analyseren. Kimi K2 Thinking scoorde 88% op deze benchmark.
DocVQA
94%
DocVQA: Document visueel vraag-antwoord. Test het vermogen om informatie uit documentafbeeldingen te extraheren. Kimi K2 Thinking scoorde 94% op deze benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-taken. Test het vermogen om command-line operaties uit te voeren. Kimi K2 Thinking scoorde 55% op deze benchmark.
ARC-AGI
12%
ARC-AGI: Abstractie en redeneren. Test fluide intelligentie door nieuwe patroonherkennigspuzzels. Kimi K2 Thinking scoorde 12% op deze benchmark.

Over Kimi K2 Thinking

Leer over de mogelijkheden van Kimi K2 Thinking, functies en hoe het je kan helpen betere resultaten te behalen.

Trillion-Parameter Mixture of Experts

Kimi K2 Thinking is een reasoning-model met een biljoen parameters dat gebruikmaakt van een Mixture-of-Experts (MoE) architectuur. Ontwikkeld door Moonshot AI en uitgebracht eind 2025, activeert het slechts 32B parameters voor inference, wat enorme kenniscapaciteit balanceert met rekenkundige efficiëntie. Het is specifiek ontworpen als een denkende agent die zijn computationele kracht schaalt tijdens de inference-fase om complexe logische problemen op te lossen. Deze aanpak stelt het model in staat om na te denken over zijn eigen redenering en fouten te corrigeren voordat het een definitief antwoord geeft.

Agentic Tool Use en Planning

Het model onderscheidt zich door zijn vermogen om autonoom tot 300 sequentiële tool calls te verwerken. Waar de meeste standaard taalmodellen worstelen met long-horizon planning, is K2 Thinking ontworpen voor agentic workflows zoals autonoom surfen op het web en software engineering in meerdere stappen. Het ondersteunt native INT4-precisie via Quantization-Aware Training, waardoor het model prestaties op frontier-niveau behoudt terwijl het op standaard enterprise hardware-clusters draait.

Focus op Ontwikkelaars en Onderzoek

Met een context window van 256K tokens is het model gebouwd voor diepgaand onderzoek en complexe technische taken. Het overbrugt het prestatiegat tussen closed-source systemen en open-weights modellen. Het vermogen om wetenschappelijke vragen op PhD-niveau en competitieve wiskundeproblemen op te lossen, maakt het een geschikte keuze voor academisch onderzoek, geautomatiseerde code-assistenten en reasoning-applicaties met hoge betrouwbaarheid, waar logische consistentie de belangrijkste vereiste is.

Kimi K2 Thinking

Gebruikscases voor Kimi K2 Thinking

Ontdek de verschillende manieren waarop je Kimi K2 Thinking kunt gebruiken voor geweldige resultaten.

Complexe Software Engineering

Het oplossen van echte GitHub-issues en het architectureren van codebases met meerdere bestanden via iteratieve zelfcorrectie.

Autonome Research Agents

Het uitvoeren van honderden sequentiële tool calls om obscure technische data te verzamelen en samen te vatten.

Wiskunde op Olympiade-niveau

Het oplossen van geavanceerde meetkunde- en algebraproblemen met diepgaande chain-of-thought verificatie.

Wetenschappelijk onderzoek op PhD-niveau

Het beantwoorden van expertvragen in de natuurkunde en biologie die logische deductie in meerdere stappen vereisen.

Interactieve Computerbesturing

Navigeren door terminal-omgevingen en cloud-infrastructuur om devops-workflows te automatiseren.

Logisch-zwaar Creatief Schrijven

Het genereren van long-form content die strikte naleving van complexe wereld-opbouwregels vereist.

Sterke punten

Beperkingen

State-of-the-art Reasoning: Scoort 44,9% op HLE met tools, waarmee het grote closed-source modellen overtreft in logica op expertniveau.
Enorme resourcevereisten: Lokale inference vereist minstens 245GB aan VRAM, zelfs met kwantisatie, wat het gebruik beperkt tot high-end serverclusters.
Uitzonderlijke Agentic Diepgang: In staat tot 300 sequentiële tool calls, wat echt autonoom webonderzoek en browsertaken mogelijk maakt.
Inherent Response Latency: Het diepe denkproces resulteert in aanzienlijke wachttijden terwijl het model zijn test-time computation schaalt.
Wiskundige nauwkeurigheid van topniveau: Behaalt 94,5% op AIME 2025, wat de betrouwbaarheid bewijst voor wiskundige probleemoplossing op hoog niveau.
Gebrek aan native multimodaliteit: Deze variant kan geen afbeeldingen of video-inputs direct verwerken, wat een apart vision-model vereist voor multimodale taken.
Toegankelijkheid van Open-Weights: Biedt intelligentie op frontier-niveau aan de ontwikkelaarscommunity voor lokale implementatie en fine-tuning.
Hoge token-overhead: Interne reasoning-stappen verbruiken een groot aantal output tokens, wat de API-kosten verhoogt voor eenvoudige vragen.

API snelstart

moonshot/kimi-k2-thinking

Bekijk documentatie
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Ontwerp een systeem voor autonome code review met behulp van 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Installeer de SDK en begin binnen enkele minuten met API-calls.

Wat mensen zeggen over Kimi K2 Thinking

Bekijk wat de community denkt over Kimi K2 Thinking

Kimi K2.5 is het beste open model voor programmeren, ze hebben echt puik werk geleverd.
npc_gooner
reddit
Moonshot AI heeft zojuist Kimi K2 Thinking uitgebracht. 300 sequentiële tool calls? Dat is de toekomst van agentic AI.
@tech_trends
twitter
Kimi heeft Kimi K2 Thinking uitgebracht, een open-source reasoning-model met een biljoen parameters. Dit is het echte werk.
nekofneko
reddit
Het feit dat het 300 tool calls achter elkaar kan verwerken opent volledig nieuwe workflows voor agents.
AI Explained
youtube
Indrukwekkend om te zien dat een open-source model deze cijfers haalt. De test-time scaling-aanpak werpt duidelijk zijn vruchten af.
jsmith23
hackernews
Dit model lokaal draaien is een uitdaging, maar de reasoning-diepgang is ongekend in de wereld van open weights.
LocalLlamaEnthusiast
reddit

Video's over Kimi K2 Thinking

Bekijk tutorials, reviews en discussies over Kimi K2 Thinking

Kimi K2 Thinking is het beste AI-model dat ik ooit heb gebruikt.

Het is het meest agentic onafhankelijke model ooit gemaakt. Dat betekent dat het urenlang zelfstandig kan draaien.

Het kan elke stap van het proces overdenken en reflecteren. Dus het raakt nooit de draad kwijt.

De reasoning-snelheid is verrassend hoog ondanks het biljoen parameters.

Als je agents bouwt, is dit de architectuur waar je naar moet kijken.

Kimi K2 Thinking... is een 'thinking' upgrade naar het Kimi K2-model, wat eerlijk gezegd erg breed wordt gewaardeerd.

Dit is natuurlijk een open-source model... met een totale grootte van ongeveer 1 biljoen parameters.

Alle benchmarkresultaten zijn gerapporteerd onder int4-precisie.

Het verwerkt complexe wiskundeproblemen met een niveau van logica dat wedijvert met de beste propriëtaire labs.

Het installatieproces voor de lokale gewichten is redelijk eenvoudig als je de VRAM hebt.

Kimi K2.5 is het nieuwste open-source model ontwikkeld door een Chinees bedrijf genaamd Moonshot AI.

Het is in staat om tot 100 sub-agents en 1.500 tool calls op te starten en deze gelijktijdig uit te voeren.

Ik zou het zeker aanraden als je een echt mooie website wilt maken.

De interne chain-of-thought stelt het in staat om code-fouten zelf te corrigeren voordat het definitieve antwoord wordt gegeven.

Moonshot heeft zich voor deze specifieke release echt gericht op long-horizon planning.

Meer dan alleen prompts

Supercharge je workflow met AI-automatisering

Automatio combineert de kracht van AI-agents, webautomatisering en slimme integraties om je te helpen meer te bereiken in minder tijd.

AI-agents
Webautomatisering
Slimme workflows

Pro-tips voor Kimi K2 Thinking

Experttips om je te helpen het maximale uit Kimi K2 Thinking te halen en betere resultaten te behalen.

Schakel Thinking Output in

Gebruik de speciale tokens-vlag in je inference engine om de interne reasoning-stappen van het model te zien.

Optimaliseer Temperature

Zet de sampling temperature op 1.0 en min_p op 0.01 voor de meest consistente reasoning-flow.

Gebruik System Prompts

Begin gesprekken met de officiële Moonshot AI identity prompt om het gedrag van het model te stabiliseren.

Schaal Test-Time Compute

Sta het model toe om meer interne tokens te genereren voor moeilijkere problemen om de nauwkeurigheid te vergroten.

Testimonials

Wat onze gebruikers zeggen

Sluit je aan bij duizenden tevreden gebruikers die hun workflow hebben getransformeerd

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Gerelateerd AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Veelgestelde vragen over Kimi K2 Thinking

Vind antwoorden op veelvoorkomende vragen over Kimi K2 Thinking