moonshot

Kimi K2 Thinking

Kimi K2 Thinking is het trillion-parameter reasoning model van Moonshot AI. Het presteert beter dan GPT-5 op HLE en ondersteunt autonoom 300 opeenvolgende tool...

moonshot logomoonshotKimi2025-11-06
Context
256Ktokens
Max output
16Ktokens
Invoerprijs
$0.15/ 1M
Uitvoerprijs
$0.15/ 1M
Modaliteit:Text
Mogelijkheden:ToolsStreamingRedeneren
Benchmarks
GPQA
93%
GPQA: Wetenschappelijke vragen op graduate-niveau. Een rigoureuze benchmark met 448 vragen over biologie, fysica en chemie. PhD-experts behalen slechts 65-74% nauwkeurigheid. Kimi K2 Thinking scoorde 93% op deze benchmark.
HLE
44.9%
HLE: Expert-niveau redeneren. Test het vermogen van een model om expert-niveau redeneren te demonstreren in gespecialiseerde domeinen. Kimi K2 Thinking scoorde 44.9% op deze benchmark.
MMLU
90%
MMLU: Massale multitask taalbegrip. Een uitgebreide benchmark met 16.000 vragen over 57 academische vakken. Kimi K2 Thinking scoorde 90% op deze benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professionele editie. Een verbeterde versie van MMLU met 12.032 vragen en een moeilijker 10-optie formaat. Kimi K2 Thinking scoorde 78% op deze benchmark.
SimpleQA
55%
SimpleQA: Feitelijke nauwkeurigheidsbenchmark. Test het vermogen van een model om accurate, feitelijke antwoorden te geven. Kimi K2 Thinking scoorde 55% op deze benchmark.
IFEval
92%
IFEval: Instructie-opvolging evaluatie. Meet hoe goed een model specifieke instructies en beperkingen volgt. Kimi K2 Thinking scoorde 92% op deze benchmark.
AIME 2025
99.1%
AIME 2025: Amerikaanse uitnodigingswiskunde-examen. Wiskundeproblemen op wedstrijdniveau van het prestigieuze AIME-examen. Kimi K2 Thinking scoorde 99.1% op deze benchmark.
MATH
99.1%
MATH: Wiskundig probleemoplossen. Een uitgebreide wiskunde-benchmark die probleemoplossen test in algebra, meetkunde, calculus. Kimi K2 Thinking scoorde 99.1% op deze benchmark.
GSM8k
99%
GSM8k: Basisschool wiskunde 8K. 8.500 wiskundige woordproblemen op basisschoolniveau. Kimi K2 Thinking scoorde 99% op deze benchmark.
MGSM
95%
MGSM: Meertalige basisschool wiskunde. De GSM8k-benchmark vertaald naar 10 talen. Kimi K2 Thinking scoorde 95% op deze benchmark.
MathVista
75%
MathVista: Wiskundig visueel redeneren. Test het vermogen om wiskundeproblemen met visuele elementen op te lossen. Kimi K2 Thinking scoorde 75% op deze benchmark.
SWE-Bench
71.3%
SWE-Bench: Software engineering benchmark. AI-modellen proberen echte GitHub-issues op te lossen in Python-projecten. Kimi K2 Thinking scoorde 71.3% op deze benchmark.
HumanEval
83%
HumanEval: Python programmeerproblemen. 164 programmeerproblemen waarbij modellen correcte Python-functie-implementaties moeten genereren. Kimi K2 Thinking scoorde 83% op deze benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Live codeerbenchmark. Test codeervaardigheden op continu bijgewerkte, real-world programmeeruitdagingen. Kimi K2 Thinking scoorde 83.1% op deze benchmark.
MMMU
80%
MMMU: Multimodaal begrip. Multimodaal begripsbenchmark over 30 universitaire vakken. Kimi K2 Thinking scoorde 80% op deze benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionele editie. Verbeterde versie van MMMU met uitdagendere vragen. Kimi K2 Thinking scoorde 60% op deze benchmark.
ChartQA
88%
ChartQA: Grafiek vraag-antwoord. Test het vermogen om informatie uit grafieken en diagrammen te begrijpen en te analyseren. Kimi K2 Thinking scoorde 88% op deze benchmark.
DocVQA
94%
DocVQA: Document visueel vraag-antwoord. Test het vermogen om informatie uit documentafbeeldingen te extraheren. Kimi K2 Thinking scoorde 94% op deze benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-taken. Test het vermogen om command-line operaties uit te voeren. Kimi K2 Thinking scoorde 55% op deze benchmark.
ARC-AGI
12%
ARC-AGI: Abstractie en redeneren. Test fluide intelligentie door nieuwe patroonherkennigspuzzels. Kimi K2 Thinking scoorde 12% op deze benchmark.

Over Kimi K2 Thinking

Leer over de mogelijkheden van Kimi K2 Thinking, functies en hoe het je kan helpen betere resultaten te behalen.

Trillion-Parameter Open Intelligence

Kimi K2 Thinking is een baanbrekend trillion-parameter reasoning model van Moonshot AI dat de grenzen van open-source intelligentie heeft herdefinieerd. Het model is uitgebracht in november 2025 en maakt gebruik van een geavanceerde Mixture-of-Experts (MoE) architectuur met in totaal 1T parameters — waarvan er slechts 32B worden geactiveerd voor inference — wat het zowel opmerkelijk krachtig als computationeel efficiënt maakt. In tegenstelling tot standaard taalmodellen is K2 Thinking ontworpen als een "thinking agent", waarbij test-time computation wordt opgeschaald om diepe logische reasoning, planning en autonoom tool-gebruik uit te voeren.

Agentic Kracht en Schaalbaarheid

Het model staat vooral bekend om zijn agentic capaciteiten en voert succesvol tot 300 opeenvolgende tool calls uit zonder menselijke tussenkomst. Dit maakt het een geduchte keuze voor complex onderzoek, competitive programming en technische workflows met meerdere stappen. Door native gebruik te maken van INT4 precisie via Quantization-Aware Training, heeft Moonshot AI het mogelijk gemaakt dat dit enorme model op toegankelijke hardware clusters draait, terwijl het closed-source giganten zoals GPT-5 en Claude 4.5 verslaat in kritische reasoning en browsing benchmarks.

Developer-First Architectuur

Ontworpen voor de wereldwijde developer community, biedt Kimi K2-Thinking ongeëvenaarde kosten-prestatieverhoudingen. Met een enorm context window van 256K en ondersteuning voor uitgebreide chain-of-thought verwerking, overbrugt het de kloof tussen lokale gespecialiseerde modellen en enterprise-grade cloud API's. De trainingsmethodologie richt zich op planning over een lange horizon, waardoor het model iteratief kan reflecteren, corrigeren en de eigen output kan optimaliseren.

Kimi K2 Thinking

Gebruikscases voor Kimi K2 Thinking

Ontdek de verschillende manieren waarop je Kimi K2 Thinking kunt gebruiken voor geweldige resultaten.

Autonoom Onderzoek

Het uitvoeren van diepgaande web-onderzoeken die honderden opeenvolgende tool calls en iteratieve informatieverificatie vereisen.

Wetenschappelijke Probleemoplossing

Het aanpakken van wiskunde- en natuurkundevraagstukken op PhD-niveau met behulp van Python tool execution en chain-of-thought verwerking.

Competitive Programming

Het oplossen van zeer complexe algoritmische uitdagingen van platforms zoals Codeforces en LeetCode met PhD-niveau nauwkeurigheid.

Complexe Code Debugging

Het identificeren en herstellen van logische fouten in enorme codebases met meerdere bestanden via uitgebreide, high-horizon reasoning stappen.

Juridische en Compliance Analyse

Het beoordelen van lijvige technische of juridische documenten over een 256K context window om subtiele risico's of tegenstrijdigheden te identificeren.

Agentic AI Automatisering

Het aansturen van autonome agents die urenlang hun eigen output kunnen plannen, uitvoeren, reflecteren en verfijnen zonder menselijke tussenkomst.

Sterke punten

Beperkingen

Agentic Diepgang: Het enige open weights model dat in staat is om 200–300 opeenvolgende tool calls te beheren zonder prestatieverlies.
Alleen Tekst-input: Mist momenteel native multimodal vision ondersteuning voor het verwerken van directe afbeeldingen, video- of audiobestanden.
State-of-the-art Reasoning: Presteert beter dan GPT-5 en Claude 4.5 op Humanity's Last Exam (HLE) en BrowseComp door intensieve test-time scaling.
Enorme RAM-vereisten: Lokale implementatie van de volledige 1T architectuur vereist meer dan 500GB RAM of gedistribueerde Mac clusters.
Ongeëvenaarde Kostenefficiëntie: Met een vaste prijs van $0,15/1M tokens biedt het frontier model intelligentie tegen een fractie van de kosten van propriëtaire API's.
Initiële Token Latency: De intensieve interne reasoning fase leidt tot een tragere time-to-first-token in vergelijking met non-thinking LLMs.
Native INT4 Optimalisatie: Native kwantisering via Quantization-Aware Training zorgt voor een 2x snelheidsboost voor lokale inference op toegankelijke hardware.
Reasoning Verbositeit: Het model kan extreem lange chain-of-thought sequenties genereren, zelfs voor relatief eenvoudige vragen.

API snelstart

moonshot/kimi-k2-thinking

Bekijk documentatie
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Installeer de SDK en begin binnen enkele minuten met API-calls.

Wat mensen zeggen over Kimi K2 Thinking

Bekijk wat de community denkt over Kimi K2 Thinking

"Kimi K2 Thinking is het beste AI-model dat ik ooit heb gebruikt... geen hallucinaties en honderden tool calls."
Alex Finn
youtube
"Het gat tussen closed en open blijft kleiner worden, zelfs nu de kosten van tokens instorten."
Emad Mostaque
x
"Moonshot K2-Thinking herdefinieert lokale intelligente agents met 300 tool calls."
Brian Roemmele
x
"Eindelijk een model dat daadwerkelijk de logica van de prompt doordenkt voordat het antwoordt!"
ai_user_2025
reddit
"China verlegt echt de grenzen van de open-source open weights frontier met de Kimi-serie."
Nathan Lambert
x
"Absoluut verbluffende prestaties bij competitieve wiskundeproblemen."
MathWizard
hackernews

Video's over Kimi K2 Thinking

Bekijk tutorials, reviews en discussies over Kimi K2 Thinking

Dit is het meest agentic onafhankelijke model dat ooit is gemaakt.

Het is in staat om bij elke stap na te denken en te reflecteren. Zo raakt het nooit de draad kwijt.

Het is extreem kosteneffectief... de helft van de prijs van GPT-5 en ongeveer een tiende van de prijs van Sonnet 4.5.

Het slaagt erin de gebruikelijke logische valkuilen van standaard LLMs te vermijden.

Moonshot verandert echt de regels voor open weights toegankelijkheid.

Het kan tot wel 200 tot 300 opeenvolgende tool calls uitvoeren zonder menselijke tussenkomst.

K2 Thinking behaalde een score van 60,2% op BrowseComp, wat aanzienlijk beter is dan de menselijke baseline van 29,2%.

China verlegt echt de grenzen van de open-source open weights frontier.

De Mixture-of-Experts implementatie is hier ongelooflijk efficiënt voor 1 biljoen parameters.

Je krijgt reasoning op frontier model-niveau voor letterlijk een schijntje.

Ik heb het hier draaien op een Mac Studio met een bekabelde limiet via pseudo cis control.

We gebruiken 500 GB RAM. Onze verwerkingssnelheid is gekropen naar ongeveer 6,9 tokens per seconde.

Het schreef deze code op, maar stopte niet echt. Het begon opnieuw na te denken.

Zelfs met kwantisering blijft de logische coherentie van dit model elite.

De interne monoloog laat precies zien waar het zijn eigen coding fouten corrigeert.

Meer dan alleen prompts

Supercharge je workflow met AI-automatisering

Automatio combineert de kracht van AI-agents, webautomatisering en slimme integraties om je te helpen meer te bereiken in minder tijd.

AI-agents
Webautomatisering
Slimme workflows
Bekijk demo

Pro-tips voor Kimi K2 Thinking

Experttips om je te helpen het maximale uit Kimi K2 Thinking te halen en betere resultaten te behalen.

Activeer Thinking Tags

Wanneer je het model lokaal draait via tools zoals llama.cpp, zorg er dan voor dat je de --special flag gebruikt om de interne <think> tokens correct te renderen.

Optimaliseer Temperature

Stel de temperature in op 1.0 en min_p op 0.01 voor de meest stabiele en nauwkeurige reasoning resultaten.

Hardware Clustering

Implementeer de INT4 quantized versie op een cluster van twee Mac Studio M3 Ultras met RDMA voor een verliesvrije lokale 1T ervaring.

Long-Horizon Planning

Structureer prompts door expliciet eerst om een 'stap-voor-stap plan' te vragen om de adaptieve leer- en zoekkracht van het model te activeren.

Testimonials

Wat onze gebruikers zeggen

Sluit je aan bij duizenden tevreden gebruikers die hun workflow hebben getransformeerd

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Gerelateerd AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Veelgestelde vragen over Kimi K2 Thinking

Vind antwoorden op veelvoorkomende vragen over Kimi K2 Thinking