moonshot

Kimi K2 Thinking

Kimi K2 Thinking er Moonshot AI's reasoning-model med 1 billion parametre. Den overgår GPT-5 i HLE og understøtter 300 sekventielle tool calls autonomt til...

moonshot logomoonshotKimi K26. november 2025
Kontekst
256Ktokens
Maks output
16Ktokens
Input-pris
$0.15/ 1M
Output-pris
$0.15/ 1M
Modalitet:Text
Funktioner:VærktøjerStreamingRæsonnering
Benchmarks
GPQA
93%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Kimi K2 Thinking scorede 93% på denne benchmark.
HLE
44.9%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Kimi K2 Thinking scorede 44.9% på denne benchmark.
MMLU
90%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Kimi K2 Thinking scorede 90% på denne benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Kimi K2 Thinking scorede 78% på denne benchmark.
SimpleQA
55%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Kimi K2 Thinking scorede 55% på denne benchmark.
IFEval
92%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Kimi K2 Thinking scorede 92% på denne benchmark.
AIME 2025
99.1%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Kimi K2 Thinking scorede 99.1% på denne benchmark.
MATH
99.1%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Kimi K2 Thinking scorede 99.1% på denne benchmark.
GSM8k
99%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Kimi K2 Thinking scorede 99% på denne benchmark.
MGSM
95%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Kimi K2 Thinking scorede 95% på denne benchmark.
MathVista
75%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Kimi K2 Thinking scorede 75% på denne benchmark.
SWE-Bench
71.3%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Kimi K2 Thinking scorede 71.3% på denne benchmark.
HumanEval
83%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Kimi K2 Thinking scorede 83% på denne benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Kimi K2 Thinking scorede 83.1% på denne benchmark.
MMMU
80%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Kimi K2 Thinking scorede 80% på denne benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Kimi K2 Thinking scorede 60% på denne benchmark.
ChartQA
88%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Kimi K2 Thinking scorede 88% på denne benchmark.
DocVQA
94%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Kimi K2 Thinking scorede 94% på denne benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Kimi K2 Thinking scorede 55% på denne benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Kimi K2 Thinking scorede 12% på denne benchmark.

Om Kimi K2 Thinking

Lær om Kimi K2 Thinkings muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Mixture of Experts med 1 billion parametre

Kimi K2 Thinking er en reasoning-model med 1 billion parametre, der benytter en Mixture-of-Experts (MoE) arkitektur. Den er udviklet af Moonshot AI og udgivet sent i 2025. Den aktiverer kun 32B parametre til inference, hvilket balancerer en massiv videnskapacitet med beregningsmæssig effektivitet. Den er designet specifikt som en tænkende agent, der skalerer sin beregning i løbet af inference-fasen for at løse komplekse logiske problemer. Denne tilgang giver modellen mulighed for at reflektere over sin egen logik og rette fejl, før den giver et endeligt svar.

Agentic tool use og planlægning

Modellen udmærker sig ved sin evne til autonomt at håndtere op til 300 sekventielle tool calls. Mens de fleste standardsprogmodeller kæmper med planlægning over lang tid, er K2 Thinking bygget til agentic-workflows såsom autonom websurfing og softwareudvikling i flere trin. Den understøtter indfødt INT4-præcision via Quantization-Aware Training, hvilket gør det muligt for modellen at opretholde performance på frontier-niveau, mens den kører på standard enterprise hardware-clusters.

Fokus på udvikling og research

Med et context window på 256K tokens er modellen bygget til dyb research og komplekse tekniske opgaver. Den bygger bro over performance-kløften mellem closed-source systemer og open-weights modeller. Dens evne til at besvare videnskabelige spørgsmål på ph.d.-niveau og konkurrence-matematikopgaver gør den til et passende valg til akademisk research, automatiserede koder-assistenter og reasoning-applikationer med høj præcision, hvor logisk konsistens er det primære krav.

Kimi K2 Thinking

Anvendelser for Kimi K2 Thinking

Opdag de forskellige måder, du kan bruge Kimi K2 Thinking til at opnå gode resultater.

Kompleks softwareudvikling

Løsning af reelle GitHub-issues og arkitektur af kodebaser med mange filer ved hjælp af iterativ selvkorrektion.

Autonome research-agenter

Udførelse af hundreder af sekventielle tool calls for at indsamle og syntetisere obskure tekniske data.

Matematik på olympiade-niveau

Løsning af avancerede geometri- og algebrapopgaver med dyb chain-of-thought-verificering.

Videnskabelig undersøgelse på ph.d.-niveau

Besvarelse af ekspertspecifikke spørgsmål inden for fysik og biologi, der kræver logisk deduktion i flere trin.

Interaktiv computerstyring

Navigering i terminalmiljøer og cloud-infrastruktur for at automatisere devops-workflows.

Logik-tung kreativ skrivning

Generering af langt indhold, der kræver streng overholdelse af komplekse regler for world-building.

Styrker

Begrænsninger

State-of-the-art Reasoning: Opnår 44,9 % i HLE med tools, hvilket overgår førende closed-source modeller inden for logik på ekspertniveau.
Massive ressourcekrav: Lokal inference kræver mindst 245 GB VRAM, selv med kvantisering, hvilket begrænser brugen til high-end server-clusters.
Ekstraordinær agentic dybde: I stand til 300 sekventielle tool calls, hvilket muliggør reelt autonom web-research og browser-opgaver.
Inherent responslatency: Den dybe tænkeproces resulterer i betydelige ventetider, efterhånden som modellen skalerer sin test-time compute.
Matematisk nøjagtighed i topklasse: Opnår 94,5 % i AIME 2025, hvilket beviser dens pålidelighed til løsning af avancerede matematiske problemer.
Manglende indbygget multimodalitet: Denne variant kan ikke behandle billed- eller video-inputs direkte, hvilket kræver en separat vision model til multimodale opgaver.
Tilgængelighed med open-weights: Tilbyder intelligens på frontier-niveau til udviklermiljøet til lokal deployment og fine-tuning.
Højt token-overhead: Interne reasoning-trin forbruger et stort antal output-tokens, hvilket øger API-omkostningerne ved simple forespørgsler.

API hurtig start

moonshot/kimi-k2-thinking

Se dokumentation
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Design a system for autonomous code review using 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Kimi K2 Thinking

Se hvad fællesskabet mener om Kimi K2 Thinking

Kimi K2.5 er den bedste open model til kodning, de har virkelig gjort et godt stykke arbejde.
npc_gooner
reddit
Moonshot AI har lige udgivet Kimi K2 Thinking. 300 sekventielle tool calls? Det er fremtiden for agentic AI.
@tech_trends
twitter
Kimi udgav Kimi K2 Thinking, en open-source reasoning-model på 1 billion parametre. Det her er den ægte vare.
nekofneko
reddit
Det faktum, at den kan håndtere 300 tool calls sekventielt, åbner op for helt nye agent-workflows.
AI Explained
youtube
Imponerende at se en open-source model nå disse tal. Tilgangen med test-time scaling giver tydeligvis pote.
jsmith23
hackernews
Det er en udfordring at køre denne model lokalt, men reasoning-dybden er ulig noget andet i open weights-rummet.
LocalLlamaEnthusiast
reddit

Videoer om Kimi K2 Thinking

Se vejledninger, anmeldelser og diskussioner om Kimi K2 Thinking

Kimmy K2 thinking er den bedste AI-model, jeg nogensinde har brugt.

Det er den mest agentic uafhængige model, der nogensinde er skabt. Det betyder, at den kan køre i timevis af sig selv.

Den er i stand til at tænke og reflektere hvert eneste skridt på vejen. Så den farer aldrig vild.

Reasoning-hastigheden er overraskende hurtig trods den ene billion parametre.

Hvis du bygger agenter, er dette den arkitektur, du bør kigge på.

Kimi K2 Thinking... er en tænkningsopgradering til Kimi K2-modellen, som ærligt talt virker til at være meget bredt anerkendt.

Dette er naturligvis en open-source model... med en samlet størrelse på omkring 1 billion parametre.

Alle benchmark-resultater er rapporteret under int4-præcision.

Den håndterer komplekse matematikopgaver med et logikniveau, der udfordrer de førende proprietære laboratorier.

Installationsprocessen for de lokale vægte er ret ligetil, hvis du har VRAM'en.

Kimi K2.5 er den seneste open-source model udviklet af en kinesisk virksomhed kaldet Moonshot AI.

Den er i stand til at starte op til 100 under-agenter og 1.500 tool calls og køre dem samtidigt.

Jeg vil bestemt anbefale den, hvis du ønsker at lave en virkelig smuk hjemmeside.

Den interne chain-of-thought gør det muligt for den at selvkorrigere kodefejl, før den giver det endelige svar.

Moonshot har virkelig fokuseret på langsigtede planlægningshorisonter til denne specifikke udgivelse.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til Kimi K2 Thinking

Eksperttips til at hjælpe dig med at få mest muligt ud af Kimi K2 Thinking og opnå bedre resultater.

Aktivér Thinking Output

Brug flaget for special tokens i din inference-engine for at se modellens interne reasoning-trin.

Optimér Temperature

Sæt sampling-temperaturen til 1.0 og min_p til 0,01 for at opnå det mest konsistente reasoning-flow.

Udnyt System Prompts

Start samtaler med den officielle Moonshot AI-identitets-prompt for at stabilisere modellens adfærd.

Skalér test-time compute

Giv modellen lov til at generere flere interne tokens ved sværere problemer for at øge nøjagtigheden.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Ofte stillede spørgsmål om Kimi K2 Thinking

Find svar på almindelige spørgsmål om Kimi K2 Thinking