moonshot

Kimi K2 Thinking

Kimi K2 Thinking är Moonshot AI:s resonemangsmodell på en biljon parameters. Den överträffar GPT-5 på HLE och har stöd för 300 sekventiella verktygsanrop...

moonshot logomoonshotKimi K26 november 2025
Kontext
256Ktokens
Max utdata
16Ktokens
Inmatningspris
$0.15/ 1M
Utdatapris
$0.15/ 1M
Modalitet:Text
Kapaciteter:VerktygStreamingResonemang
Benchmarks
GPQA
93%
GPQA: Vetenskapliga fragor pa forskarutbildningsniva. Ett rigorost benchmark med 448 fragor fran biologi, fysik och kemi. PhD-experter uppnar endast 65-74% noggrannhet. Kimi K2 Thinking fick 93% pa detta benchmark.
HLE
44.9%
HLE: Expertniva resonemang. Testar modellens formaga att demonstrera expertniva resonemang inom specialiserade omraden. Kimi K2 Thinking fick 44.9% pa detta benchmark.
MMLU
90%
MMLU: Massiv multitask sprakforstaelse. Ett omfattande benchmark med 16 000 fragor over 57 akademiska amnen. Kimi K2 Thinking fick 90% pa detta benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professionell utgava. En forbattrad version av MMLU med 12 032 fragor och ett svarare 10-alternativsformat. Kimi K2 Thinking fick 78% pa detta benchmark.
SimpleQA
55%
SimpleQA: Benchmark for faktisk noggrannhet. Testar modellens formaga att ge korrekta, faktabaserade svar. Kimi K2 Thinking fick 55% pa detta benchmark.
IFEval
92%
IFEval: Utvardering av instruktionsfoljandeformaga. Mater hur val en modell foljer specifika instruktioner och begransningar. Kimi K2 Thinking fick 92% pa detta benchmark.
AIME 2025
99.1%
AIME 2025: American Invitational Mathematics Examination. Matematikproblem pa tavlingsniva fran det prestigefyllda AIME-provet. Kimi K2 Thinking fick 99.1% pa detta benchmark.
MATH
99.1%
MATH: Matematisk problemlosning. Ett omfattande matematik-benchmark som testar problemlosning i algebra, geometri, kalkyl. Kimi K2 Thinking fick 99.1% pa detta benchmark.
GSM8k
99%
GSM8k: Grundskola matematik 8K. 8 500 matematiska ordproblem pa grundskoleniva. Kimi K2 Thinking fick 99% pa detta benchmark.
MGSM
95%
MGSM: Flersprakig grundskola matematik. GSM8k-benchmarket oversatt till 10 sprak. Kimi K2 Thinking fick 95% pa detta benchmark.
MathVista
75%
MathVista: Matematiskt visuellt resonemang. Testar formagan att losa matematikproblem med visuella element. Kimi K2 Thinking fick 75% pa detta benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark for mjukvaruutveckling. AI-modeller forsoker losa verkliga GitHub-problem i Python-projekt. Kimi K2 Thinking fick 71.3% pa detta benchmark.
HumanEval
83%
HumanEval: Python-programmeringsproblem. 164 programmeringsproblem dar modeller maste generera korrekta Python-funktionsimplementationer. Kimi K2 Thinking fick 83% pa detta benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Live-kodningsbenchmark. Testar kodningsformaga pa kontinuerligt uppdaterade, verkliga programmeringsutmaningar. Kimi K2 Thinking fick 83.1% pa detta benchmark.
MMMU
80%
MMMU: Multimodal forstaelse. Multimodalt forstaelsebenchmark fran 30 universitetsanknutna amnen. Kimi K2 Thinking fick 80% pa detta benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionell utgava. Forbattrad version av MMMU med mer utmanande fragor. Kimi K2 Thinking fick 60% pa detta benchmark.
ChartQA
88%
ChartQA: Diagram fragor och svar. Testar formagan att forsta och analysera information fran diagram och grafer. Kimi K2 Thinking fick 88% pa detta benchmark.
DocVQA
94%
DocVQA: Visuella dokumentfragor. Testar formagan att extrahera information fran dokumentbilder. Kimi K2 Thinking fick 94% pa detta benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-uppgifter. Testar formagan att utfora kommandoradsoperationer. Kimi K2 Thinking fick 55% pa detta benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion och resonemang. Testar flytande intelligens genom nya monsterigenkannigspussel. Kimi K2 Thinking fick 12% pa detta benchmark.

Om Kimi K2 Thinking

Lar dig om Kimi K2 Thinkings kapacitet, funktioner och hur det kan hjalpa dig uppna battre resultat.

Mixture of Experts med en biljon parameters

Kimi K2 Thinking är en resonemangsmodell med en biljon parameters som använder en Mixture-of-Experts (MoE)-arkitektur. Den utvecklades av Moonshot AI och släpptes i slutet av 2025. Den aktiverar endast 32B parameters för inference, vilket balanserar en enorm kunskapskapacitet med beräkningseffektivitet. Den är specifikt utformad som en tänkande agent som skalar sina beräkningar under inference-fasen för att lösa komplexa logiska problem. Denna metod tillåter modellen att reflektera över sitt eget resonemang och korrigera fel innan den ger ett slutgiltigt svar.

Agentic verktygsanvändning och planering

Modellen utmärker sig genom sin förmåga att autonomt hantera upp till 300 sekventiella verktygsanrop. Medan de flesta standardiserade språkmodeller kämpar med långsiktig planering, är K2 Thinking utvecklad för agentic arbetsflöden såsom autonom webbsurfning och mjukvaruutveckling i flera steg. Den har inbyggt stöd för INT4-precision via Quantization-Aware Training, vilket gör att modellen kan bibehålla prestanda på frontier-nivå samtidigt som den körs på standardiserade kluster för företagshårdvara.

Fokus på utveckling och forskning

Med ett context window på 256K tokens är modellen byggd för djupgående forskning och komplexa tekniska uppgifter. Den överbryggar prestandagapet mellan closed-source-system och open-weights-modeller. Dess förmåga att lösa vetenskapliga frågor på PhD-nivå och tävlingsinriktade matematiska problem gör den till ett lämpligt val för akademisk forskning, automatiserade kodningsassistenter och resonemangstillämpningar med hög trohet där logisk konsekvens är det främsta kravet.

Kimi K2 Thinking

Anvandningsfall for Kimi K2 Thinking

Upptack de olika satten du kan anvanda Kimi K2 Thinking for att uppna fantastiska resultat.

Komplex mjukvaruutveckling

Lösa faktiska GitHub-ärenden och arkitektera kodbaser med flera filer genom iterativ självkorrigering.

Autonoma forskningsagenter

Utföra hundratals sekventiella verktygsanrop för att samla in och syntetisera obskyr teknisk data.

Matematik på olympiadnivå

Lösa avancerade geometri- och algebraproblem med djup chain-of-thought-verifiering.

Vetenskaplig forskning på PhD-nivå

Besvara expertfrågor inom fysik och biologi som kräver logisk deduktion i flera steg.

Interaktiv datorstyrning

Navigera i terminalmiljöer och molninfrastruktur för att automatisera devops-arbetsflöden.

Logiktungt kreativt skrivande

Generera innehåll i långformat som kräver strikt efterlevnad av intrikata världsbyggarregler.

Styrkor

Begransningar

State-of-the-art resonemang: Uppnår 44,9 % på HLE med verktyg, vilket överträffar stora closed-source-modeller inom logik på expertnivå.
Massiva resurskrav: Lokal inference kräver minst 245 GB VRAM även med kvantisering, vilket begränsar användningen till avancerade serverkluster.
Exceptionellt agentic djup: Kapacitet för 300 sekventiella verktygsanrop, vilket möjliggör helt autonoma webbresearch- och webbläsaruppgifter.
Inbyggd svaralatens: Den djupa resonemangsprocessen resulterar i betydande väntetider när modellen skalar sin beräkning under test-time.
Matematisk noggrannhet i toppklass: Uppnår 94,5 % på AIME 2025, vilket bevisar dess tillförlitlighet för matematisk problemlösning på hög nivå.
Avsaknad av inbyggd multimodalitet: Denna variant kan inte bearbeta bild- eller videoindata direkt, vilket kräver en separat vision-modell för multimodala uppgifter.
Tillgängliga open-weights: Erbjuder intelligens på frontier-nivå till utvecklargemenskapen för lokal driftsättning och fine-tuning.
Hög token-overhead: Interna resonemangssteg förbrukar ett stort antal output-tokens, vilket ökar API-kostnaderna för enkla frågor.

API snabbstart

moonshot/kimi-k2-thinking

Visa dokumentation
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Design a system for autonomous code review using 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Installera SDK och borja gora API-anrop pa nagra minuter.

Vad folk sager om Kimi K2 Thinking

Se vad communityt tycker om Kimi K2 Thinking

Kimi K2.5 är den bästa öppna modellen för kodning, de har verkligen levererat.
npc_gooner
reddit
Moonshot AI släppte precis Kimi K2 Thinking. 300 sekventiella verktygsanrop? Det är framtiden för agentic AI.
@tech_trends
twitter
Kimi släppte Kimi K2 Thinking, en open-source resonemangsmodell på en biljon parameters. Det här är på riktigt.
nekofneko
reddit
Att den kan hantera 300 verktygsanrop sekventiellt öppnar upp för helt nya agent-arbetsflöden.
AI Explained
youtube
Imponerande att se en open-source-modell nå dessa siffror. Strategin med skalning vid test-time ger tydligt resultat.
jsmith23
hackernews
Att köra den här modellen lokalt är en utmaning, men resonemangsdjupet liknar inget annat inom området för open weights.
LocalLlamaEnthusiast
reddit

Videor om Kimi K2 Thinking

Se handledningar, recensioner och diskussioner om Kimi K2 Thinking

Kimmy K2 thinking är den bästa AI-modellen jag någonsin använt.

Det är den mest agentic oberoende modellen som någonsin skapats. Det betyder att den kan köra i timmar helt själv.

Den kan tänka och reflektera i varje steg på vägen. Så den går aldrig vilse.

Resonemangshastigheten är förvånansvärt snabb trots den biljon parameters.

Om du bygger agenter är det här arkitekturen du vill titta på.

Kimi K2 Thinking... är en tänkande uppgradering av Kimmy K2-modellen, som i ärlighetens namn verkar vara mycket väl ansedd.

Detta är naturligtvis en open-source-modell... som kommer med en total storlek på cirka 1 biljon parameters.

Alla benchmark-resultat rapporteras under int4-precision.

Den hanterar komplexa matematiska problem med en logik som utmanar de främsta proprietära labben.

Installationsprocessen för de lokala vikterna är ganska okomplicerad om du har VRAM:et.

Kimi K2.5 är den senaste open-source-modellen utvecklad av ett kinesiskt företag som heter Moonshot AI.

Den har kapacitet att starta upp till 100 underagenter och 1 500 verktygsanrop och köra dem samtidigt.

Jag skulle absolut rekommendera den om du vill göra en riktigt snygg webbplats.

Den interna chain-of-thought tillåter den att självkorrigera kodfel innan den ger det slutgiltiga svaret.

Moonshot har verkligen fokuserat på planering över lång sikt för just denna release.

Mer an bara promptar

Superladda ditt arbetsflode med AI-automatisering

Automatio kombinerar kraften av AI-agenter, webbautomatisering och smarta integrationer for att hjalpa dig astadkomma mer pa kortare tid.

AI-agenter
Webbautomatisering
Smarta arbetsfloden

Proffs-tips for Kimi K2 Thinking

Experttips for att hjalpa dig fa ut det mesta av Kimi K2 Thinking och uppna battre resultat.

Aktivera Thinking-output

Använd flaggan för speciella tokens i din inference-motor för att se modellens interna resonemangssteg.

Optimera Temperature

Ställ in sampling-temperature till 1.0 och min_p till 0.01 för det mest konsekventa resonemangsflödet.

Utnyttja System Prompts

Starta konversationer med den officiella Moonshot AI-identitets-prompten för att stabilisera modellens beteende.

Skala test-time compute

Låt modellen generera fler interna tokens för svårare problem för att öka noggrannheten.

Omdomen

Vad vara anvandare sager

Ga med tusentals nojda anvandare som har transformerat sitt arbetsflode

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relaterat AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Vanliga fragor om Kimi K2 Thinking

Hitta svar pa vanliga fragor om Kimi K2 Thinking