moonshot

Kimi K2 Thinking

Kimi K2 Thinking är Moonshot AI:s reasoning-modell med en biljon parametrar. Den överträffar GPT-5 på HLE och stödjer 300 sekventiella tool calls autonomt.

moonshot logomoonshotKimi2025-11-06
Kontext
256Ktokens
Max utdata
16Ktokens
Inmatningspris
$0.15/ 1M
Utdatapris
$0.15/ 1M
Modalitet:Text
Kapaciteter:VerktygStreamingResonemang
Benchmarks
GPQA
93%
GPQA: Vetenskapliga fragor pa forskarutbildningsniva. Ett rigorost benchmark med 448 fragor fran biologi, fysik och kemi. PhD-experter uppnar endast 65-74% noggrannhet. Kimi K2 Thinking fick 93% pa detta benchmark.
HLE
44.9%
HLE: Expertniva resonemang. Testar modellens formaga att demonstrera expertniva resonemang inom specialiserade omraden. Kimi K2 Thinking fick 44.9% pa detta benchmark.
MMLU
90%
MMLU: Massiv multitask sprakforstaelse. Ett omfattande benchmark med 16 000 fragor over 57 akademiska amnen. Kimi K2 Thinking fick 90% pa detta benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professionell utgava. En forbattrad version av MMLU med 12 032 fragor och ett svarare 10-alternativsformat. Kimi K2 Thinking fick 78% pa detta benchmark.
SimpleQA
55%
SimpleQA: Benchmark for faktisk noggrannhet. Testar modellens formaga att ge korrekta, faktabaserade svar. Kimi K2 Thinking fick 55% pa detta benchmark.
IFEval
92%
IFEval: Utvardering av instruktionsfoljandeformaga. Mater hur val en modell foljer specifika instruktioner och begransningar. Kimi K2 Thinking fick 92% pa detta benchmark.
AIME 2025
99.1%
AIME 2025: American Invitational Mathematics Examination. Matematikproblem pa tavlingsniva fran det prestigefyllda AIME-provet. Kimi K2 Thinking fick 99.1% pa detta benchmark.
MATH
99.1%
MATH: Matematisk problemlosning. Ett omfattande matematik-benchmark som testar problemlosning i algebra, geometri, kalkyl. Kimi K2 Thinking fick 99.1% pa detta benchmark.
GSM8k
99%
GSM8k: Grundskola matematik 8K. 8 500 matematiska ordproblem pa grundskoleniva. Kimi K2 Thinking fick 99% pa detta benchmark.
MGSM
95%
MGSM: Flersprakig grundskola matematik. GSM8k-benchmarket oversatt till 10 sprak. Kimi K2 Thinking fick 95% pa detta benchmark.
MathVista
75%
MathVista: Matematiskt visuellt resonemang. Testar formagan att losa matematikproblem med visuella element. Kimi K2 Thinking fick 75% pa detta benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark for mjukvaruutveckling. AI-modeller forsoker losa verkliga GitHub-problem i Python-projekt. Kimi K2 Thinking fick 71.3% pa detta benchmark.
HumanEval
83%
HumanEval: Python-programmeringsproblem. 164 programmeringsproblem dar modeller maste generera korrekta Python-funktionsimplementationer. Kimi K2 Thinking fick 83% pa detta benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Live-kodningsbenchmark. Testar kodningsformaga pa kontinuerligt uppdaterade, verkliga programmeringsutmaningar. Kimi K2 Thinking fick 83.1% pa detta benchmark.
MMMU
80%
MMMU: Multimodal forstaelse. Multimodalt forstaelsebenchmark fran 30 universitetsanknutna amnen. Kimi K2 Thinking fick 80% pa detta benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionell utgava. Forbattrad version av MMMU med mer utmanande fragor. Kimi K2 Thinking fick 60% pa detta benchmark.
ChartQA
88%
ChartQA: Diagram fragor och svar. Testar formagan att forsta och analysera information fran diagram och grafer. Kimi K2 Thinking fick 88% pa detta benchmark.
DocVQA
94%
DocVQA: Visuella dokumentfragor. Testar formagan att extrahera information fran dokumentbilder. Kimi K2 Thinking fick 94% pa detta benchmark.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI-uppgifter. Testar formagan att utfora kommandoradsoperationer. Kimi K2 Thinking fick 55% pa detta benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion och resonemang. Testar flytande intelligens genom nya monsterigenkannigspussel. Kimi K2 Thinking fick 12% pa detta benchmark.

Om Kimi K2 Thinking

Lar dig om Kimi K2 Thinkings kapacitet, funktioner och hur det kan hjalpa dig uppna battre resultat.

Öppen intelligens med en biljon parametrar

Kimi K2 Thinking är en banbrytande reasoning-modell med en biljon parametrar från Moonshot AI som har definierat om gränserna för intelligens med öppen källkod. Den släpptes i november 2025 och använder en sofistikerad Mixture-of-Experts (MoE)-arkitektur med totalt 1T parameters — där endast 32B aktiveras vid inference — vilket gör den både anmärkningsvärt kraftfull och beräkningsmässigt effektiv. Till skillnad från vanliga språkmodeller är K2 Thinking konstruerad som en "tänkande agent", som skalar upp beräkningar vid testtillfället för att utföra djup logisk reasoning, planering och autonom tool-use.

Agentic-styrka och skalbarhet

Modellen är särskilt känd för sina agentic-förmågor och kan framgångsrikt utföra upp till 300 sekventiella tool calls utan mänsklig inblandning. Detta gör den till ett formidabelt val för komplex forskning, tävlingsprogrammering och tekniska arbetsflöden i flera steg. Genom att nativt använda INT4-precision via Quantization-Aware Training har Moonshot AI gjort det möjligt för denna massiva model att köras på tillgängliga hårdvarukluster, samtidigt som den överträffar closed-source-jättar som GPT-5 och Claude 4.5 i kritiska benchmarks för reasoning och webbsökning.

Utvecklarfokuserad arkitektur

Kimi K2-Thinking är designad för det globala utvecklarcommunityt och erbjuder oöverträffade mätvärden för kostnad i förhållande till prestanda. Med ett massivt 256K context window och stöd för omfattande chain-of-thought-bearbetning överbryggar den gapet mellan lokala specialiserade modeller och molnbaserade API:er i företagsklass. Dess träningsmetodik fokuserar på planering med lång tidshorisont, vilket gör att modellen kan reflektera, korrigera och optimera sina resultat iterativt.

Kimi K2 Thinking

Anvandningsfall for Kimi K2 Thinking

Upptack de olika satten du kan anvanda Kimi K2 Thinking for att uppna fantastiska resultat.

Autonom forskning

Genomförande av djupgående webbundersökningar som kräver hundratals sekventiella tool calls och iterativ informationsverifiering.

Vetenskaplig problemlösning

Hantering av matematik- och fysikfrågor på doktorandnivå med hjälp av Python-exekvering och chain-of-thought-bearbetning.

Tävlingsprogrammering

Lösning av högsvåra algoritmiska utmaningar från plattformar som Codeforces och LeetCode med precision på doktorandnivå.

Komplex kodfelsökning

Identifiering och åtgärdande av logiska fel i massiva kodbaser med flera filer genom uttömmande reasoning-steg med lång tidshorisont.

Juridisk och regelefterlevnadsanalys

Granskning av långa tekniska eller juridiska dokument över ett 256K context window för att identifiera subtila risker eller motsägelser.

Agentic AI-automatisering

Driver autonoma agenter som kan planera, agera, reflektera och förfina sina egna resultat i timmar utan mänsklig inblandning.

Styrkor

Begransningar

Agentic-djup: Den enda modellen med öppna vikter som kan hantera 200–300 sekventiella tool calls utan prestandaförlust.
Endast textinmatning: Saknar för närvarande nativt multimodalt stöd för vision för att bearbeta direkta bild-, video- eller ljudfiler.
State-of-the-art reasoning: Överträffar GPT-5 och Claude 4.5 på Humanity's Last Exam (HLE) och BrowseComp genom intensiv test-time-skalning.
Massiva RAM-krav: Lokal distribution av hela 1T-arkitekturen kräver över 500 GB RAM eller distribuerade Mac-kluster.
Oöverträffad kostnadseffektivitet: Prissatt till fasta $0,15/1M tokens, vilket erbjuder frontier-intelligens till en bråkdel av kostnaden för proprietära API:er.
Initial token-latency: Den intensiva interna reasoning-fasen leder till en långsammare time-to-first-token jämfört med LLMs utan reasoning.
Nativ INT4-optimering: Nativ kvantisering via Quantization-Aware Training ger en 2x hastighetsökning för lokal inference på tillgänglig hårdvara.
Ordrann reasoning: Modellen kan generera överdrivet långa chain-of-thought-sekvenser även för relativt enkla frågor.

API snabbstart

moonshot/kimi-k2-thinking

Visa dokumentation
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Installera SDK och borja gora API-anrop pa nagra minuter.

Vad folk sager om Kimi K2 Thinking

Se vad communityt tycker om Kimi K2 Thinking

"Kimi K2 Thinking är den bästa AI-modell jag någonsin använt... inga hallucinationer och hundratals tool calls."
Alex Finn
youtube
"Gapet mellan closed och open fortsätter att minska samtidigt som kostnaden för tokens rasar."
Emad Mostaque
x
"Moonshot K2-Thinking omdefinierar lokala intelligenta agenter med 300 tool calls."
Brian Roemmele
x
"Äntligen en modell som faktiskt tänker igenom logiken i prompten innan den svarar!"
ai_user_2025
reddit
"Kina flyttar verkligen fram gränserna för open-source och öppna vikter med Kimi-serien."
Nathan Lambert
x
"Helt makalös prestanda på tävlingsinriktade matematikproblem."
MathWizard
hackernews

Videor om Kimi K2 Thinking

Se handledningar, recensioner och diskussioner om Kimi K2 Thinking

Detta är den mest agentic oberoende modellen som någonsin skapats.

Den kan tänka och reflektera i varje enskilt steg. Så den går aldrig vilse.

Den är extremt kostnadseffektiv... halva priset av ChatGPT-5 och ungefär en tiondel av priset för Sonnet 4.5.

Den lyckas undvika de vanliga logiska fällorna hos standard-LLMs.

Moonshot förändrar verkligen spelplanen för tillgänglighet med öppna vikter.

Den kan utföra upp till 200 till 300 sekventiella tool calls utan mänsklig inblandning.

K2 Thinking uppnådde poängen 60,2 %, vilket avsevärt överträffar den mänskliga baslinjen på 29,2 % i BrowseComp.

Kina flyttar verkligen fram gränserna för open-source och öppna vikter.

Mixture-of-Experts-implementeringen här är otroligt effektiv för 1 biljon parametrar.

Du får reasoning på frontier-nivå för i princip inga pengar alls.

Jag har den rullande här på en Mac Studio med pseudo cis control wired limit.

Vi använder 500 GB RAM. Vår processhastighet har sjunkit till omkring 6,9 tokens i sekunden.

Den skrev faktiskt ner den här koden, men den stannade inte. Den började tänka igen.

Även med kvantisering förblir den logiska koherensen i denna model i toppklass.

Den interna monologen visar exakt var den korrigerar sina egna kodningsfel.

Mer an bara promptar

Superladda ditt arbetsflode med AI-automatisering

Automatio kombinerar kraften av AI-agenter, webbautomatisering och smarta integrationer for att hjalpa dig astadkomma mer pa kortare tid.

AI-agenter
Webbautomatisering
Smarta arbetsfloden
Se demo

Proffs-tips for Kimi K2 Thinking

Experttips for att hjalpa dig fa ut det mesta av Kimi K2 Thinking och uppna battre resultat.

Aktivera Thinking-taggar

När du kör lokalt via verktyg som llama.cpp, se till att använda flaggan --special för att korrekt rendera interna <think>-tokens.

Optimera Temperature

Ställ in temperature till 1.0 och min_p till 0.01 för de mest stabila och rigorösa reasoning-resultaten.

Hårdvarukluster

Distribuera den INT4-quantized versionen på ett kluster av två Mac Studio M3 Ultra med RDMA för en förlustfri lokal 1T-upplevelse.

Långsiktig planering

Strukturera dina prompts så att de uttryckligen ber om en 'steg-för-steg-plan' först för att utlösa modellens styrkor inom adaptiv inlärning och sökning.

Omdomen

Vad vara anvandare sager

Ga med tusentals nojda anvandare som har transformerat sitt arbetsflode

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relaterat AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Vanliga fragor om Kimi K2 Thinking

Hitta svar pa vanliga fragor om Kimi K2 Thinking