moonshot

Kimi K2 Thinking

Kimi K2 Thinking je Moonshot AI-ov reasoning model s bilijun parametara. Nadmašuje GPT-5 na HLE-u i podržava 300 sekvencijalnih poziva alata autonomno za...

moonshot logomoonshotKimi K26. studenog 2025.
Kontekst
256Ktokena
Maks. izlaz
16Ktokena
Ulazna cijena
$0.15/ 1M
Izlazna cijena
$0.15/ 1M
Modalitet:Text
Mogućnosti:AlatiStreamingZaključivanje
Benchmarks
GPQA
93%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Kimi K2 Thinking je postigao 93% na ovom benchmarku.
HLE
44.9%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Kimi K2 Thinking je postigao 44.9% na ovom benchmarku.
MMLU
90%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Kimi K2 Thinking je postigao 90% na ovom benchmarku.
MMLU Pro
78%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Kimi K2 Thinking je postigao 78% na ovom benchmarku.
SimpleQA
55%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Kimi K2 Thinking je postigao 55% na ovom benchmarku.
IFEval
92%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Kimi K2 Thinking je postigao 92% na ovom benchmarku.
AIME 2025
99.1%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Kimi K2 Thinking je postigao 99.1% na ovom benchmarku.
MATH
99.1%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Kimi K2 Thinking je postigao 99.1% na ovom benchmarku.
GSM8k
99%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Kimi K2 Thinking je postigao 99% na ovom benchmarku.
MGSM
95%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Kimi K2 Thinking je postigao 95% na ovom benchmarku.
MathVista
75%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Kimi K2 Thinking je postigao 75% na ovom benchmarku.
SWE-Bench
71.3%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Kimi K2 Thinking je postigao 71.3% na ovom benchmarku.
HumanEval
83%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Kimi K2 Thinking je postigao 83% na ovom benchmarku.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Kimi K2 Thinking je postigao 83.1% na ovom benchmarku.
MMMU
80%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Kimi K2 Thinking je postigao 80% na ovom benchmarku.
MMMU Pro
60%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Kimi K2 Thinking je postigao 60% na ovom benchmarku.
ChartQA
88%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Kimi K2 Thinking je postigao 88% na ovom benchmarku.
DocVQA
94%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Kimi K2 Thinking je postigao 94% na ovom benchmarku.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Kimi K2 Thinking je postigao 55% na ovom benchmarku.
ARC-AGI
12%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Kimi K2 Thinking je postigao 12% na ovom benchmarku.

O modelu Kimi K2 Thinking

Saznajte o mogućnostima, značajkama i načinima korištenja modela Kimi K2 Thinking.

Mixture of Experts s bilijun parametara

Kimi K2 Thinking je reasoning model s bilijun parametara koji koristi Mixture-of-Experts (MoE) arhitekturu. Razvijen od strane Moonshot AI-a i objavljen krajem 2025., aktivira samo 32B parametara za inference, što balansira masivni kapacitet znanja s računalnom učinkovitošću. Posebno je dizajniran kao agent za razmišljanje koji skalira svoje računanje tijekom faze inference-a kako bi riješio kompleksne logičke probleme. Ovaj pristup omogućuje modelu da razmišlja o vlastitom reasoning-u i ispravi pogreške prije davanja konačnog odgovora.

Agentic korištenje alata i planiranje

Model se ističe svojom sposobnošću da autonomno obradi do 300 sekvencijalnih poziva alata. Dok se većina standardnih jezičnih modela bori s dugoročnim planiranjem, K2 Thinking je dizajniran za agentic tijekove rada poput autonomnog pregledavanja weba i softverskog inženjeringa u više koraka. Nativno podržava INT4 preciznost putem Quantization-Aware Training-a, omogućujući modelu održavanje performansi na razini frontier modela dok radi na standardnim hardverskim klasterima.

Fokus na razvojne programere i istraživanje

S context window-om od 256K token, model je izgrađen za dubinska istraživanja i kompleksne tehničke zadatke. Premošćuje jaz u performansama između closed-source sustava i open-weights modela. Njegova sposobnost rješavanja znanstvenih pitanja na razini doktorata i natjecateljskih matematičkih problema čini ga prikladnim izborom za akademska istraživanja, automatizirane asistente za kodiranje i primjene reasoning-a visoke vjernosti gdje je logička dosljednost primarni zahtjev.

Kimi K2 Thinking

Slučajevi korištenja za Kimi K2 Thinking

Otkrijte različite načine korištenja modela Kimi K2 Thinking za postizanje izvrsnih rezultata.

Kompleksni softverski inženjering

Rješavanje stvarnih GitHub problema i arhitektura baza koda s više datoteka koristeći iterativnu samokorekciju.

Autonomni istraživački agenti

Izvršavanje stotina sekvencijalnih poziva alata za prikupljanje i sintetiziranje opskurnih tehničkih podataka.

Matematika olimpijske razine

Rješavanje naprednih problema iz geometrije i algebre uz duboku provjeru chain-of-thought procesa.

Znanstvena istraživanja na razini doktorata

Odgovaranje na stručna pitanja iz fizike i biologije koja zahtijevaju logičko zaključivanje u više koraka.

Interaktivno upravljanje računalom

Navigacija terminalskim okruženjima i cloud infrastrukturom za automatizaciju devops tijekova rada.

Kreativno pisanje temeljeno na logici

Generiranje dugih sadržaja koji zahtijevaju strogo pridržavanje složenih pravila izgradnje svijeta.

Prednosti

Ograničenja

State-of-the-art Reasoning: Ostvaruje 44,9% na HLE uz pomoć alata, nadmašujući vodeće closed-source modele u logici stručne razine.
Ogromni zahtjevi za resursima: Lokalni inference zahtijeva najmanje 245 GB VRAM-a čak i uz kvantizaciju, što ograničava upotrebu na vrhunske poslužiteljske klastere.
Iznimna agentic dubina: Sposoban za 300 sekvencijalnih poziva alata, omogućujući istinski autonomno pretraživanje weba i zadatke u pregledniku.
Urođena latencija odgovora: Duboki proces razmišljanja rezultira značajnim vremenom čekanja dok model skalira svoje test-time computation resurse.
Vrhunska matematička točnost: Postiže 94,5% na AIME 2025, dokazujući svoju pouzdanost za rješavanje matematičkih problema visoke razine.
Nedostatak nativnog multimodaliteta: Ova varijanta ne može izravno obrađivati slikovne ili video inpute, već zahtijeva poseban model vida za multimodal zadatke.
Dostupnost otvorenih težina (open-weights): Nudi inteligenciju na razini frontier modela razvojnoj zajednici za lokalnu implementaciju i fine-tuning.
Velika potrošnja tokens: Interni koraci reasoning-a troše veliki broj output tokens, što povećava API troškove za jednostavne upite.

API brzi početak

moonshot/kimi-k2-thinking

Pogledaj dokumentaciju
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Dizajniraj sustav za autonomnu recenziju koda koristeći 300 poziva alata.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Kimi K2 Thinking

Pogledajte što zajednica misli o modelu Kimi K2 Thinking

Kimi K2.5 je najbolji open model za kodiranje, stvarno su napravili vrhunsku stvar.
npc_gooner
reddit
Moonshot AI je upravo izbacio Kimi K2 Thinking. 300 sekvencijalnih poziva alata? To je budućnost agentic AI-a.
@tech_trends
twitter
Kimi je izbacio Kimi K2 Thinking, open-source reasoning model s bilijun parametara. Ovo je prava stvar.
nekofneko
reddit
Činjenica da može podnijeti 300 sekvencijalnih poziva alata otvara potpuno nove agentic tijekove rada.
AI Explained
youtube
Impresivno je vidjeti open-source model koji postiže ove rezultate. Pristup skaliranja test-time resursa se očito isplati.
jsmith23
hackernews
Lokalno pokretanje ovog modela je izazov, ali dubina reasoning-a je neusporediva s bilo čim drugim u svijetu otvorenih težina.
LocalLlamaEnthusiast
reddit

Videozapisi o modelu Kimi K2 Thinking

Gledajte tutorijale, recenzije i diskusije o modelu Kimi K2 Thinking

Kimi K2 Thinking je najbolji AI model koji sam ikada koristio.

To je najsamostalniji agentic model ikad napravljen. Što znači da može raditi satima samostalno.

Sposoban je razmišljati i reflektirati svaki korak na putu. Tako da se nikada ne izgubi.

Brzina reasoning-a je iznenađujuće brza unatoč bilijun parametara.

Ako gradite agente, ovo je arhitektura koju želite istražiti.

Kimi K2 Thinking... je nadogradnja razmišljanja za Kimi K2 model, koji je iskreno vrlo široko cijenjen.

Ovo je naravno open-source model... ukupne veličine oko 1 bilijun parametara.

Svi benchmark rezultati su prijavljeni pod int4 preciznošću.

Rješava složene matematičke probleme s logikom koja parira vrhunskim vlasničkim laboratorijima.

Postupak instalacije za lokalne težine je prilično jednostavan ako imate dovoljno VRAM-a.

Kimi K2.5 je najnoviji open-source model koji je razvila kineska tvrtka Moonshot AI.

Sposoban je pokrenuti do 100 pod-agenata i 1500 poziva alata i pokretati ih istovremeno.

Svakako bih ga preporučio ako želite napraviti prekrasnu web stranicu.

Interni chain-of-thought omogućuje mu samokorekciju grešaka u kodu prije davanja konačnog odgovora.

Moonshot se u ovom konkretnom izdanju doista fokusirao na dugoročno planiranje.

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi

Pro Savjeti za Kimi K2 Thinking

Stručni savjeti za maksimalno iskorištavanje Kimi K2 Thinking.

Omogućite Thinking Output

Koristite oznaku za specijalne tokens u svom engine-u za inference kako biste vidjeli interne korake reasoning-a modela.

Optimizirajte Temperature

Postavite sampling temperature na 1.0 i min_p na 0.01 za najdosljedniji tijek reasoning-a.

Iskoristite System Prompts

Započnite razgovore sa službenim Moonshot AI identity prompt-om kako biste stabilizirali ponašanje modela.

Skalirajte Test-Time Compute

Dopustite modelu da generira više internih tokens za teže probleme kako biste povećali točnost.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Često Postavljana Pitanja o Kimi K2 Thinking

Pronađite odgovore na česta pitanja o Kimi K2 Thinking