moonshot

Kimi K2 Thinking

Kimi K2 Thinking je Moonshot AI reasoning model s bilijun parametara. Nadmašuje GPT-5 na HLE benchmarku i autonomno podržava 300 uzastopnih poziva alata.

moonshot logomoonshotKimi2025-11-06
Kontekst
256Ktokena
Maks. izlaz
16Ktokena
Ulazna cijena
$0.15/ 1M
Izlazna cijena
$0.15/ 1M
Modalitet:Text
Mogućnosti:AlatiStreamingZaključivanje
Benchmarks
GPQA
93%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Kimi K2 Thinking je postigao 93% na ovom benchmarku.
HLE
44.9%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Kimi K2 Thinking je postigao 44.9% na ovom benchmarku.
MMLU
90%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Kimi K2 Thinking je postigao 90% na ovom benchmarku.
MMLU Pro
78%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Kimi K2 Thinking je postigao 78% na ovom benchmarku.
SimpleQA
55%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Kimi K2 Thinking je postigao 55% na ovom benchmarku.
IFEval
92%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Kimi K2 Thinking je postigao 92% na ovom benchmarku.
AIME 2025
99.1%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Kimi K2 Thinking je postigao 99.1% na ovom benchmarku.
MATH
99.1%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Kimi K2 Thinking je postigao 99.1% na ovom benchmarku.
GSM8k
99%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Kimi K2 Thinking je postigao 99% na ovom benchmarku.
MGSM
95%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Kimi K2 Thinking je postigao 95% na ovom benchmarku.
MathVista
75%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Kimi K2 Thinking je postigao 75% na ovom benchmarku.
SWE-Bench
71.3%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Kimi K2 Thinking je postigao 71.3% na ovom benchmarku.
HumanEval
83%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Kimi K2 Thinking je postigao 83% na ovom benchmarku.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Kimi K2 Thinking je postigao 83.1% na ovom benchmarku.
MMMU
80%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Kimi K2 Thinking je postigao 80% na ovom benchmarku.
MMMU Pro
60%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Kimi K2 Thinking je postigao 60% na ovom benchmarku.
ChartQA
88%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Kimi K2 Thinking je postigao 88% na ovom benchmarku.
DocVQA
94%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Kimi K2 Thinking je postigao 94% na ovom benchmarku.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Kimi K2 Thinking je postigao 55% na ovom benchmarku.
ARC-AGI
12%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Kimi K2 Thinking je postigao 12% na ovom benchmarku.

O modelu Kimi K2 Thinking

Saznajte o mogućnostima, značajkama i načinima korištenja modela Kimi K2 Thinking.

Open Intelligence od bilijun parameters

Kimi K2 Thinking je revolucionarni reasoning model od bilijun parameters tvrtke Moonshot AI koji je redefinirao granice open-source inteligencije. Objavljen u studenom 2025., koristi sofisticiranu Mixture-of-Experts (MoE) arhitekturu s ukupno 1T parameters — aktivirajući samo 32B tijekom inference procesa — što ga čini iznimno moćnim i računski učinkovitim. Za razliku od standardnih jezičnih modela, K2 Thinking je konstruiran kao "thinking agent", skalirajući test-time computation za obavljanje dubokog logičkog reasoninga, planiranja i autonomne upotrebe alata.

Agentic moć i skalabilnost

Model je posebno poznat po svojim agentic sposobnostima, uspješno izvršavajući do 300 uzastopnih poziva alata bez ljudske intervencije. To ga čini izvrsnim izborom za složena istraživanja, natjecateljsko programiranje i tehničke workflow procese u više koraka. Korištenjem izvorne INT4 preciznosti putem Quantization-Aware Traininga, Moonshot AI je omogućio ovom masivnom modelu pokretanje na dostupnim hardverskim klasterima, dok istovremeno nadmašuje closed-source gigante poput GPT-5 i Claude 4.5 u kritičnom reasoningu i benchmarkovima pregledavanja weba.

Arhitektura usmjerena na developere

Dizajniran za globalnu zajednicu developera, Kimi K2-Thinking nudi nenadmašne metriku cijene i performansi. S masivnim 256K context window-om i podrškom za opsežno chain-of-thought procesiranje, on premošćuje jaz između lokalnih specijaliziranih modela i enterprise cloud API-ja. Njegova metodologija treninga fokusira se na planiranje dugog horizonta, omogućujući modelu da iterativno reflektira, ispravlja i optimizira svoje rezultate.

Kimi K2 Thinking

Slučajevi korištenja za Kimi K2 Thinking

Otkrijte različite načine korištenja modela Kimi K2 Thinking za postizanje izvrsnih rezultata.

Autonomno istraživanje

Izvršavanje dubinskih web upita koji zahtijevaju stotine uzastopnih poziva alata i iterativnu provjeru informacija.

Znanstveno rješavanje problema

Rješavanje matematičkih i fizikalnih upita na doktorskoj razini koristeći Python alate i chain-of-thought procesiranje.

Natjecateljsko programiranje

Rješavanje algoritamskih izazova visoke težine s platformi kao što su Codeforces i LeetCode uz točnost na doktorskoj razini.

Debugging složenog koda

Identificiranje i ispravljanje logičkih pogrešaka u masivnim bazama koda s više datoteka kroz iscrpne korake reasoninga dugog horizonta.

Pravna analiza i analiza usklađenosti

Pregled dugih tehničkih ili pravnih dokumenata unutar 256K context window-a radi identificiranja suptilnih rizika ili kontradikcija.

Agentic AI automatizacija

Pokretanje autonomnih agenata koji mogu planirati, djelovati, reflektirati i usavršavati vlastite rezultate satima bez ljudske intervencije.

Prednosti

Ograničenja

Agentic dubina: Jedini model s open weights koji je sposoban upravljati s 200–300 uzastopnih poziva alata bez pada performansi.
Isključivo tekstualni input: Trenutačno mu nedostaje izvorna multimodal vizualna podrška za obradu izravnih slika, videa ili audio datoteka.
State-of-the-art reasoning: Nadmašuje GPT-5 i Claude 4.5 na Humanity's Last Exam (HLE) i BrowseComp benchmarkovima kroz intenzivni test-time scaling.
Ogromni RAM zahtjevi: Lokalna implementacija pune 1T arhitekture zahtijeva više od 500 GB RAM-a ili distribuirane Mac klastere.
Nenadmašna isplativost: S fiksnom cijenom od 0,15 USD/1M tokens, nudi frontier inteligenciju uz djelić cijene vlasničkih API-ja.
Latency početnog tokena: Intenzivna faza internog reasoninga dovodi do sporijeg vremena do prvog tokena u usporedbi s LLM modelima koji nemaju thinking proces.
Izvorna INT4 optimizacija: Izvorna kvantizacija putem Quantization-Aware Traininga osigurava 2x ubrzanje za lokalni inference na dostupnom hardveru.
Opširnost reasoninga: Model može generirati pretjerano duge chain-of-thought sekvence čak i za relativno jednostavne upite.

API brzi početak

moonshot/kimi-k2-thinking

Pogledaj dokumentaciju
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'Vi ste Kimi, reasoning AI koji je razvio Moonshot AI.' },
      { role: 'user', content: 'Riješite zadatak provjere dokaza Riemannove hipoteze.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Kimi K2 Thinking

Pogledajte što zajednica misli o modelu Kimi K2 Thinking

"Kimi K2 Thinking je najbolji AI model koji sam ikada koristio... bez halucinacija i stotine poziva alata."
Alex Finn
youtube
"Jaz između closed i open modela nastavlja se smanjivati čak i dok cijena tokens drastično pada."
Emad Mostaque
x
"Moonshot K2-Thinking redefinira lokalne inteligentne agente s 300 poziva alata."
Brian Roemmele
x
"Napokon model koji doista promišlja logiku prompta prije odgovaranja!"
ai_user_2025
reddit
"Kina doista pomiče granice open-source open weights modela s Kimi serijom."
Nathan Lambert
x
"Apsolutno nevjerojatna izvedba na natjecateljskim matematičkim problemima."
MathWizard
hackernews

Videozapisi o modelu Kimi K2 Thinking

Gledajte tutorijale, recenzije i diskusije o modelu Kimi K2 Thinking

Ovo je najviše agentic neovisni model ikada napravljen.

Sposoban je razmišljati i reflektirati svaki pojedini korak na putu. Tako se nikada ne izgubi.

Izuzetno je isplativ... upola cijene od ChatGPT-5 i oko desetine cijene modela Sonnet 4.5.

Uspijeva izbjeći uobičajene logičke zamke standardnih LLM modela.

Moonshot doista mijenja pravila igre za open-weight pristupačnost.

Može izvršiti do 200 do 300 uzastopnih poziva alata bez ljudske intervencije.

K2 thinking postigao je rezultat od 60,2%, značajno nadmašivši ljudsku osnovicu od 29,2% na BrowseComp benchmarku.

Kina doista pomiče granice open-source open weights modela.

Mixture-of-Experts implementacija ovdje je nevjerojatno učinkovita za 1 bilijun parameters.

Dobivate frontier-level reasoning za praktički sitniš.

Imam ga ovdje pokrenutog na Mac Studiju koristeći pseudo cis control wired limit.

Koristimo 500 GB RAM-a. Naša brzina obrade pala je na oko 6,9 tokens u sekundi.

Zapravo je napisao ovaj kod, ali se nije zaustavio. Ponovno je počeo razmišljati.

Čak i uz kvantizaciju, logička koherentnost ovog modela ostaje elitna.

Interni monolog točno pokazuje gdje ispravlja vlastite pogreške u kodiranju.

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi
Pogledaj demo video

Pro Savjeti za Kimi K2 Thinking

Stručni savjeti za maksimalno iskorištavanje Kimi K2 Thinking.

Omogućite Thinking oznake

Kada pokrećete model lokalno putem alata kao što je llama.cpp, obavezno koristite --special zastavicu kako biste ispravno renderirali interne <think> tokens.

Optimizirajte temperaturu

Postavite temperaturu na 1.0 i min_p na 0.01 za najstabilnije i najrigoroznije reasoning rezultate.

Hardversko klasteriranje

Implementirajte INT4 kvantiziranu verziju na klasteru od dva Mac Studio M3 Ultra s RDMA za besprijekorno 1T lokalno iskustvo.

Dugoročno planiranje

Strukturirajte prompt tako da eksplicitno tražite 'step-by-step plan' kako biste aktivirali snage modela u adaptivnom učenju i pretraživanju.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Često Postavljana Pitanja o Kimi K2 Thinking

Pronađite odgovore na česta pitanja o Kimi K2 Thinking