Kimi K2.5

Otkrijte Moonshot AI-jev Kimi K2.5, open-source agentic model s 1T-parameters koji nudi izvorne multimodal mogućnosti, 262K context window i SOTA reasoning.

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi K-serija27. siječnja 2026.
Kontekst
262Ktokena
Maks. izlaz
33Ktokena
Ulazna cijena
$0.60/ 1M
Izlazna cijena
$2.50/ 1M
Modalitet:TextImageVideo
Mogućnosti:VidAlatiStreamingZaključivanje
Benchmarks
GPQA
87.6%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Kimi K2.5 je postigao 87.6% na ovom benchmarku.
HLE
50.2%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Kimi K2.5 je postigao 50.2% na ovom benchmarku.
MMLU
92%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Kimi K2.5 je postigao 92% na ovom benchmarku.
MMLU Pro
87.1%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Kimi K2.5 je postigao 87.1% na ovom benchmarku.
SimpleQA
54%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Kimi K2.5 je postigao 54% na ovom benchmarku.
IFEval
94%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Kimi K2.5 je postigao 94% na ovom benchmarku.
AIME 2025
96.1%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Kimi K2.5 je postigao 96.1% na ovom benchmarku.
MATH
98%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Kimi K2.5 je postigao 98% na ovom benchmarku.
GSM8k
99%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Kimi K2.5 je postigao 99% na ovom benchmarku.
MGSM
96%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Kimi K2.5 je postigao 96% na ovom benchmarku.
MathVista
84.2%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Kimi K2.5 je postigao 84.2% na ovom benchmarku.
SWE-Bench
76.8%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Kimi K2.5 je postigao 76.8% na ovom benchmarku.
HumanEval
99%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Kimi K2.5 je postigao 99% na ovom benchmarku.
LiveCodeBench
85%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Kimi K2.5 je postigao 85% na ovom benchmarku.
MMMU
84%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Kimi K2.5 je postigao 84% na ovom benchmarku.
MMMU Pro
78.5%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Kimi K2.5 je postigao 78.5% na ovom benchmarku.
ChartQA
77.5%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Kimi K2.5 je postigao 77.5% na ovom benchmarku.
DocVQA
88.8%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Kimi K2.5 je postigao 88.8% na ovom benchmarku.
Terminal-Bench
50.8%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Kimi K2.5 je postigao 50.8% na ovom benchmarku.
ARC-AGI
12%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Kimi K2.5 je postigao 12% na ovom benchmarku.

O modelu Kimi K2.5

Saznajte o mogućnostima, značajkama i načinima korištenja modela Kimi K2.5.

Nova granica agentic inteligencije

Kimi K2.5 je flagship open-source agentic model tvrtke Moonshot AI, koji predstavlja veliki skok u ujedinjenoj multimodal inteligenciji. Izgrađen na masivnoj Mixture-of-Experts (MoE) arhitekturi od 1 bilijun parameters s 32 milijarde aktivnih parameters, on izvorno integrira obradu teksta, slika i videa u jedinstveni reasoning okvir. Za razliku od tradicionalnih LLMs, K2.5 je dizajniran posebno za autonomno izvršavanje, sa specifičnim 'Thinking' modom koji mu omogućuje self-correct i reasoning kroz složene probleme u više koraka bez ljudske intervencije.

Arhitektonski proboji

Model uvodi revolucionarnu značajku poznatu kao 'Agent Swarm', koja sustavu omogućuje dinamičku koordinaciju do 100 paralelnih sub-agents za rješavanje masovnih istraživačkih ili inženjerskih zadataka. Postizanjem vrhunskih rezultata na benchmark testovima poput SWE-Bench i AIME 2025, Kimi K2.5 učinkovito premošćuje jaz između open-source modela i vlasničkih frontier AI rješenja, nudeći elitne mogućnosti uz djelić operativnih troškova. Njegova integracija MoonViT-3D encodera omogućuje neviđeno razumijevanje videa, obuhvaćajući nekoliko sati sadržaja s visokom temporalnom preciznošću.

Neusporediva učinkovitost

Osim sirove snage, K2.5 se fokusira na održivu ekonomiju tokena. Korištenjem agresivnog keširanja konteksta i visoko optimizirane MoE strukture, on pruža performanse koje pariraju najskupljim zatvorenim modelima, zadržavajući pritom vrlo konkurentnu cijenu od 0,60 USD po milijunu input tokens. To ga čini idealnom okosnicom za poduzeća koja žele implementirati složene autonomne agente s dugim kontekstom u velikom mjerilu.

Kimi K2.5

Slučajevi korištenja za Kimi K2.5

Otkrijte različite načine korištenja modela Kimi K2.5 za postizanje izvrsnih rezultata.

Autonomno softversko inženjerstvo

Rješavanje složenih GitHub issues i izrada full-stack klonova web stranica na temelju vizualnih UI skica.

Rješavanje matematike na olimpijskoj razini

Savladavanje naprednih matematičkih dokaza i problema s natjecanja s preko 96% točnosti na AIME 2025.

Dugometražni video reasoning

Analiza i sažimanje sadržaja iz videozapisa trajanja do dva sata bez gubitka konteksta ili temporalne degradacije.

Dinamični istraživački agenti

Korištenje 'Agent Swarm' za provođenje multi-threaded web istraživanja i sintetiziranje podataka iz stotina izvora paralelno.

Estetska frontend generacija

Pretvaranje rukom crtanih UI wireframes ili screenshotova u ispoliran, funkcionalan React kod s ekspresivnim animacijama.

Autonomna kontrola terminala

Izvršavanje složenih bash naredbi i operacija na razini sustava za upravljanje server clusters i razvojnim okruženjima.

Prednosti

Ograničenja

Elitni matematički reasoning: S rezultatom od 96,1% na AIME 2025, nadmašuje gotovo sve zatvorene modele u čistoj logičkoj dedukciji.
Hardverski intenzivan: Pokretanje punog 1T model lokalno zahtijeva enterprise AI cluster s više H100 ili B200 GPU-ova.
Masivni paralelizam: 'Agent Swarm' mogućnost omogućuje rad više od 100 sub-agents, drastično smanjujući vrijeme potrebno za dovršetak istraživačkih zadataka.
Thinking Latency: Aktiviranje dubokog reasoning moda značajno povećava vrijeme do prvog tokena u usporedbi sa standardnom obradom.
Jedinstvena multimodal arhitektura: Izvorno obrađuje 2-satne videozapise i slike visoke rezolucije bez potrebe za zasebnim vision encoders.
Nedostatak znanja na PhD razini: Rezultat od 50,2% na 'Humanity's Last Exam' pokazuje prostor za napredak u vrhunskoj znanstvenoj ekspertizi.
Agresivna ekonomija tokena: S cijenom od 0,60 USD na 1M input tokens, otprilike je 8-10x jeftiniji od usporedivih frontier model modela poput Claude 4.5.
Regulatorna pitanja: Kao kineski model, korištenje API-ja i suverenitet podataka mogu biti podložni drugačijim regulatornim okvirima za zapadna poduzeća.

API brzi početak

fireworks/kimi-k2p5

Pogledaj dokumentaciju
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1'
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [{ role: 'user', content: 'Create a full-stack Next.js dashboard with a dark mode glassmorphism UI.' }],
    max_tokens: 2048,
  });
  console.log(response.choices[0].message.content);
}

main();

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Kimi K2.5

Pogledajte što zajednica misli o modelu Kimi K2.5

"Reasoning sposobnosti na AIME 2025 su apsolutno lude za jedan open model."
LogicLover
reddit
"Kimi K2.5 je upravo postavio novu ljestvicu za razumijevanje dugih videa. Napokon model koji ne zaboravlja početak isječka."
AI_Pioneer
x
"Korištenje K2.5 kao coding agenta mijenja sve. Njegov SWE-Bench rezultat nije samo broj, možete osjetiti kompetenciju."
DevGuru
hackernews
"Kina je upravo izbacila Kimi K2.5 i kao po satu, performanse su rame uz rame s američkim frontier AI modelima."
BasedTorba
x
"Kimi iz Kine upravo je uništio OpenAI-jev san o biznisu od bilijun dolara... 8x jeftinije."
nrqa__
x
"Kimi K2.5 je prvi model koji se zapravo osjeća kao co-pilot, a ne samo kao chat prozor."
CodeWizard
reddit

Videozapisi o modelu Kimi K2.5

Gledajte tutorijale, recenzije i diskusije o modelu Kimi K2.5

Testirajući AIME probleme, Kimi K2.5 je pogodio gotovo sve, čak i one s kojima se GPT-4o mučio.

Za coding zadatke, agentic sposobnosti su jasno mjesto gdje ovaj model briljira u usporedbi sa standardnim LLMs.

Open-source priroda modela od bilijun parameters kao što je ovaj je bez presedana na trenutnom tržištu.

Ovdje vidite procesiranje logike koje je u mojim početnim matematičkim testovima pariralo o1 modelu.

Cijena tokena je toliko niska da učinkovito pobija svaki argument za korištenje vlasničkih closed-source modela za osnovne zadatke.

Sposobnost obrade dvosatnih videozapisa u jednom potezu bez gubitka konteksta je ogroman napredak.

To nije samo chat model; dizajniran je iz temelja za korištenje alata i terminala.

Kada pokrenete Swarm mod, paralelizam za web istraživanje je u osnovi neusporediv.

Ovim Moonshot AI daje do znanja svijetu da imaju i compute i talent.

Gledati ga kako navigira kroz terminal uživo da popravi bug je budućnost autonomnog inženjerstva.

Skok modela Kimi K2.5 na BrowseComp benchmarku sugerira da može navigirati webom s razinom upornosti koju nismo ranije vidjeli.

Činjenica da ujedinjuje vision i thinking modove u jednu arhitekturu je prava arhitektonska priča ovdje.

Performanse na MMLU i GSM8k dokazuju da je kvaliteta podataka korištenih za trening bila vrhunska.

Za razliku od prethodnih verzija, razumijevanje videa ovdje ne pati od temporalne degradacije.

Ako ste developer, OpenAI kompatibilnost čini prelazak na ovaj model radi testiranja gotovo bez napora.

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi
Pogledaj demo video

Pro Savjeti za Kimi K2.5

Stručni savjeti za maksimalno iskorištavanje Kimi K2.5.

Iskoristite Thinking Mode

Eksplicitno zadajte prompt modelu s 'Think step-by-step' kako biste aktivirali njegov reasoning mod za logički zahtjevne matematičke ili coding zadatke.

Prednost video konteksta

Koristite modelov MoonViT-3D encoder za obradu ekstremno dugih videozapisa; izvrstan je u pronalaženju specifičnih detalja u isječcima od 2 sata.

Orkestracija agenata

Za velike projekte koristite swarm mogućnost kako bi K2.5 podijelio zadatke na podzadatke radi bržeg izvršavanja.

Uštede putem Cache Hit-a

Strukturirajte svoje API pozive kako biste iskoristili Moonshotovo agresivno keširanje konteksta i smanjili troškove inputa do 75%.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

Često Postavljana Pitanja o Kimi K2.5

Pronađite odgovore na česta pitanja o Kimi K2.5