Kimi K2.5

Scopri Kimi K2.5 di Moonshot AI, un model agentic open-source da 1T di parameters con capacità multimodal native, un context window di 262K e reasoning SOTA.

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi K-series27 gennaio 2026
Contesto
262Ktoken
Output max
33Ktoken
Prezzo input
$0.60/ 1M
Prezzo output
$2.50/ 1M
Modalita:TextImageVideo
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
87.6%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Kimi K2.5 ha ottenuto 87.6% in questo benchmark.
HLE
50.2%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Kimi K2.5 ha ottenuto 50.2% in questo benchmark.
MMLU
92%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Kimi K2.5 ha ottenuto 92% in questo benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Kimi K2.5 ha ottenuto 87.1% in questo benchmark.
SimpleQA
54%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Kimi K2.5 ha ottenuto 54% in questo benchmark.
IFEval
94%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Kimi K2.5 ha ottenuto 94% in questo benchmark.
AIME 2025
96.1%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Kimi K2.5 ha ottenuto 96.1% in questo benchmark.
MATH
98%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Kimi K2.5 ha ottenuto 98% in questo benchmark.
GSM8k
99%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Kimi K2.5 ha ottenuto 99% in questo benchmark.
MGSM
96%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Kimi K2.5 ha ottenuto 96% in questo benchmark.
MathVista
84.2%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Kimi K2.5 ha ottenuto 84.2% in questo benchmark.
SWE-Bench
76.8%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Kimi K2.5 ha ottenuto 76.8% in questo benchmark.
HumanEval
99%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Kimi K2.5 ha ottenuto 99% in questo benchmark.
LiveCodeBench
85%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Kimi K2.5 ha ottenuto 85% in questo benchmark.
MMMU
84%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Kimi K2.5 ha ottenuto 84% in questo benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Kimi K2.5 ha ottenuto 78.5% in questo benchmark.
ChartQA
77.5%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Kimi K2.5 ha ottenuto 77.5% in questo benchmark.
DocVQA
88.8%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Kimi K2.5 ha ottenuto 88.8% in questo benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Kimi K2.5 ha ottenuto 50.8% in questo benchmark.
ARC-AGI
12%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Kimi K2.5 ha ottenuto 12% in questo benchmark.

Informazioni su Kimi K2.5

Scopri le capacita di Kimi K2.5, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Una nuova frontiera nell'intelligenza Agentic

Kimi K2.5 è il model flagship open-source agentic di Moonshot AI, che rappresenta un salto generazionale nell'intelligenza multimodal unificata. Sviluppato su una massiccia architettura Mixture-of-Experts (MoE) da 1 trilione di parameters con 32 miliardi di parameters attivi, integra nativamente l'elaborazione di testo, immagini e video in un unico framework di reasoning. A differenza degli LLM tradizionali, K2.5 è progettato specificamente per l'esecuzione autonoma, includendo una modalità 'Thinking' unica che gli consente di autocorreggersi e ragionare su problemi complessi a più fasi senza intervento umano.

Innovazioni Architetturali

Il model introduce una funzionalità rivoluzionaria nota come 'Agent Swarm', che consente al sistema di coordinare dinamicamente fino a 100 sub-agents paralleli per risolvere enormi task di ricerca o engineering. Raggiungendo prestazioni di alto livello su benchmark come SWE-Bench e AIME 2025, Kimi K2.5 colma efficacemente il divario tra i modelli open-source e l'AI proprietaria dei frontier model, offrendo capacità d'élite a una frazione del costo operativo. L'integrazione dell'encoder MoonViT-3D permette una comprensione video senza precedenti, coprendo diverse ore di contenuti con un'elevata accuratezza temporale.

Efficienza senza pari

Oltre alla potenza bruta, K2.5 si concentra su un'economia dei tokens sostenibile. Utilizzando un context caching aggressivo e una struttura MoE altamente ottimizzata, offre prestazioni che rivaleggiano con i più costosi model proprietari, mantenendo un prezzo estremamente competitivo di $0,60 per milione di input tokens. Questo lo rende il backbone ideale per le aziende che desiderano implementare agent autonomi complessi con long-context su larga scala.

Kimi K2.5

Casi d'uso per Kimi K2.5

Scopri i diversi modi in cui puoi usare Kimi K2.5 per ottenere ottimi risultati.

Autonomous Software Engineering

risoluzione di problemi complessi su GitHub e clonazione full-stack di siti web a partire da bozze visuali della UI.

Risoluzione matematica a livello di Olimpiadi

gestione di dimostrazioni matematiche avanzate e problemi di livello competitivo con un'accuratezza superiore al 96% su AIME 2025.

Reasoning su video long-form

analisi e sintesi di contenuti da video lunghi fino a due ore senza perdita di contesto o degradazione temporale.

Agent di ricerca dinamici

utilizzo di 'Agent Swarm' per condurre ricerche web multi-thread e sintetizzare dati da centinaia di fonti in parallelo.

Generazione estetica di frontend

conversione di wireframe UI disegnati a mano o screenshot in codice React funzionale e rifinito con animazioni fluide.

Controllo terminale autonomo

esecuzione di comandi bash complessi e operazioni a livello di sistema per gestire cluster di server e ambienti di sviluppo.

Punti di forza

Limitazioni

Reasoning matematico d'élite: con un punteggio del 96,1% su AIME 2025, supera quasi tutti i model proprietari nella pura deduzione logica.
Intensivo in termini di hardware: l'esecuzione locale del model completo da 1T richiede un cluster AI di livello enterprise con più GPU H100 o B200.
Parallelismo massivo: la funzionalità 'Agent Swarm' consente di utilizzare oltre 100 sub-agents, riducendo drasticamente i tempi di completamento per i task di ricerca.
Latency del Thinking: l'attivazione della modalità di reasoning profondo aumenta significativamente il time-to-first-token rispetto all'elaborazione standard.
Architettura multimodal unificata: elabora nativamente video di 2 ore e immagini ad alta risoluzione senza necessità di encoder di visione separati.
Gap di conoscenza a livello di dottorato: il punteggio del 50,2% su 'Humanity's Last Exam' mostra margini di miglioramento nelle competenze scientifiche di alto livello.
Economia dei token aggressiva: a $0,60/1M input tokens, è circa 8-10 volte più economico rispetto a frontier model comparabili come Claude 4.5.
Preoccupazioni normative: essendo un model cinese, l'uso dell'API e la sovranità dei dati potrebbero essere soggetti a quadri normativi differenti per le imprese occidentali.

Avvio rapido API

fireworks/kimi-k2p5

Visualizza documentazione
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1'
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [{ role: 'user', content: 'Create a full-stack Next.js dashboard with a dark mode glassmorphism UI.' }],
    max_tokens: 2048,
  });
  console.log(response.choices[0].message.content);
}

main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Kimi K2.5

Guarda cosa pensa la community di Kimi K2.5

"Le capacità di reasoning su AIME 2025 sono assolutamente folli per un model aperto."
LogicLover
reddit
"Kimi K2.5 ha appena stabilito un nuovo standard per la comprensione di video lunghi. Finalmente un model che non dimentica l'inizio della clip."
AI_Pioneer
x
"Usare K2.5 come coding agent è una svolta. Il suo punteggio SWE-Bench non è solo un numero, si percepisce la competenza."
DevGuru
hackernews
"La Cina ha appena rilasciato Kimi K2.5 e, come un orologio, le performance sono alla pari con i frontier model AI americani."
BasedTorba
x
"Kimi dalla Cina ha appena distrutto il sogno commerciale da trilioni di OpenAI... 8 volte più economico."
nrqa__
x
"Kimi K2.5 è il primo model che sembra davvero un co-pilot piuttosto che una semplice chat box."
CodeWizard
reddit

Video su Kimi K2.5

Guarda tutorial, recensioni e discussioni su Kimi K2.5

Testando i problemi AIME, Kimi K2.5 ha risolto quasi tutto correttamente, anche quelli con cui GPT-4o ha avuto difficoltà.

Per i task di coding, le capacità agentic sono chiaramente il punto di forza di questo model rispetto agli LLM standard.

La natura open-source di un model da un trilione di parameters come questo è senza precedenti nel mercato attuale.

Qui si vede un'elaborazione logica che ha rivaleggiato con o1 nei miei test matematici iniziali.

Il prezzo dei tokens è così basso che elimina ogni argomento a favore dell'uso di model chiusi proprietari per task di base.

La capacità di elaborare video di due ore in un colpo solo senza perdere il contesto è una svolta enorme.

Non è solo un chat model; è progettato da zero per utilizzare strumenti e terminali.

Quando si attiva la modalità Swarm, il parallelismo per la ricerca web è praticamente impareggiabile.

Con questo, Moonshot AI avvisa il mondo di avere sia la potenza di calcolo che il talento necessari.

Vederlo navigare in un terminale live per correggere un bug rappresenta il futuro dell'engineering autonomo.

Il salto di Kimi K2.5 nel benchmark BrowseComp suggerisce che può navigare nel web con un livello di persistenza mai visto prima.

Il fatto che stia unificando le modalità vision e thinking in un'unica architettura è la vera notizia architettonica.

Le performance su MMLU e GSM8k dimostrano che la qualità dei dati usati per il training è stata di altissimo livello.

A differenza delle versioni precedenti, qui l'analisi video non soffre di degradazione temporale.

Se sei uno sviluppatore, la compatibilità con OpenAI rende il passaggio a questo model per i test praticamente a costo zero.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti
Guarda la demo

Consigli Pro per Kimi K2.5

Consigli esperti per aiutarti a ottenere il massimo da Kimi K2.5 e raggiungere risultati migliori.

Sfrutta la Thinking Mode

usa esplicitamente il prompt 'Think step-by-step' per attivare la sua modalità reasoning per task di matematica o coding ad alta densità logica.

Vantaggio del Video Context

utilizza l'encoder MoonViT-3D del model per elaborare video estremamente lunghi; eccelle nel trovare dettagli specifici in clip di 2 ore.

Orchestrazione di Agent

per progetti di grandi dimensioni, utilizza la funzionalità swarm per consentire a K2.5 di scomporre i task in sub-tasks per un'esecuzione più rapida.

Risparmi con Cache Hit

struttura le tue chiamate API per trarre vantaggio dal context caching aggressivo di Moonshot per ridurre i costi di input fino al 75%.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

Domande frequenti su Kimi K2.5

Trova risposte alle domande comuni su Kimi K2.5