moonshot

Kimi K2.5

Scopri Kimi K2.5 di Moonshot AI, un modello agentic open-source da 1T di parametri con funzionalità multimodali native, context window di 262K e SOTA reasoning.

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi27 gennaio 2026
Contesto
256Ktoken
Output max
66Ktoken
Prezzo input
$0.60/ 1M
Prezzo output
$3.00/ 1M
Modalita:TextImageVideo
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
87.6%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Kimi K2.5 ha ottenuto 87.6% in questo benchmark.
HLE
50.2%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Kimi K2.5 ha ottenuto 50.2% in questo benchmark.
MMLU
91.5%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Kimi K2.5 ha ottenuto 91.5% in questo benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Kimi K2.5 ha ottenuto 87.1% in questo benchmark.
SimpleQA
48%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Kimi K2.5 ha ottenuto 48% in questo benchmark.
IFEval
85%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Kimi K2.5 ha ottenuto 85% in questo benchmark.
AIME 2025
96.1%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Kimi K2.5 ha ottenuto 96.1% in questo benchmark.
MATH
90.1%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Kimi K2.5 ha ottenuto 90.1% in questo benchmark.
GSM8k
97.1%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Kimi K2.5 ha ottenuto 97.1% in questo benchmark.
MGSM
95%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Kimi K2.5 ha ottenuto 95% in questo benchmark.
MathVista
90.1%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Kimi K2.5 ha ottenuto 90.1% in questo benchmark.
SWE-Bench
76.8%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Kimi K2.5 ha ottenuto 76.8% in questo benchmark.
HumanEval
88%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Kimi K2.5 ha ottenuto 88% in questo benchmark.
LiveCodeBench
85%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Kimi K2.5 ha ottenuto 85% in questo benchmark.
MMMU
78.5%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Kimi K2.5 ha ottenuto 78.5% in questo benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Kimi K2.5 ha ottenuto 78.5% in questo benchmark.
ChartQA
77.5%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Kimi K2.5 ha ottenuto 77.5% in questo benchmark.
DocVQA
88.8%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Kimi K2.5 ha ottenuto 88.8% in questo benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Kimi K2.5 ha ottenuto 50.8% in questo benchmark.
ARC-AGI
12%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Kimi K2.5 ha ottenuto 12% in questo benchmark.

Informazioni su Kimi K2.5

Scopri le capacita di Kimi K2.5, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Kimi K2.5 è un modello multimodale open-source di Moonshot AI. Utilizza un'architettura Mixture-of-Experts da 1 trilione di parametri in cui 32 miliardi di parametri sono attivi per token. Il sistema unifica l'elaborazione di testo, immagini e video attraverso un unico framework di reasoning anziché utilizzare encoder esterni separati per ogni modalità. Questa architettura consente al modello di gestire 256.000 token di contesto mantenendo un'elevata precisione di recupero e coerenza logica su sequenze molto lunghe.

Il modello si distingue per la sua capacità Agent Swarm. Questa funzionalità consente al sistema di coordinare fino a 100 sub-agent paralleli per eseguire simultaneamente attività complesse di ricerca o ingegneria. Integrando un encoder MoonViT-3D da 400M di parametri, K2.5 può analizzare diverse ore di contenuti video con precisione temporale. È progettato specificamente per l'esecuzione autonoma, superando molti modelli proprietari su benchmark agentic come SWE-Bench e BrowseComp.

Kimi K2.5 fornisce una modalità Thinking dedicata per le attività che richiedono una logica profonda. Quando abilitata, il modello genera una catena di ragionamento interna per autocorreggersi e verificare i passaggi prima di produrre una risposta finale. Ciò lo rende altamente efficace per la matematica di livello competitivo e lo sviluppo software su larga scala. La sua economia dei token è ottimizzata per il deployment aziendale, offrendo un'intelligenza di livello frontier a una frazione del costo dei sistemi closed-source concorrenti.

Kimi K2.5

Casi d'uso per Kimi K2.5

Scopri i diversi modi in cui puoi usare Kimi K2.5 per ottenere ottimi risultati.

Ingegneria del software autonoma

Risoluzione di problemi complessi su GitHub e creazione di architetture di progetto multi-file utilizzando logiche ottimizzate per SWE-Bench.

Sviluppo web visuale

Creazione di codice frontend funzionale e design UI direttamente da registrazioni dello schermo di interazioni esistenti con siti web.

Ricerca multi-thread

Utilizzo di Agent Swarm per scansionare e sintetizzare informazioni da oltre 100 fonti in un unico workflow parallelo.

Analisi video lunga

Estrazione di eventi specifici e dati temporali da ore di riprese di sicurezza o lezioni senza utilizzare strumenti di estrazione frame.

Generazione di prove matematiche

Applicazione della modalità deep thinking per risolvere problemi di matematica a livello di olimpiadi con un tasso di precisione del 96 percento.

Automazione documentale aziendale

Generazione di report PDF multipagina e fogli di calcolo finanziari complessi partendo da fonti di dati aziendali non strutturati.

Punti di forza

Limitazioni

Prestazioni Agentic d'élite: Ottiene un punteggio di 76.8 su SWE-Bench Verified, superando molti modelli frontier proprietari nelle attività di ingegneria del software.
Esigenze estreme di VRAM locale: Richiede 632GB di VRAM per il modello completo non quantizzato, rendendo il deployment locale impossibile per la maggior parte degli utenti consumer.
Economia dei token senza pari: Fornisce un'intelligenza MoE da 1T di parametri a $0,60 per milione di token di input, circa il 10 percento del costo di Claude Opus.
Maggiore latenza di reasoning: La modalità Thinking può introdurre ritardi significativi mentre il modello genera catene logiche interne prima di rispondere.
Comprensione video nativa: Elabora file video complessi senza estrazione di frame esterna, consentendo un'analisi temporale precisa di registrazioni lunghe.
Ripetizione nella formattazione: Può produrre muri di testo eccessivamente lunghi a meno che non venga istruito rigorosamente a utilizzare strutture di paragrafo specifiche.
Orchestrazione swarm parallela: L'unico modello aperto addestrato a coordinare fino a 100 sub-agent per flussi di lavoro di ricerca massicci e multi-thread.
Preoccupazioni sulla residenza dei dati: L'infrastruttura principale ha sede in Cina, il che potrebbe presentare problemi di conformità per alcune aziende occidentali.

Avvio rapido API

fireworks/kimi-k2p5

Visualizza documentazione
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Kimi K2.5

Guarda cosa pensa la community di Kimi K2.5

Kimi K2.5 costa quasi il 10 percento di quanto costa Opus a un livello di prestazioni simile.
Odd_Tumbleweed574
reddit
La gente dimentica che Nvidia ha perso 600 miliardi di dollari quando un laboratorio cinese ha rilasciato qualcosa di importante in open-source. Kimi sta facendo lo stesso con l'intelligenza frontier.
chetaslua
twitter
Il concetto di Attention Residuals in K2.5 è il primo cambiamento architettonico dopo anni che risolve davvero il problema del dimenticare dell'LLM.
logic_king
hackernews
Workers AI esegue grandi modelli ora. Kimi K2.5 è il primo. È uno dei migliori modelli open-source in circolazione, ottimo anche per il coding.
dok2001
twitter
Kimi K2.5 è una bestia diversa. È un modello RP incredibilmente intelligente, ma può diventare nevrotico se non si utilizzano i preset della community.
dptgreg
reddit
Ho sostituito il mio flusso di lavoro GPT 4 con Kimi K2.5 perché la modalità thinking è più trasparente e la context window gestisce l'intero repository.
Dev_Max
reddit

Video su Kimi K2.5

Guarda tutorial, recensioni e discussioni su Kimi K2.5

Kimi K2.5 batte GPT 5.2 con un'alta capacità di thinking, distruggendo completamente gli altri modelli frontier.

È il modello di coding open-source più forte ad oggi con 76.8 su SWE verified.

Agent swarm è un passaggio dal singolo agente agli agenti multipli che eseguono flussi di lavoro paralleli su oltre 1500 passaggi coordinati.

La context window è massiccia a 256k tokens, che è sufficiente per la maggior parte dei progetti.

Moonshot sta davvero spingendo i confini di ciò che gli open weights possono fare all'inizio del 2026.

Ha davvero centrato l'estetica del design Apple e prodotto un sito web dall'aspetto gradevole con animazioni partendo solo da un video.

La funzione Swarm sembra molto bella ed è decisamente divertente da usare poiché assegna badge identificativi a ogni sub-agent.

K2.5 è molto più economico a 60 centesimi per milione di token di input e 3 dollari per milione di token di output.

L'elaborazione video nativa significa che non devi usare costosi strumenti esterni per elaborare i frame.

Questo modello cambia le regole del gioco per gli sviluppatori che necessitano di agenti autonomi con un budget limitato.

Moonshot ha raggiunto questo obiettivo dando a ciascun sub-agent ricompense in fasi critiche separate per prevenire il collasso seriale.

Il modello impara a scegliere il parallelismo solo quando riduce questo percorso critico, un'innovazione molto intelligente.

Kimi K2.5 è quasi al limite della possibilità di essere eseguito su hardware consumer utilizzando GGUF.

La modalità thinking è incredibilmente robusta per risolvere errori logici complessi in Python.

Vedere un modello da 1 trilione di parametri rilasciato in questo modo è enorme per la comunità open-source.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per Kimi K2.5

Consigli esperti per aiutarti a ottenere il massimo da Kimi K2.5 e raggiungere risultati migliori.

Abilita la modalità Thinking

Passa il parametro thinking nella tua richiesta API per ottenere la massima precisione in compiti di matematica e programmazione.

Attiva Agent Swarm

Istruisci il modello a distribuire uno swarm per le attività di ricerca per forzare l'orchestrazione parallela tra i sub-agent.

Ottimizza la temperatura

Utilizza una temperatura di 1.0 per la modalità thinking per consentire un reasoning diversificato, ma abbassala a 0.6 per le chat standard.

Prompt visivi congiunti

Carica screenshot di errori insieme a snippet di codice per sfruttare l'addestramento unificato testo-visione del modello.

Context Caching

Utilizza il context caching per documenti lunghi ripetuti per ridurre i costi di input fino al 90 percento.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Domande frequenti su Kimi K2.5

Trova risposte alle domande comuni su Kimi K2.5