moonshot

Kimi K2 Thinking

Kimi K2 Thinking è il model di reasoning da un trilione di parameters di Moonshot AI. Supera GPT-5 su HLE e supporta 300 tool calls sequenziali autonomamente...

moonshot logomoonshotKimi K26 novembre 2025
Contesto
256Ktoken
Output max
16Ktoken
Prezzo input
$0.15/ 1M
Prezzo output
$0.15/ 1M
Modalita:Text
Capacita:StrumentiStreamingRagionamento
Benchmark
GPQA
93%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Kimi K2 Thinking ha ottenuto 93% in questo benchmark.
HLE
44.9%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Kimi K2 Thinking ha ottenuto 44.9% in questo benchmark.
MMLU
90%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Kimi K2 Thinking ha ottenuto 90% in questo benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Kimi K2 Thinking ha ottenuto 78% in questo benchmark.
SimpleQA
55%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Kimi K2 Thinking ha ottenuto 55% in questo benchmark.
IFEval
92%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Kimi K2 Thinking ha ottenuto 92% in questo benchmark.
AIME 2025
99.1%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Kimi K2 Thinking ha ottenuto 99.1% in questo benchmark.
MATH
99.1%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Kimi K2 Thinking ha ottenuto 99.1% in questo benchmark.
GSM8k
99%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Kimi K2 Thinking ha ottenuto 99% in questo benchmark.
MGSM
95%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Kimi K2 Thinking ha ottenuto 95% in questo benchmark.
MathVista
75%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Kimi K2 Thinking ha ottenuto 75% in questo benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Kimi K2 Thinking ha ottenuto 71.3% in questo benchmark.
HumanEval
83%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Kimi K2 Thinking ha ottenuto 83% in questo benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Kimi K2 Thinking ha ottenuto 83.1% in questo benchmark.
MMMU
80%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Kimi K2 Thinking ha ottenuto 80% in questo benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Kimi K2 Thinking ha ottenuto 60% in questo benchmark.
ChartQA
88%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Kimi K2 Thinking ha ottenuto 88% in questo benchmark.
DocVQA
94%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Kimi K2 Thinking ha ottenuto 94% in questo benchmark.
Terminal-Bench
55%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Kimi K2 Thinking ha ottenuto 55% in questo benchmark.
ARC-AGI
12%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Kimi K2 Thinking ha ottenuto 12% in questo benchmark.

Informazioni su Kimi K2 Thinking

Scopri le capacita di Kimi K2 Thinking, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Mixture of Experts da un Trilione di Parameters

Kimi K2 Thinking è un model di reasoning da un trilione di parameters che utilizza un'architettura Mixture-of-Experts (MoE). Sviluppato da Moonshot AI e rilasciato a fine 2025, attiva solo 32B di parameters per l'inference, il che bilancia un'enorme capacità di conoscenza con l'efficienza computazionale. È progettato specificamente come un agente pensante che scala il suo calcolo durante la fase di inference per risolvere problemi logici complessi. Questo approccio consente al model di riflettere sul proprio reasoning e correggere gli errori prima di fornire una risposta definitiva.

Utilizzo di Strumenti e Pianificazione Agentic

Il model si distingue per la sua capacità di gestire autonomamente fino a 300 tool calls sequenziali. Mentre la maggior parte dei language models standard fatica con la pianificazione a lungo termine, K2 Thinking è progettato per flussi di lavoro agentic come la navigazione web autonoma e l'ingegneria del software a più passaggi. Supporta nativamente la precisione INT4 tramite Quantization-Aware Training, consentendo al model di mantenere prestazioni di livello frontier pur girando su cluster hardware aziendali standard.

Focus su Sviluppatori e Ricerca

Con una context window di 256K tokens, il model è costruito per la ricerca approfondita e compiti tecnici complessi. Colma il divario di prestazioni tra sistemi closed-source e model a pesi aperti. La sua capacità di risolvere domande scientifiche di livello PhD e problemi di matematica competitiva lo rende una scelta adatta per la ricerca accademica, gli assistenti alla programmazione automatizzati e le applicazioni di reasoning ad alta fedeltà dove la coerenza logica è il requisito primario.

Kimi K2 Thinking

Casi d'uso per Kimi K2 Thinking

Scopri i diversi modi in cui puoi usare Kimi K2 Thinking per ottenere ottimi risultati.

Ingegneria del Software Complessa

Risoluzione di issue GitHub reali e architettura di codebase multi-file tramite auto-correzione iterativa.

Agenti di Ricerca Autonomi

Esecuzione di centinaia di tool calls sequenziali per raccogliere e sintetizzare dati tecnici oscuri.

Matematica a Livello Olimpionico

Risoluzione di problemi avanzati di geometria e algebra con una profonda verifica chain-of-thought.

Ricerca Scientifica di Livello PhD

Risposta a domande di esperti in fisica e biologia che richiedono deduzioni logiche a più passaggi.

Controllo Interattivo del Computer

Navigazione in ambienti terminal e infrastrutture cloud per automatizzare i flussi di lavoro devops.

Scrittura Creativa ad Alta Complessità Logica

Generazione di contenuti lunghi che richiedono il rigoroso rispetto di intricate regole di world-building.

Punti di forza

Limitazioni

Reasoning State-of-the-Art: Ottiene il 44,9% su HLE con strumenti, superando i principali model closed-source nella logica di livello esperto.
Massicci Requisiti di Risorse: L'inference locale richiede almeno 245GB di VRAM anche con quantizzazione, limitandone l'uso a cluster server di fascia alta.
Profondità Agentic Eccezionale: Capace di 300 tool calls sequenziali, consentendo ricerche web e attività di navigazione veramente autonome.
Latenza di Risposta Intrinseca: Il processo di deep thinking comporta tempi di attesa significativi man mano che il model scala il suo test-time computation.
Accuratezza Matematica di Vertice: Raggiunge il 94,5% su AIME 2025, dimostrando la sua affidabilità per la risoluzione di problemi matematici di alto livello.
Mancanza di Multimodalità Nativa: Questa variante non può elaborare direttamente input di immagini o video, richiedendo un model di visione separato per i compiti multimodal.
Accessibilità dei Pesi Open: Offre intelligenza di livello frontier alla community di sviluppatori per il deployment locale e il fine-tuning.
Elevato Overhead di Token: I passaggi di reasoning interno consumano un gran numero di tokens di output, il che aumenta i costi API per le query semplici.

Avvio rapido API

moonshot/kimi-k2-thinking

Visualizza documentazione
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Progetta un sistema per la revisione autonoma del codice utilizzando 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Kimi K2 Thinking

Guarda cosa pensa la community di Kimi K2 Thinking

Kimi K2.5 è il miglior model open per la programmazione, hanno fatto un ottimo lavoro.
npc_gooner
reddit
Moonshot AI ha appena rilasciato Kimi K2 Thinking. 300 tool calls sequenziali? Questo è il futuro della AI agentic.
@tech_trends
twitter
Kimi ha rilasciato Kimi K2 Thinking, un model di reasoning open-source da un trilione di parameters. È una cosa seria.
nekofneko
reddit
Il fatto che possa gestire 300 tool calls sequenzialmente apre flussi di lavoro agentic completamente nuovi.
AI Explained
youtube
Impressionante vedere un model open-source raggiungere questi numeri. L'approccio di test-time scaling sta chiaramente dando i suoi frutti.
jsmith23
hackernews
Eseguire questo model localmente è una sfida, ma la profondità di reasoning è diversa da qualsiasi altra cosa nello spazio dei pesi aperti.
LocalLlamaEnthusiast
reddit

Video su Kimi K2 Thinking

Guarda tutorial, recensioni e discussioni su Kimi K2 Thinking

Kimi K2 Thinking è il miglior model AI che abbia mai usato.

È il model indipendente più agentic mai realizzato. Significa che può funzionare per ore da solo.

È in grado di pensare e riflettere in ogni singolo passaggio. Quindi non si perde mai.

La velocità di reasoning è sorprendentemente veloce nonostante il trilione di parameters.

Se stai costruendo agenti, questa è l'architettura che dovresti considerare.

Kimi K2 Thinking... è un aggiornamento di pensiero al model Kimi K2, che in verità sembra essere molto apprezzato.

Questo è ovviamente un model open-source... con una dimensione totale di circa 1 trilione di parameters.

Tutti i risultati dei benchmark sono riportati con precisione int4.

Gestisce problemi matematici complessi con un livello di logica che rivaleggia con i migliori laboratori proprietari.

Il processo di installazione per i pesi locali è abbastanza semplice se si dispone della VRAM.

Kimi K2.5 è l'ultimo model open-source sviluppato da un'azienda cinese chiamata Moonshot AI.

È in grado di avviare fino a 100 sub-agenti e 1.500 tool calls ed eseguirli contemporaneamente.

Lo consiglierei sicuramente se vuoi creare un sito web davvero bello.

La chain-of-thought interna gli permette di auto-correggere gli errori di codice prima di fornire la risposta finale.

Moonshot si è davvero concentrata sulla pianificazione a lungo termine per questo specifico rilascio.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per Kimi K2 Thinking

Consigli esperti per aiutarti a ottenere il massimo da Kimi K2 Thinking e raggiungere risultati migliori.

Abilita l'Output di Pensiero

Utilizza il flag dei token speciali nel tuo engine di inference per visualizzare i passaggi di reasoning interni del model.

Ottimizza la Temperature

Imposta la sampling temperature a 1.0 e min_p a 0.01 per il flusso di reasoning più coerente.

Utilizza i System Prompts

Avvia le conversazioni con il prompt di identità ufficiale di Moonshot AI per stabilizzare il comportamento del model.

Scala il Test-Time Compute

Consenti al model di generare più tokens interni per i problemi più difficili al fine di aumentare l'accuratezza.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Domande frequenti su Kimi K2 Thinking

Trova risposte alle domande comuni su Kimi K2 Thinking