moonshot

Kimi K2 Thinking

Kimi K2 Thinking è il reasoning model da un trilione di parametri di Moonshot AI. Supera GPT-5 nel benchmark HLE e supporta autonomamente 300 chiamate a tool.

moonshot logomoonshotKimi2025-11-06
Contesto
256Ktoken
Output max
16Ktoken
Prezzo input
$0.15/ 1M
Prezzo output
$0.15/ 1M
Modalita:Text
Capacita:StrumentiStreamingRagionamento
Benchmark
GPQA
93%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Kimi K2 Thinking ha ottenuto 93% in questo benchmark.
HLE
44.9%
HLE: Ragionamento esperto di alto livello. Testa la capacita di un modello di dimostrare ragionamento a livello esperto in domini specializzati. Kimi K2 Thinking ha ottenuto 44.9% in questo benchmark.
MMLU
90%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Kimi K2 Thinking ha ottenuto 90% in questo benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Kimi K2 Thinking ha ottenuto 78% in questo benchmark.
SimpleQA
55%
SimpleQA: Benchmark di accuratezza fattuale. Testa la capacita di un modello di fornire risposte accurate e fattuali. Kimi K2 Thinking ha ottenuto 55% in questo benchmark.
IFEval
92%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Kimi K2 Thinking ha ottenuto 92% in questo benchmark.
AIME 2025
99.1%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Kimi K2 Thinking ha ottenuto 99.1% in questo benchmark.
MATH
99.1%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Kimi K2 Thinking ha ottenuto 99.1% in questo benchmark.
GSM8k
99%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Kimi K2 Thinking ha ottenuto 99% in questo benchmark.
MGSM
95%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Kimi K2 Thinking ha ottenuto 95% in questo benchmark.
MathVista
75%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Kimi K2 Thinking ha ottenuto 75% in questo benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Kimi K2 Thinking ha ottenuto 71.3% in questo benchmark.
HumanEval
83%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Kimi K2 Thinking ha ottenuto 83% in questo benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Kimi K2 Thinking ha ottenuto 83.1% in questo benchmark.
MMMU
80%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Kimi K2 Thinking ha ottenuto 80% in questo benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Kimi K2 Thinking ha ottenuto 60% in questo benchmark.
ChartQA
88%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Kimi K2 Thinking ha ottenuto 88% in questo benchmark.
DocVQA
94%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Kimi K2 Thinking ha ottenuto 94% in questo benchmark.
Terminal-Bench
55%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Kimi K2 Thinking ha ottenuto 55% in questo benchmark.
ARC-AGI
12%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Kimi K2 Thinking ha ottenuto 12% in questo benchmark.

Informazioni su Kimi K2 Thinking

Scopri le capacita di Kimi K2 Thinking, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Intelligenza Aperta da un Trilione di Parameters

Kimi K2 Thinking è un rivoluzionario model di reasoning da un trilione di parameters di Moonshot AI che ha ridefinito i confini dell'intelligenza open-source. Rilasciato a novembre 2025, utilizza una sofisticata architettura Mixture-of-Experts (MoE) con 1T parameters totali — attivandone solo 32B per l'inference — rendendolo straordinariamente potente ed efficiente dal punto di vista computazionale. A differenza dei normali language models, K2 Thinking è progettato come un "agente pensante", scalando il calcolo in fase di test per eseguire reasoning logico profondo, pianificazione e uso autonomo di tool.

Prodezza Agentic e Scalabilità

Il model è particolarmente rinomato per le sue capacità agentic, riuscendo a eseguire fino a 300 chiamate a tool sequenziali senza intervento umano. Ciò lo rende una scelta formidabile per ricerche complesse, programmazione competitiva e workflow tecnici multi-fase. Utilizzando nativamente la precisione INT4 tramite Quantization-Aware Training, Moonshot AI ha permesso a questo imponente model di girare su cluster hardware accessibili, superando giganti closed-source come GPT-5 e Claude 4.5 nei benchmark critici di reasoning e browsing.

Architettura Developer-First

Progettato per la community globale di sviluppatori, Kimi K2-Thinking offre metriche costo-prestazioni senza rivali. Con una context window enorme di 256K e il supporto per un'estesa elaborazione chain-of-thought, colma il divario tra i model locali specializzati e le API cloud di livello enterprise. La sua metodologia di addestramento si concentra sulla pianificazione a lungo termine, permettendo al model di riflettere, correggere e ottimizzare i propri output in modo iterativo.

Kimi K2 Thinking

Casi d'uso per Kimi K2 Thinking

Scopri i diversi modi in cui puoi usare Kimi K2 Thinking per ottenere ottimi risultati.

Ricerca Autonoma

Esecuzione di indagini web approfondite che richiedono centinaia di chiamate a tool sequenziali e verifica iterativa delle informazioni.

Risoluzione di Problemi Scientifici

Gestione di quesiti di matematica e fisica a livello di dottorato utilizzando l'esecuzione di tool Python e l'elaborazione chain-of-thought.

Programmazione Competitiva

Risoluzione di sfide algoritmiche ad alta difficoltà su piattaforme come Codeforces e LeetCode con accuratezza di livello PhD.

Debug di Codice Complesso

Identificazione e risoluzione di errori logici in codebase multi-file massicce attraverso passaggi di reasoning esaustivi e ad ampio orizzonte.

Analisi Legale e di Compliance

Revisione di lunghi documenti tecnici o legali in una context window di 256K per identificare rischi sottili o contraddizioni.

Automazione AI Agentic

Supporto per agenti autonomi in grado di pianificare, agire, riflettere e perfezionare i propri output per ore senza intervento umano.

Punti di forza

Limitazioni

Profondità Agentic: L'unico model open-weights capace di gestire 200–300 chiamate a tool sequenziali senza degrado delle prestazioni.
Input Solo Testo: Attualmente manca il supporto multimodal nativo per la visione per processare direttamente file di immagini, video o audio.
Reasoning State-of-the-art: Supera GPT-5 e Claude 4.5 su Humanity's Last Exam (HLE) e BrowseComp grazie a un'intensiva scalabilità del test-time.
Requisiti di RAM Elevati: Il deployment locale dell'architettura completa da 1T richiede oltre 500 GB di RAM o cluster Mac distribuiti.
Efficienza dei Costi Ineguagliabile: Con un prezzo fisso di 0,15 $/1M tokens, offre un'intelligenza da frontier model a una frazione del costo delle API proprietarie.
Latenza Iniziale del Token: L'intensiva fase di reasoning interna comporta un time-to-first-token più lento rispetto agli LLM senza capacità di 'thinking'.
Ottimizzazione Nativa INT4: La quantizzazione nativa tramite Quantization-Aware Training offre un incremento di velocità di 2x per l'inference locale su hardware accessibile.
Verbosità nel Reasoning: Il model può generare sequenze chain-of-thought eccessivamente lunghe anche per richieste relativamente semplici.

Avvio rapido API

moonshot/kimi-k2-thinking

Visualizza documentazione
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Kimi K2 Thinking

Guarda cosa pensa la community di Kimi K2 Thinking

"Kimi K2 Thinking è il miglior model AI che abbia mai usato... nessuna allucinazione e centinaia di chiamate a tool."
Alex Finn
youtube
"Il divario tra closed e open continua a ridursi anche mentre il costo dei tokens crolla."
Emad Mostaque
x
"Moonshot K2-Thinking sta ridefinendo gli agenti intelligenti locali con 300 chiamate a tool."
Brian Roemmele
x
"Finalmente un model che analizza davvero la logica del prompt prima di rispondere!"
ai_user_2025
reddit
"La Cina sta spingendo seriamente la frontiera dell'open-source e degli open weights con la serie Kimi."
Nathan Lambert
x
"Prestazioni assolutamente sbalorditive su problemi di matematica competitiva."
MathWizard
hackernews

Video su Kimi K2 Thinking

Guarda tutorial, recensioni e discussioni su Kimi K2 Thinking

Questo è il model indipendente più agentic mai realizzato.

È in grado di pensare e riflettere in ogni singolo passaggio. Così non perde mai il filo.

È estremamente conveniente in termini di costi... metà del prezzo di ChatGPT-5 e circa un decimo del prezzo di Sonnet 4.5.

Riesce a evitare le comuni trappole logiche degli LLM standard.

Moonshot sta davvero cambiando le regole del gioco per l'accessibilità degli open-weight.

Può eseguire fino a 200-300 chiamate a tool sequenziali senza interferenza umana.

K2 thinking ha ottenuto un punteggio del 60,2%, superando significativamente la media umana del 29,2% su BrowseComp.

La Cina sta davvero spingendo la frontiera dell'open-source e degli open weights.

L'implementazione Mixture-of-Experts qui è incredibilmente efficiente per 1 trilione di parameters.

Ottieni un reasoning di livello frontier per pochi centesimi.

Lo sto eseguendo qui su un Mac Studio usando un controllo pseudo cis wired limit.

Stiamo usando 500 GB di RAM. La nostra velocità di elaborazione è scesa a circa 6,9 tokens al secondo.

Ha effettivamente scritto questo codice, ma non si è fermato. Ha ricominciato a pensare.

Anche con la quantizzazione, la coerenza logica di questo model rimane d'élite.

Il monologo interno mostra esattamente dove corregge i propri errori di coding.

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti
Guarda la demo

Consigli Pro per Kimi K2 Thinking

Consigli esperti per aiutarti a ottenere il massimo da Kimi K2 Thinking e raggiungere risultati migliori.

Abilita i Thinking Tag

Quando lo esegui in locale tramite tool come llama.cpp, assicurati di usare il flag --special per visualizzare correttamente i tokens <think> interni.

Ottimizza la Temperature

Imposta la temperature a 1.0 e min_p a 0.01 per ottenere i risultati di reasoning più stabili e rigorosi.

Clustering Hardware

Distribuisci la versione quantizzata INT4 su un cluster di due Mac Studio M3 Ultra con RDMA per un'esperienza locale 1T senza perdite.

Pianificazione a lungo termine

Struttura i prompts chiedendo esplicitamente un 'piano passo dopo passo' per attivare l'apprendimento adattivo e le capacità di ricerca del model.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Domande frequenti su Kimi K2 Thinking

Trova risposte alle domande comuni su Kimi K2 Thinking