Qual è il prezzo di Kimi k2.6?

Kimi k2.6 costa 0,95 $ per 1 milione di input tokens e 4,00 $ per 1 milione di output tokens. Per l'input in cache, il prezzo scende a 0,16 $ per milione di tokens.

Come posso accedere all'API di Kimi k2.6?

Accedi all'API tramite la piattaforma Moonshot AI su platform.kimi.ai usando un SDK compatibile con OpenAI. L'URL di base è https://api.moonshot.ai/v1.

Kimi k2.6 supporta l'input video?

Sì, supporta l'input video nativo in formati come MP4, MOV e WEBM per descrizioni di scene e analisi del movimento.

Qual è la dimensione della context window?

Il model supporta una context window da 256.000 tokens, all'incirca equivalente a un libro di 300 pagine.

Cos'è un model Thinking?

La modalità Thinking consente al model di generare un chain-of-thought di ragionamento interno prima di rispondere, il che migliora le prestazioni su compiti di logica complessi.

Kimi k2.6 è open-source?

Kimi k2.6 è un model open-weights, il che significa che i pesi sono disponibili per il download su piattaforme come Hugging Face per l'hosting locale.

Cosa sono gli Agent Swarms?

Gli Agent Swarms consentono al model di avviare 300 sub-agent in parallelo per gestire compiti massivi su 100 o più file simultaneamente.

Quali sono i requisiti hardware per l'hosting locale?

Eseguire il model completo da 1T-parameters in locale richiede circa 600GB di VRAM, sebbene le versioni quantizzate possano girare su configurazioni più modeste.

Kimi k2.6

Kimi k2.6 è il model MoE da 1T-parameters di Moonshot AI, caratterizzato da una context window da 256K, input video nativo e performance d'élite nel coding...

ReasoningMultimodalCoding AgentOpen WeightsMoE

moonshotKimi20 aprile 2026

Contesto

256Ktoken

Output max

33Ktoken

Prezzo input

$0.95/ 1M

Prezzo output

$4.00/ 1M

Modalita:TextImageVideo

Capacita:VisioneStrumentiStreamingRagionamento

Benchmark

GPQA

90.5%

HLE

54%

MMLU

86.4%

MMLU Pro

84.6%

SimpleQA

43%

IFEval

89.8%

AIME 2025

97.3%

MATH

98.2%

GSM8k

97.3%

MGSM

91.5%

MathVista

67.1%

SWE-Bench

80.2%

HumanEval

92%

LiveCodeBench

83.1%

MMMU

77.3%

MMMU Pro

75.6%

ChartQA

87.4%

DocVQA

94.9%

Terminal-Bench

60.2%

ARC-AGI

68.8%

Visualizza documentazione API

Informazioni su Kimi k2.6

Scopri le capacita di Kimi k2.6, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Design architettonico e scala

Kimi k2.6 è un model multimodale di frontiera Mixture-of-Experts (MoE) con una scala di mille miliardi di parametri. Utilizza 32 miliardi di parametri attivi per token, bilanciando efficienza computazionale e prestazioni cognitive di alto livello. L'architettura supporta il reasoning interno di tipo chain-of-thought, dove il model genera passaggi di ragionamento nascosti prima di fornire la risposta finale. Questo design gli consente di affrontare problemi complessi in più fasi che solitamente bloccano i grandi language model standard.

Intelligenza agentica e coordinamento

Il model è specificamente ottimizzato per l'ingegneria del software autonoma e i task a lungo termine. Può gestire Agent Swarms fino a 300 sub-agent paralleli, che si coordinano per rifattorizzare ampie basi di codice o gestire complessi pipeline DevOps. Utilizzando chiamate native a strumenti e comprensione visiva, Kimi k2.6 opera come un agente autonomo capace di risolvere problemi GitHub su più file e creare interfacce web ricche di movimento a partire da riferimenti visivi.

Capacità multimodali

Il supporto nativo per input video e immagini distingue Kimi k2.6 da molti peer open-weight. Elabora i file video direttamente per eseguire l'analisi delle scene, la riproduzione di bug e l'estrazione di dati strutturati. Il model funge da architetto visivo, generando shader 3D e animazioni complesse utilizzando librerie come Three.js e GSAP basate su descrizioni visive o mockup caricati.

Casi d'uso per Kimi k2.6

Scopri i diversi modi in cui puoi usare Kimi k2.6 per ottenere ottimi risultati.

Ingegneria del software autonoma

Risoluzione di complessi problemi GitHub coordinando fino a 300 sub-agent in parallelo su sessioni da 12 ore.

Generazione frontend ricca di movimento

Creazione di moderne interfacce web con shader WebGL e GSAP partendo da singoli prompt di testo o immagini.

Analisi video profonda

Analisi di registrazioni per eseguire la riproduzione di bug visivi, la descrizione di scene o l'estrazione di dati strutturati.

Agentic market research

Esecuzione di ricerche web in più passaggi e chiamate a strumenti per sintetizzare rapporti di analisi competitiva da centinaia di fonti.

Ottimizzazione del codice legacy

Identificazione di colli di bottiglia nelle performance in basi di codice datate analizzando CPU flame graphs e dati di allocazione.

Risoluzione di problemi scientifici

Risposta a domande di scienze e matematica di livello universitario utilizzando il reasoning assistito da Python e la verifica tramite strumenti.

Punti di forza

Limitazioni

Coding agentico superiore: Ottiene un punteggio dell'80,2% su SWE-Bench Verified, posizionandosi tra i model più capaci per l'ingegneria autonoma.

Elevati requisiti di VRAM locale: Eseguire l'intero model localmente richiede 600GB di VRAM, limitando l'auto-hosting a workstation di fascia alta specializzate.

Scala di coordinamento massiva: Gestisce 300 sub-agent in parallelo, consentendo di gestire task di refactoring a livello enterprise in un singolo passaggio.

Latency dell'API regionale: L'infrastruttura è ottimizzata per l'Asia, il che può portare a tempi di risposta più elevati per gli utenti nelle regioni occidentali.

Versatilità multimodale nativa: Supporta input video e immagini nativi, abilitando flussi di lavoro avanzati per agenti visual-language in task di UI/UX.

Gap nel recall in contesti lunghi: Il model può avere difficoltà con un recall perfetto ai bordi estremi del suo buffer da 256.000 tokens.

Vantaggio di prezzo aggressivo: A 0,95 $ per milione di input tokens, è significativamente più economico di competitor proprietari come Claude 3.7 o GPT-4o.

Licenza commerciale limitata: Il rilascio open-weights utilizza una licenza modificata che richiede una conformità specifica per implementazioni enterprise su larga scala.

Avvio rapido API

moonshotai/kimi-k2.6

Visualizza documentazione

moonshot SDK

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: "https://api.moonshot.ai/v1",
});

async function main() {
  const completion = await client.chat.completions.create({
    model: "kimi-k2.6",
    messages: [
      { role: "system", content: "You are a coding expert." },
      { role: "user", content: "Optimize this Rust function for throughput." }
    ],
    extra_body: { thinking: { type: "enabled" } }
  });

  console.log(completion.choices[0].message.content);
}

main();

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Kimi k2.6

Guarda cosa pensa la community di Kimi k2.6

“Ti presento Kimi K2.6: il coding open-source che avanza. Un prompt, 100+ file. Oltre 4.000 chiamate a strumenti in 12 ore di esecuzione continua.”

— @Kimi_Moonshot

twitter

“Kimi 2.6 BATTE Opus 4.7 ed è il MIGLIOR model open-source al mondo. È un ottimo model a un decimo del costo.”

— @bindureddy

twitter

“Il delta di prezzo è la parte che nessuno sta calcolando. Kimi K2.6 è 5 volte più economico di Sonnet 4.6. Il divario nei benchmark si è ufficialmente invertito.”

— @aakashgupta

twitter

“L'ho provato contro un bug che avevo. L'ha risolto con successo per poco più di 1 $. Era un bug difficile con cui Sonnet ha faticato.”

— @uworldhits1391

youtube

“Kimi K2.6 è trasformativo, anche se ha margine di miglioramento nel recall in task ultra-lunghi. Comunque, 300 agenti in parallelo sono pazzeschi.”

— @Radiant-Act4707

“La serie Kimi K2 segna il momento in cui i laboratori di frontiera open-source stanno finalmente rivaleggiando e superando i giganti del closed-source.”

— @zxytim

twitter

Video su Kimi k2.6

Guarda tutorial, recensioni e discussioni su Kimi k2.6

“Kimi K2.6 non distruggerà Claude, ma distruggerà il pricing premium dei laboratori chiusi.”

“La capacità di agent swarm, 300 agenti in parallelo, è qualcosa che non abbiamo ancora visto nell'open-source.”

“Il punteggio HLE di 54,0 è il più alto che abbiamo mai visto per un model open weights.”

“Un singolo prompt può portare a 12 ore di esecuzione continua, che è una nuova frontiera per gli agenti.”

“Gestisce l'invocazione di strumenti in più passaggi con una stabilità che eguaglia i migliori model proprietari.”

“Il vision model supporta l'input video nativo, una funzione rara anche nel 2026.”

“Gestisce l'invocazione di strumenti in più passaggi con una modalità thinking stabile che rivaleggia con la serie o di OpenAI.”

“Per lo sviluppo frontend, le generazioni ricche di movimento sono significativamente migliori di K2.5.”

“La context window da 256K consente di analizzare intere suite di documentazione in una volta sola.”

“È uno dei primi model a mostrare una vera autonomia in ambienti terminal.”

“Accoppiare K2.6 con la Kimi Code CLI consente sessioni di coding autonomo di oltre 12 ore.”

“Ha rifattorizzato un motore finanziario di 8 anni fa ottenendo un guadagno di throughput del 185% in autonomia.”

“Questo è un model da trilioni di parametri, ma i parametri attivi sono solo 32B, mantenendolo veloce.”

“Il risparmio sui costi per gli sviluppatori che passano da Claude a Kimi è astronomico.”

“Ha risolto un bug in una complessa libreria Rust che era aperto da tre mesi.”

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI

Automazione web

Workflow intelligenti

Inizia gratis

Consigli Pro per Kimi k2.6

Consigli esperti per aiutarti a ottenere il massimo da Kimi k2.6 e raggiungere risultati migliori.

Abilita l'uso degli strumenti per il reasoning

I benchmark mostrano che il punteggio HLE balza da 23,9 a 54,0 quando al model è permesso l'uso di strumenti esterni di ricerca e calcolo.

Monitora i bordi del buffer di contesto

Il recall è più accurato nei primi 200.000 tokens del buffer da 256.000 tokens.

Usa la modalità Thinking con parsimonia

Disabilita il parametro thinking per compiti di chat semplici per ridurre la latency e il consumo totale di tokens.

Standardizza con tag XML

Il model segue le istruzioni con maggiore precisione quando il contesto e i compiti sono racchiusi tra tag XML.

Sfrutta gli upload video nativi

Utilizza i metodi di caricamento file invece della codifica base64 per video superiori a 100MB per evitare i limiti di dimensione delle richieste.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Mohammed Ibrahim

CEO, qannas.pro

Ben Bressington

CTO, AiChatSolutions

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context

$0.50/$3.00/1M

DeepSeek v4

DeepSeek

DeepSeek v4 is a 1.6T parameter MoE model featuring a 1M token context window and native multimodal support for text, vision, and video at disruptive prices.

1M context

$1.74/$3.48/1M

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context

$3.00/$15.00/1M

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context

$5.00/$25.00/1M

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context

$2.00/$12.00/1M

Qwen 3.7 Max

alibaba

Qwen 3.7 Max is Alibaba’s flagship AI model for deep reasoning and autonomous agent tasks, featuring a 256k context window and top-tier coding performance.

256K context

$1.20/$6.00/1M

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context

$0.40/$2.40/1M

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context

$1.25/$10.00/1M

Domande frequenti su Kimi k2.6

Trova risposte alle domande comuni su Kimi k2.6