moonshot

Kimi K2 Thinking

Kimi K2 Thinking é o model de reasoning de um trilhão de parameters da Moonshot AI. Ele supera o GPT-5 no HLE e suporta 300 chamadas de ferramenta sequenciais...

moonshot logomoonshotKimi K26 de novembro de 2025
Contexto
256Ktokens
Saida Max
16Ktokens
Preco Entrada
$0.15/ 1M
Preco Saida
$0.15/ 1M
Modalidade:Text
Capacidades:FerramentasStreamingRaciocinio
Benchmarks
GPQA
93%
GPQA: Q&A de Ciencias Avancadas. Um benchmark rigoroso com 448 questoes de multipla escolha em biologia, fisica e quimica criadas por especialistas. Especialistas com PhD alcancam apenas 65-74% de precisao. Kimi K2 Thinking pontuou 93% neste benchmark.
HLE
44.9%
HLE: Raciocinio de Alto Nivel. Testa a capacidade de um modelo de demonstrar raciocinio de nivel especialista em dominios especializados. Kimi K2 Thinking pontuou 44.9% neste benchmark.
MMLU
90%
MMLU: Compreensao de Linguagem Multitarefa. Um benchmark abrangente com 16.000 questoes de multipla escolha em 57 disciplinas academicas. Kimi K2 Thinking pontuou 90% neste benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edicao Profissional. Uma versao aprimorada do MMLU com 12.032 questoes usando um formato mais dificil de multipla escolha com 10 opcoes. Kimi K2 Thinking pontuou 78% neste benchmark.
SimpleQA
55%
SimpleQA: Benchmark de Precisao Factual. Testa a capacidade de um modelo de fornecer respostas precisas e factuais a perguntas diretas. Kimi K2 Thinking pontuou 55% neste benchmark.
IFEval
92%
IFEval: Avaliacao de Seguimento de Instrucoes. Mede quao bem um modelo segue instrucoes e restricoes especificas. Kimi K2 Thinking pontuou 92% neste benchmark.
AIME 2025
99.1%
AIME 2025: Exame de Matematica Invitacional Americano. Problemas de matematica de nivel competitivo do prestigiado exame AIME. Kimi K2 Thinking pontuou 99.1% neste benchmark.
MATH
99.1%
MATH: Resolucao de Problemas Matematicos. Um benchmark abrangente de matematica testando resolucao de problemas em algebra, geometria, calculo e outros dominios. Kimi K2 Thinking pontuou 99.1% neste benchmark.
GSM8k
99%
GSM8k: Matematica do Ensino Fundamental 8K. 8.500 problemas de matematica de nivel escolar fundamental que requerem raciocinio em multiplas etapas. Kimi K2 Thinking pontuou 99% neste benchmark.
MGSM
95%
MGSM: Matematica Escolar Multilingue. O benchmark GSM8k traduzido para 10 idiomas. Kimi K2 Thinking pontuou 95% neste benchmark.
MathVista
75%
MathVista: Raciocinio Visual Matematico. Testa a capacidade de resolver problemas de matematica que envolvem elementos visuais como graficos e diagramas. Kimi K2 Thinking pontuou 75% neste benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark de Engenharia de Software. Modelos de IA tentam resolver issues reais do GitHub em projetos Python de codigo aberto. Kimi K2 Thinking pontuou 71.3% neste benchmark.
HumanEval
83%
HumanEval: Problemas de Programacao Python. 164 problemas de programacao escritos a mao onde modelos devem gerar implementacoes corretas de funcoes Python. Kimi K2 Thinking pontuou 83% neste benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark de Codificacao Ao Vivo. Testa habilidades de codificacao em desafios de programacao do mundo real continuamente atualizados. Kimi K2 Thinking pontuou 83.1% neste benchmark.
MMMU
80%
MMMU: Compreensao Multimodal. Benchmark de Compreensao Multimodal Multidisciplinar testando modelos de visao-linguagem em problemas de nivel universitario. Kimi K2 Thinking pontuou 80% neste benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edicao Profissional. Versao aprimorada do MMMU com questoes mais desafiadoras e avaliacao mais rigorosa. Kimi K2 Thinking pontuou 60% neste benchmark.
ChartQA
88%
ChartQA: Resposta a Perguntas sobre Graficos. Testa a capacidade de entender e raciocinar sobre informacoes apresentadas em graficos. Kimi K2 Thinking pontuou 88% neste benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Resposta a Perguntas Visuais de Documentos testando a capacidade de extrair informacoes de imagens de documentos. Kimi K2 Thinking pontuou 94% neste benchmark.
Terminal-Bench
55%
Terminal-Bench: Tarefas de Terminal/CLI. Testa a capacidade de realizar operacoes de linha de comando e escrever scripts de shell. Kimi K2 Thinking pontuou 55% neste benchmark.
ARC-AGI
12%
ARC-AGI: Abstracao e Raciocinio. Corpus de Abstracao e Raciocinio para AGI - testa inteligencia fluida atraves de quebra-cabecas de reconhecimento de padroes. Kimi K2 Thinking pontuou 12% neste benchmark.

Sobre Kimi K2 Thinking

Aprenda sobre as capacidades do Kimi K2 Thinking, recursos e como ele pode ajuda-lo a obter melhores resultados.

Mixture of Experts de Um Trilhão de Parameters

Kimi K2 Thinking é um model de reasoning de um trilhão de parameters que utiliza uma arquitetura Mixture-of-Experts (MoE). Desenvolvido pela Moonshot AI e lançado no final de 2025, ele ativa apenas 32B de parameters para inference, o que equilibra uma capacidade de conhecimento massiva com eficiência computacional. Ele foi projetado especificamente como um agente pensante que escala sua computação durante a fase de inference para resolver problemas lógicos complexos. Essa abordagem permite que o model reflita sobre seu próprio reasoning e corrija erros antes de fornecer uma resposta final.

Uso de Ferramentas Agentic e Planejamento

O model se distingue por sua capacidade de lidar com até 300 chamadas de ferramenta sequenciais de forma autônoma. Enquanto a maioria dos language models padrão enfrenta dificuldades com planejamento de longo horizonte, o K2 Thinking foi projetado para fluxos de trabalho agentic, como navegação web autônoma e engenharia de software de múltiplas etapas. Ele suporta nativamente precisão INT4 via Quantization-Aware Training, permitindo que o model mantenha um desempenho de nível frontier enquanto roda em clusters de hardware corporativo padrão.

Foco em Desenvolvedores e Pesquisa

Com uma context window de 256K tokens, o model foi construído para pesquisa profunda e tarefas técnicas complexas. Ele preenche a lacuna de desempenho entre sistemas closed-source e models de pesos abertos. Sua habilidade em resolver questões científicas de nível PhD e problemas matemáticos de competição o torna uma escolha adequada para pesquisa acadêmica, assistentes de codificação automatizados e aplicações de reasoning de alta fidelidade onde a consistência lógica é o requisito principal.

Kimi K2 Thinking

Casos de Uso para Kimi K2 Thinking

Descubra as diferentes maneiras de usar Kimi K2 Thinking para obter otimos resultados.

Engenharia de Software Complexa

Resolução de issues reais do GitHub e arquitetura de codebases com múltiplos arquivos usando autocorreção iterativa.

Agentes de Pesquisa Autônomos

Execução de centenas de chamadas de ferramenta sequenciais para coletar e sintetizar dados técnicos obscuros.

Matemática de Nível Olímpico

Resolução de problemas avançados de geometria e álgebra com verificação profunda de chain-of-thought.

Investigação Científica de Nível PhD

Respostas a perguntas especializadas em física e biologia que exigem dedução lógica de múltiplas etapas.

Controle Interativo de Computador

Navegação em ambientes de terminal e infraestrutura em nuvem para automatizar fluxos de trabalho de devops.

Escrita Criativa com Base Lógica

Geração de conteúdo longo que exige adesão estrita a regras complexas de construção de mundo.

Pontos Fortes

Limitacoes

Reasoning de Ponta: Pontua 44,9% no HLE com ferramentas, superando os principais models closed-source em lógica de nível especialista.
Requisitos de Recursos Massivos: O inference local requer pelo menos 245GB de VRAM mesmo com quantização, limitando seu uso a clusters de servidores de alto desempenho.
Profundidade Agentic Excepcional: Capaz de 300 chamadas de ferramenta sequenciais, permitindo pesquisa web e tarefas de navegador verdadeiramente autônomas.
Latência de Resposta Inerente: O processo de deep thinking resulta em tempos de espera significativos à medida que o model escala sua computação de test-time.
Precisão Matemática de Topo: Alcança 94,5% no AIME 2025, provando sua confiabilidade para resolução de problemas matemáticos de alto nível.
Falta de Multimodalidade Nativa: Esta variante não pode processar inputs de imagem ou vídeo diretamente, exigindo um model de visão separado para tarefas multimodais.
Acessibilidade de Pesos Abertos: Oferece inteligência de nível frontier para a comunidade de desenvolvedores para implantação local e fine-tuning.
Alto Overhead de Tokens: As etapas de reasoning interno consomem um grande número de tokens de saída, o que aumenta os custos de API para consultas simples.

Inicio Rapido da API

moonshot/kimi-k2-thinking

Ver Documentacao
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Design a system for autonomous code review using 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Instale o SDK e comece a fazer chamadas de API em minutos.

O Que as Pessoas Estao Dizendo Sobre Kimi K2 Thinking

Veja o que a comunidade pensa sobre Kimi K2 Thinking

Kimi K2.5 é o melhor model aberto para codificação, eles realmente mandaram bem.
npc_gooner
reddit
A Moonshot AI acabou de lançar o Kimi K2 Thinking. 300 chamadas de ferramenta sequenciais? Esse é o futuro da IA agentic.
@tech_trends
twitter
A Kimi lançou o Kimi K2 Thinking, um model de reasoning de um trilhão de parameters open-source. Esse veio para valer.
nekofneko
reddit
O fato de ele conseguir lidar com 300 chamadas de ferramenta sequencialmente abre novos fluxos de trabalho de agentes.
AI Explained
youtube
Impressionante ver um model open-source atingindo esses números. A abordagem de escala de test-time claramente está valendo a pena.
jsmith23
hackernews
Rodar este model localmente é um desafio, mas a profundidade de reasoning é diferente de tudo o que existe no espaço de pesos abertos.
LocalLlamaEnthusiast
reddit

Videos Sobre Kimi K2 Thinking

Assista tutoriais, analises e discussoes sobre Kimi K2 Thinking

O Kimi K2 Thinking é o melhor model de IA que já usei.

É o model independente mais agentic já criado. Significa que pode rodar por horas sozinho.

Ele é capaz de pensar e refletir em cada etapa do caminho. Então ele nunca se perde.

A velocidade de reasoning é surpreendentemente rápida apesar do trilhão de parameters.

Se você está construindo agentes, esta é a arquitetura que você quer observar.

Kimi K2 Thinking... é uma atualização de pensamento para o model Kimi K2, que na verdade parece ser muito bem visto.

Este é, claro, um model open-source... chegando a um tamanho total de cerca de 1 trilhão de parameters.

Todos os resultados de benchmark são reportados sob precisão int4.

Ele lida com problemas matemáticos complexos com um nível de lógica que rivaliza com os principais laboratórios proprietários.

O processo de instalação para os pesos locais é bastante direto se você tiver a VRAM.

Kimi K2.5 é o mais recente model open-source desenvolvido por uma empresa chinesa chamada Moonshot AI.

Ele é capaz de ativar até 100 sub-agentes e 1.500 chamadas de ferramenta e executá-las simultaneamente.

Eu certamente o recomendaria se você quiser criar um site verdadeiramente bonito.

O chain-of-thought interno permite que ele autocorriga erros de código antes de fornecer a resposta final.

A Moonshot realmente focou no planejamento de longo horizonte para este lançamento específico.

Mais do que apenas prompts

Potencialize seu fluxo de trabalho com Automacao de IA

Automatio combina o poder de agentes de IA, automacao web e integracoes inteligentes para ajuda-lo a realizar mais em menos tempo.

Agentes de IA
Automacao Web
Fluxos Inteligentes

Dicas Profissionais para Kimi K2 Thinking

Dicas de especialistas para ajuda-lo a aproveitar ao maximo Kimi K2 Thinking e obter melhores resultados.

Ativar Output de Pensamento

Use a flag de tokens especiais no seu mecanismo de inference para visualizar as etapas de reasoning interno do model.

Otimizar Temperature

Defina a temperatura de amostragem para 1.0 e min_p para 0.01 para obter um fluxo de reasoning mais consistente.

Utilizar System Prompts

Inicie conversas com o prompt de identidade oficial da Moonshot AI para estabilizar o comportamento do model.

Escalar Test-Time Compute

Permita que o model gere mais tokens internos para problemas mais difíceis a fim de aumentar a precisão.

Depoimentos

O Que Nossos Usuarios Dizem

Junte-se a milhares de usuarios satisfeitos que transformaram seu fluxo de trabalho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Perguntas Frequentes Sobre Kimi K2 Thinking

Encontre respostas para perguntas comuns sobre Kimi K2 Thinking