moonshot

Kimi K2 Thinking

O Kimi K2 Thinking é o model de reasoning de um trilhão de parâmetros da Moonshot AI. Ele supera o GPT-5 no benchmark HLE e suporta 300 tool calls sequenciais...

moonshot logomoonshotKimi2025-11-06
Contexto
256Ktokens
Saida Max
16Ktokens
Preco Entrada
$0.15/ 1M
Preco Saida
$0.15/ 1M
Modalidade:Text
Capacidades:FerramentasStreamingRaciocinio
Benchmarks
GPQA
93%
GPQA: Q&A de Ciencias Avancadas. Um benchmark rigoroso com 448 questoes de multipla escolha em biologia, fisica e quimica criadas por especialistas. Especialistas com PhD alcancam apenas 65-74% de precisao. Kimi K2 Thinking pontuou 93% neste benchmark.
HLE
44.9%
HLE: Raciocinio de Alto Nivel. Testa a capacidade de um modelo de demonstrar raciocinio de nivel especialista em dominios especializados. Kimi K2 Thinking pontuou 44.9% neste benchmark.
MMLU
90%
MMLU: Compreensao de Linguagem Multitarefa. Um benchmark abrangente com 16.000 questoes de multipla escolha em 57 disciplinas academicas. Kimi K2 Thinking pontuou 90% neste benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edicao Profissional. Uma versao aprimorada do MMLU com 12.032 questoes usando um formato mais dificil de multipla escolha com 10 opcoes. Kimi K2 Thinking pontuou 78% neste benchmark.
SimpleQA
55%
SimpleQA: Benchmark de Precisao Factual. Testa a capacidade de um modelo de fornecer respostas precisas e factuais a perguntas diretas. Kimi K2 Thinking pontuou 55% neste benchmark.
IFEval
92%
IFEval: Avaliacao de Seguimento de Instrucoes. Mede quao bem um modelo segue instrucoes e restricoes especificas. Kimi K2 Thinking pontuou 92% neste benchmark.
AIME 2025
99.1%
AIME 2025: Exame de Matematica Invitacional Americano. Problemas de matematica de nivel competitivo do prestigiado exame AIME. Kimi K2 Thinking pontuou 99.1% neste benchmark.
MATH
99.1%
MATH: Resolucao de Problemas Matematicos. Um benchmark abrangente de matematica testando resolucao de problemas em algebra, geometria, calculo e outros dominios. Kimi K2 Thinking pontuou 99.1% neste benchmark.
GSM8k
99%
GSM8k: Matematica do Ensino Fundamental 8K. 8.500 problemas de matematica de nivel escolar fundamental que requerem raciocinio em multiplas etapas. Kimi K2 Thinking pontuou 99% neste benchmark.
MGSM
95%
MGSM: Matematica Escolar Multilingue. O benchmark GSM8k traduzido para 10 idiomas. Kimi K2 Thinking pontuou 95% neste benchmark.
MathVista
75%
MathVista: Raciocinio Visual Matematico. Testa a capacidade de resolver problemas de matematica que envolvem elementos visuais como graficos e diagramas. Kimi K2 Thinking pontuou 75% neste benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark de Engenharia de Software. Modelos de IA tentam resolver issues reais do GitHub em projetos Python de codigo aberto. Kimi K2 Thinking pontuou 71.3% neste benchmark.
HumanEval
83%
HumanEval: Problemas de Programacao Python. 164 problemas de programacao escritos a mao onde modelos devem gerar implementacoes corretas de funcoes Python. Kimi K2 Thinking pontuou 83% neste benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark de Codificacao Ao Vivo. Testa habilidades de codificacao em desafios de programacao do mundo real continuamente atualizados. Kimi K2 Thinking pontuou 83.1% neste benchmark.
MMMU
80%
MMMU: Compreensao Multimodal. Benchmark de Compreensao Multimodal Multidisciplinar testando modelos de visao-linguagem em problemas de nivel universitario. Kimi K2 Thinking pontuou 80% neste benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edicao Profissional. Versao aprimorada do MMMU com questoes mais desafiadoras e avaliacao mais rigorosa. Kimi K2 Thinking pontuou 60% neste benchmark.
ChartQA
88%
ChartQA: Resposta a Perguntas sobre Graficos. Testa a capacidade de entender e raciocinar sobre informacoes apresentadas em graficos. Kimi K2 Thinking pontuou 88% neste benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Resposta a Perguntas Visuais de Documentos testando a capacidade de extrair informacoes de imagens de documentos. Kimi K2 Thinking pontuou 94% neste benchmark.
Terminal-Bench
55%
Terminal-Bench: Tarefas de Terminal/CLI. Testa a capacidade de realizar operacoes de linha de comando e escrever scripts de shell. Kimi K2 Thinking pontuou 55% neste benchmark.
ARC-AGI
12%
ARC-AGI: Abstracao e Raciocinio. Corpus de Abstracao e Raciocinio para AGI - testa inteligencia fluida atraves de quebra-cabecas de reconhecimento de padroes. Kimi K2 Thinking pontuou 12% neste benchmark.

Sobre Kimi K2 Thinking

Aprenda sobre as capacidades do Kimi K2 Thinking, recursos e como ele pode ajuda-lo a obter melhores resultados.

Inteligência Aberta de um Trilhão de Parâmetros

Kimi K2 Thinking é um model de reasoning inovador de um trilhão de parameters da Moonshot AI que redefiniu os limites da inteligência open-source. Lançado em novembro de 2025, ele utiliza uma arquitetura sofisticada de Mixture-of-Experts (MoE) com um total de 1T parameters — ativando apenas 32B para inference — tornando-o notavelmente poderoso e computacionalmente eficiente. Ao contrário de models de linguagem padrão, o K2 Thinking é projetado como um "agente pensante", escalando a computação em tempo de teste para realizar reasoning lógico profundo, planejamento e uso autônomo de ferramentas.

Proeza Agentic e Escalabilidade

O model é particularmente renomado por suas capacidades agentic, executando com sucesso até 300 tool calls sequenciais sem intervenção humana. Isso o torna uma escolha formidável para pesquisas complexas, programação competitiva e fluxos de trabalho técnicos de várias etapas. Ao utilizar nativamente a precisão INT4 via Quantization-Aware Training, a Moonshot AI permitiu que este massivo model seja executado em clusters de hardware acessíveis, superando gigantes closed-source como o GPT-5 e o Claude 4.5 em benchmarks críticos de reasoning e navegação.

Arquitetura Focada no Desenvolvedor

Projetado para a comunidade global de desenvolvedores, o Kimi K2-Thinking oferece métricas de custo-benefício incomparáveis. Com uma enorme context window de 256K e suporte para processamento extensivo de chain-of-thought, ele preenche a lacuna entre models locais especializados e APIs de nuvem de nível empresarial. Sua metodologia de treinamento foca no planejamento de longo horizonte, permitindo que o model reflita, corrija e otimize seus próprios outputs de forma iterativa.

Kimi K2 Thinking

Casos de Uso para Kimi K2 Thinking

Descubra as diferentes maneiras de usar Kimi K2 Thinking para obter otimos resultados.

Pesquisa Autônoma

Execução de investigações profundas na web que exigem centenas de tool calls sequenciais e verificação iterativa de informações.

Resolução de Problemas Científicos

Resolução de questões de matemática e física de nível de doutorado usando execução de ferramentas Python e processamento de chain-of-thought.

Programação Competitiva

Resolução de desafios algorítmicos de alta dificuldade em plataformas como Codeforces e LeetCode com precisão de nível de doutorado.

Debugging de Código Complexo

Identificação e correção de erros lógicos em bases de código massivas com múltiplos arquivos por meio de etapas exaustivas de reasoning de alto horizonte.

Análise Jurídica e de Conformidade

Revisão de documentos técnicos ou jurídicos extensos em uma context window de 256K para identificar riscos ou contradições sutis.

Automação de AI Agentic

Potencialização de agentes autônomos que podem planejar, agir, refletir e refinar seus próprios outputs por horas sem intervenção humana.

Pontos Fortes

Limitacoes

Profundidade Agentic: O único model de pesos abertos capaz de gerenciar 200–300 tool calls sequenciais sem degradação de performance.
Input Apenas de Texto: Atualmente carece de suporte nativo multimodal de visão para processar arquivos diretos de imagem, vídeo ou áudio.
Reasoning State-of-the-Art: Supera o GPT-5 e o Claude 4.5 no Humanity's Last Exam (HLE) e no BrowseComp através de scaling intensivo em tempo de teste.
Requisitos Massivos de RAM: O deploy local da arquitetura completa de 1T requer mais de 500GB de RAM ou clusters Mac distribuídos.
Eficiência de Custo Inigualável: Com preço fixo de $0.15/1M tokens, oferece inteligência de frontier model por uma fração dos custos de API proprietárias.
Latência do Token Inicial: A fase intensiva de reasoning interno leva a um time-to-first-token mais lento em comparação com LLMs sem o modo thinking.
Otimização INT4 Nativa: A quantization nativa via Quantization-Aware Training proporciona um aumento de 2x na velocidade de inference local em hardware acessível.
Verborragia no Reasoning: O model pode gerar sequências de chain-of-thought excessivamente longas mesmo para consultas relativamente diretas.

Inicio Rapido da API

moonshot/kimi-k2-thinking

Ver Documentacao
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'Você é o Kimi, uma AI de reasoning da Moonshot AI.' },
      { role: 'user', content: 'Resolva a tarefa de verificação da prova da Hipótese de Riemann.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Instale o SDK e comece a fazer chamadas de API em minutos.

O Que as Pessoas Estao Dizendo Sobre Kimi K2 Thinking

Veja o que a comunidade pensa sobre Kimi K2 Thinking

"O Kimi K2 Thinking é o melhor AI model que já usei... sem alucinações e centenas de tool calls."
Alex Finn
youtube
"A lacuna entre o fechado e o aberto continua a diminuir mesmo com o colapso do custo dos tokens."
Emad Mostaque
x
"O Moonshot K2-Thinking está redefinindo agentes inteligentes locais com 300 tool calls."
Brian Roemmele
x
"Finalmente um model que realmente pensa na lógica do prompt antes de responder!"
ai_user_2025
reddit
"A China está realmente impulsionando a fronteira de open-source e pesos abertos com a série Kimi."
Nathan Lambert
x
"Performance absolutamente impressionante em problemas matemáticos competitivos."
MathWizard
hackernews

Videos Sobre Kimi K2 Thinking

Assista tutoriais, analises e discussoes sobre Kimi K2 Thinking

Este é o model independente mais agentic já feito.

Ele é capaz de pensar e refletir em cada etapa do caminho. Assim, ele nunca se perde.

É extremamente econômico... metade do preço do ChatGPT-5 e cerca de um décimo do preço do Sonnet 4.5.

Ele consegue evitar as armadilhas lógicas comuns de LLMs padrão.

A Moonshot está realmente mudando o jogo para a acessibilidade de pesos abertos.

Ele pode executar de 200 a 300 tool calls sequenciais sem interferência humana.

O K2 Thinking alcançou uma pontuação de 60,2%, superando significativamente a base humana de 29,2% no BrowseComp.

A China está realmente impulsionando a fronteira de open-source e pesos abertos.

A implementação de Mixture-of-Experts aqui é incrivelmente eficiente para 1 trilhão de parameters.

Você obtém reasoning de nível frontier model basicamente por centavos.

Eu o tenho rodando aqui em um Mac Studio usando limite cabeado de controle pseudo cis.

Estamos usando 500 GB de RAM. Nossa velocidade de processamento caiu para cerca de 6,9 tokens por segundo.

Ele realmente escreveu este código, mas não parou. Começou a pensar novamente.

Mesmo com quantization, a coerência lógica deste model continua sendo de elite.

O monólogo interno mostra exatamente onde ele corrige seus próprios erros de coding.

Mais do que apenas prompts

Potencialize seu fluxo de trabalho com Automacao de IA

Automatio combina o poder de agentes de IA, automacao web e integracoes inteligentes para ajuda-lo a realizar mais em menos tempo.

Agentes de IA
Automacao Web
Fluxos Inteligentes
Assistir video de demonstracao

Dicas Profissionais para Kimi K2 Thinking

Dicas de especialistas para ajuda-lo a aproveitar ao maximo Kimi K2 Thinking e obter melhores resultados.

Ative as Thinking Tags

Ao rodar localmente via ferramentas como llama.cpp, certifique-se de usar a flag --special para renderizar corretamente os tokens internos <think>.

Otimize a Temperature

Defina a temperature em 1.0 e min_p em 0.01 para os resultados de reasoning mais estáveis e rigorosos.

Clustering de Hardware

Implante a versão com quantization INT4 em um cluster de dois Mac Studio M3 Ultras com RDMA para uma experiência local de 1T sem perdas.

Planejamento de Longo Prazo

Estruture os prompts para solicitar explicitamente um 'plano passo a passo' primeiro para acionar os pontos fortes de busca e aprendizado adaptativo do model.

Depoimentos

O Que Nossos Usuarios Dizem

Junte-se a milhares de usuarios satisfeitos que transformaram seu fluxo de trabalho

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Perguntas Frequentes Sobre Kimi K2 Thinking

Encontre respostas para perguntas comuns sobre Kimi K2 Thinking