moonshot

Kimi K2 Thinking

Kimi K2 Thinking es el modelo de reasoning de 1 billón de parameters de Moonshot AI. Supera a GPT-5 en HLE y admite 300 tool calls secuenciales de forma...

moonshot logomoonshotKimi K26 de noviembre de 2025
Contexto
256Ktokens
Salida máx.
16Ktokens
Precio entrada
$0.15/ 1M
Precio salida
$0.15/ 1M
Modalidad:Text
Capacidades:HerramientasStreamingRazonamiento
Benchmarks
GPQA
93%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Kimi K2 Thinking obtuvo 93% en este benchmark.
HLE
44.9%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Kimi K2 Thinking obtuvo 44.9% en este benchmark.
MMLU
90%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Kimi K2 Thinking obtuvo 90% en este benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Kimi K2 Thinking obtuvo 78% en este benchmark.
SimpleQA
55%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Kimi K2 Thinking obtuvo 55% en este benchmark.
IFEval
92%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Kimi K2 Thinking obtuvo 92% en este benchmark.
AIME 2025
99.1%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Kimi K2 Thinking obtuvo 99.1% en este benchmark.
MATH
99.1%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Kimi K2 Thinking obtuvo 99.1% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Kimi K2 Thinking obtuvo 99% en este benchmark.
MGSM
95%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Kimi K2 Thinking obtuvo 95% en este benchmark.
MathVista
75%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Kimi K2 Thinking obtuvo 75% en este benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Kimi K2 Thinking obtuvo 71.3% en este benchmark.
HumanEval
83%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Kimi K2 Thinking obtuvo 83% en este benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Kimi K2 Thinking obtuvo 83.1% en este benchmark.
MMMU
80%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Kimi K2 Thinking obtuvo 80% en este benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Kimi K2 Thinking obtuvo 60% en este benchmark.
ChartQA
88%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Kimi K2 Thinking obtuvo 88% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Kimi K2 Thinking obtuvo 94% en este benchmark.
Terminal-Bench
55%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Kimi K2 Thinking obtuvo 55% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Kimi K2 Thinking obtuvo 12% en este benchmark.

Acerca de Kimi K2 Thinking

Conoce las capacidades, características y formas de uso de Kimi K2 Thinking.

Mixture of Experts de un billón de parameters

Kimi K2 Thinking es un modelo de reasoning de 1 billón de parameters que utiliza una arquitectura de Mixture-of-Experts (MoE). Desarrollado por Moonshot AI y lanzado a finales de 2025, activa solo 32B de parameters para la inference, lo que equilibra una capacidad de conocimiento masiva con eficiencia computacional. Está diseñado específicamente como un agente pensante que escala su cómputo durante la fase de inference para resolver problemas lógicos complejos. Este enfoque permite al modelo reflexionar sobre su propio reasoning y corregir errores antes de proporcionar una respuesta final.

Uso de herramientas y planificación agentic

El modelo se distingue por su capacidad para manejar hasta 300 tool calls secuenciales de forma autónoma. Mientras que la mayoría de los modelos de lenguaje estándar tienen dificultades con la planificación a largo plazo, K2 Thinking está diseñado para flujos de trabajo agentic como la navegación web autónoma y la ingeniería de software de múltiples pasos. Admite de forma nativa precisión INT4 mediante Quantization-Aware Training, lo que permite al modelo mantener un rendimiento de nivel frontier mientras se ejecuta en clústeres de hardware empresarial estándar.

Enfoque en desarrolladores e investigación

Con un context window de 256K tokens, el modelo está diseñado para la investigación profunda y tareas técnicas complejas. Cierra la brecha de rendimiento entre los sistemas de código cerrado y los modelos de pesos abiertos. Su capacidad para resolver preguntas científicas de nivel doctorado y problemas matemáticos de competencia lo convierte en una opción adecuada para la investigación académica, asistentes de programación automatizados y aplicaciones de reasoning de alta fidelidad donde la coherencia lógica es el requisito principal.

Kimi K2 Thinking

Casos de uso de Kimi K2 Thinking

Descubre las diferentes formas de usar Kimi K2 Thinking para lograr excelentes resultados.

Ingeniería de software compleja

Resolución de issues de GitHub reales y arquitectura de bases de código con múltiples archivos utilizando autocorrección iterativa.

Agentes de investigación autónomos

Ejecución de cientos de tool calls secuenciales para recopilar y sintetizar datos técnicos complejos.

Matemáticas de nivel olímpico

Resolución de problemas avanzados de geometría y álgebra con una verificación profunda de chain-of-thought.

Investigación científica de nivel doctorado

Respuesta a preguntas de expertos en física y biología que requieren una deducción lógica de múltiples pasos.

Control interactivo de computadoras

Navegación en entornos de terminal e infraestructura en la nube para automatizar flujos de trabajo de devops.

Escritura creativa basada en lógica

Generación de contenido de formato largo que requiere un cumplimiento estricto de reglas complejas de construcción de mundos.

Fortalezas

Limitaciones

Reasoning de vanguardia (state-of-the-art): Obtiene un 44,9 % en HLE con herramientas, superando a los principales modelos de código cerrado en lógica a nivel experto.
Requisitos de recursos masivos: La inference local requiere al menos 245 GB de VRAM incluso con cuantización, lo que limita su uso a clústeres de servidores de alta gama.
Profundidad agentic excepcional: Capaz de realizar 300 tool calls secuenciales, lo que permite una investigación web y tareas de navegación verdaderamente autónomas.
Latencia de respuesta inherente: El proceso de pensamiento profundo resulta en tiempos de espera significativos a medida que el modelo escala su cómputo en tiempo de prueba.
Precisión matemática de primer nivel: Alcanza un 94,5 % en AIME 2025, demostrando su fiabilidad para la resolución de problemas matemáticos de alto nivel.
Falta de multimodalidad nativa: Esta variante no puede procesar entradas de imagen o video directamente, requiriendo un modelo de visión separado para tareas multimodales.
Accesibilidad de pesos abiertos: Ofrece inteligencia de nivel frontier a la comunidad de desarrolladores para implementación local y fine-tuning.
Alta sobrecarga de tokens: Los pasos de reasoning internos consumen una gran cantidad de tokens de salida, lo que aumenta los costos de API para consultas simples.

Inicio rápido de API

moonshot/kimi-k2-thinking

Ver documentación
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Design a system for autonomous code review using 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Kimi K2 Thinking

Mira lo que la comunidad piensa sobre Kimi K2 Thinking

Kimi K2.5 es el mejor modelo abierto para programación, realmente se lucieron.
npc_gooner
reddit
Moonshot AI acaba de lanzar Kimi K2 Thinking. ¿300 tool calls secuenciales? Ese es el futuro de la IA agentic.
@tech_trends
twitter
Kimi lanzó Kimi K2 Thinking, un modelo de reasoning de 1 billón de parameters de código abierto. Esto es algo serio.
nekofneko
reddit
El hecho de que pueda manejar 300 tool calls secuenciales abre flujos de trabajo de agentes completamente nuevos.
AI Explained
youtube
Es impresionante ver un modelo open-source alcanzando estos números. El enfoque de escalado en tiempo de prueba claramente está dando sus frutos.
jsmith23
hackernews
Ejecutar este modelo localmente es un desafío, pero la profundidad de reasoning es diferente a cualquier otra cosa en el espacio de pesos abiertos.
LocalLlamaEnthusiast
reddit

Videos sobre Kimi K2 Thinking

Mira tutoriales, reseñas y discusiones sobre Kimi K2 Thinking

Kimi K2 Thinking es el mejor modelo de IA que he usado.

Es el modelo independiente más agentic jamás creado. Es decir, puede ejecutarse durante horas por sí solo.

Es capaz de pensar y reflexionar en cada paso del camino, por lo que nunca se pierde.

La velocidad de reasoning es sorprendentemente rápida a pesar del billón de parameters.

Si estás construyendo agentes, esta es la arquitectura que quieres considerar.

Kimi K2 Thinking... es una mejora de pensamiento para el modelo Kimi K2, que sinceramente parece ser ampliamente valorado.

Este es, por supuesto, un modelo open-source... con un tamaño total de alrededor de 1 billón de parameters.

Todos los resultados de los benchmark se reportan bajo precisión int4.

Maneja problemas matemáticos complejos con un nivel de lógica que rivaliza con los mejores laboratorios propietarios.

El proceso de instalación de los pesos locales es bastante sencillo si tienes la VRAM.

Kimi K2.5 es el último modelo open-source desarrollado por una empresa china llamada Moonshot AI.

Es capaz de poner en marcha hasta 100 sub-agentes y 1.500 tool calls y ejecutarlos simultáneamente.

Ciertamente lo recomendaría si quieres crear un sitio web verdaderamente hermoso.

El chain-of-thought interno le permite corregir errores de código por sí mismo antes de proporcionar la respuesta final.

Moonshot se ha centrado realmente en la planificación a largo plazo para este lanzamiento específico.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Kimi K2 Thinking

Consejos de expertos para ayudarte a sacar el máximo provecho de Kimi K2 Thinking.

Habilitar la salida de Thinking

Utiliza el flag de tokens especiales en tu motor de inference para ver los pasos de reasoning internos del modelo.

Optimizar la temperatura

Configura la temperatura de muestreo a 1.0 y min_p a 0.01 para obtener el flujo de reasoning más consistente.

Utilizar System Prompts

Comienza las conversaciones con el prompt de identidad oficial de Moonshot AI para estabilizar el comportamiento del modelo.

Escalar el cómputo en tiempo de prueba

Permite que el modelo genere más tokens internos para problemas más difíciles y así aumentar la precisión.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre Kimi K2 Thinking

Encuentra respuestas a preguntas comunes sobre Kimi K2 Thinking