moonshot

Kimi K2 Thinking

Kimi K2 Thinking es el model de reasoning de un billón de parámetros de Moonshot AI. Supera a GPT-5 en el benchmark HLE y admite 300 llamadas secuenciales a...

moonshot logomoonshotKimi2025-11-06
Contexto
256Ktokens
Salida máx.
16Ktokens
Precio entrada
$0.15/ 1M
Precio salida
$0.15/ 1M
Modalidad:Text
Capacidades:HerramientasStreamingRazonamiento
Benchmarks
GPQA
93%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Kimi K2 Thinking obtuvo 93% en este benchmark.
HLE
44.9%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Kimi K2 Thinking obtuvo 44.9% en este benchmark.
MMLU
90%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Kimi K2 Thinking obtuvo 90% en este benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Kimi K2 Thinking obtuvo 78% en este benchmark.
SimpleQA
55%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Kimi K2 Thinking obtuvo 55% en este benchmark.
IFEval
92%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Kimi K2 Thinking obtuvo 92% en este benchmark.
AIME 2025
99.1%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Kimi K2 Thinking obtuvo 99.1% en este benchmark.
MATH
99.1%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Kimi K2 Thinking obtuvo 99.1% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Kimi K2 Thinking obtuvo 99% en este benchmark.
MGSM
95%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Kimi K2 Thinking obtuvo 95% en este benchmark.
MathVista
75%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Kimi K2 Thinking obtuvo 75% en este benchmark.
SWE-Bench
71.3%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Kimi K2 Thinking obtuvo 71.3% en este benchmark.
HumanEval
83%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Kimi K2 Thinking obtuvo 83% en este benchmark.
LiveCodeBench
83.1%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Kimi K2 Thinking obtuvo 83.1% en este benchmark.
MMMU
80%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Kimi K2 Thinking obtuvo 80% en este benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Kimi K2 Thinking obtuvo 60% en este benchmark.
ChartQA
88%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Kimi K2 Thinking obtuvo 88% en este benchmark.
DocVQA
94%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Kimi K2 Thinking obtuvo 94% en este benchmark.
Terminal-Bench
55%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Kimi K2 Thinking obtuvo 55% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Kimi K2 Thinking obtuvo 12% en este benchmark.

Acerca de Kimi K2 Thinking

Conoce las capacidades, características y formas de uso de Kimi K2 Thinking.

Inteligencia abierta de un billón de parameters

Kimi K2 Thinking es un revolucionario model de reasoning de un billón de parameters de Moonshot AI que ha redefinido los límites de la inteligencia open-source. Lanzado en noviembre de 2025, utiliza una sofisticada arquitectura Mixture-of-Experts (MoE) con un total de 1T parameters —activando solo 32B para la inference— lo que lo hace notablemente potente y eficiente en términos computacionales. A diferencia de los modelos de lenguaje estándar, K2 Thinking está diseñado como un "agente pensante", escalando la computación en test-time para realizar un reasoning lógico profundo, planificación y uso autónomo de herramientas.

Destreza agentic y escalabilidad

El model es particularmente reconocido por sus capacidades agentic, ejecutando con éxito hasta 300 llamadas secuenciales a herramientas sin intervención humana. Esto lo convierte en una opción formidable para la investigación compleja, la programación competitiva y los flujos de trabajo técnicos de múltiples pasos. Al utilizar de forma nativa la precisión INT4 mediante Quantization-Aware Training, Moonshot AI ha permitido que este model masivo se ejecute en clústeres de hardware accesibles, superando a gigantes de closed-source como GPT-5 y Claude 4.5 en benchmarks críticos de reasoning y navegación.

Arquitectura orientada al desarrollador

Diseñado para la comunidad global de desarrolladores, Kimi K2-Thinking ofrece métricas de costo-rendimiento inigualables. Con un context window masivo de 256K y soporte para un extenso procesamiento de chain-of-thought, cierra la brecha entre los modelos especializados locales y las API de nube de grado empresarial. Su metodología de entrenamiento se centra en la planificación de largo horizonte, permitiendo que el model reflexione, corrija y optimice sus resultados de manera iterativa.

Kimi K2 Thinking

Casos de uso de Kimi K2 Thinking

Descubre las diferentes formas de usar Kimi K2 Thinking para lograr excelentes resultados.

Investigación autónoma

Ejecución de consultas web profundas que requieren cientos de llamadas secuenciales a herramientas y verificación iterativa de información.

Resolución de problemas científicos

Abordaje de consultas de matemáticas y física de nivel de doctorado utilizando la ejecución de herramientas de Python y procesamiento de chain-of-thought.

Programación competitiva

Resolución de desafíos algorítmicos de alta dificultad en plataformas como Codeforces y LeetCode con precisión de nivel de doctorado.

Depuración de código complejo

Identificación y corrección de errores lógicos en bases de código masivas de múltiples archivos a través de pasos de reasoning exhaustivos de alto horizonte.

Análisis legal y de cumplimiento

Revisión de documentos técnicos o legales extensos a través de un context window de 256K para identificar riesgos sutiles o contradicciones.

Automatización de AI agentic

Impulso de agentes autónomos que pueden planificar, actuar, reflexionar y perfeccionar sus propios resultados durante horas sin intervención humana.

Fortalezas

Limitaciones

Profundidad agentic: El único model de pesos abiertos capaz de gestionar entre 200 y 300 llamadas secuenciales a herramientas sin degradación del rendimiento.
Entrada solo de texto: Actualmente carece de soporte nativo de visión multimodal para procesar archivos directos de imagen, video o audio.
Reasoning state-of-the-art: Supera a GPT-5 y Claude 4.5 en Humanity's Last Exam (HLE) y BrowseComp mediante un escalado intensivo en el test-time.
Requisitos masivos de RAM: El despliegue local de la arquitectura completa de 1T requiere más de 500GB de RAM o clústeres distribuidos de Mac.
Eficiencia de costos inigualable: Con un precio fijo de $0.15 por 1M de tokens, ofrece inteligencia de frontier model a una fracción del costo de las API propietarias.
Latency del token inicial: La fase intensiva de reasoning interno conlleva un tiempo de primer token más lento en comparación con los LLM que no utilizan este método.
Optimización nativa INT4: La cuantización nativa mediante Quantization-Aware Training proporciona un aumento de velocidad de 2x para la inference local en hardware accesible.
Verbosidad del reasoning: El model puede generar secuencias de chain-of-thought excesivamente largas incluso para consultas relativamente sencillas.

Inicio rápido de API

moonshot/kimi-k2-thinking

Ver documentación
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'Eres Kimi, una AI de reasoning de Moonshot AI.' },
      { role: 'user', content: 'Resuelve la tarea de verificación de la prueba de la Hipótesis de Riemann.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Kimi K2 Thinking

Mira lo que la comunidad piensa sobre Kimi K2 Thinking

"Kimi K2 Thinking es el mejor model de AI que he usado... sin alucinaciones y con cientos de llamadas a herramientas."
Alex Finn
youtube
"La brecha entre closed y open continúa estrechándose incluso cuando el costo de los tokens se desploma."
Emad Mostaque
x
"Moonshot K2-Thinking está redefiniendo los agentes inteligentes locales con 300 llamadas a herramientas."
Brian Roemmele
x
"¡Finalmente un model que realmente piensa en la lógica del prompt antes de responder!"
ai_user_2025
reddit
"China realmente está impulsando la frontera del open-source y los pesos abiertos con la serie Kimi."
Nathan Lambert
x
"Rendimiento absolutamente asombroso en problemas matemáticos competitivos."
MathWizard
hackernews

Videos sobre Kimi K2 Thinking

Mira tutoriales, reseñas y discusiones sobre Kimi K2 Thinking

Este es el model independiente más agentic jamás creado.

Es capaz de pensar y reflexionar en cada paso del camino. Así que nunca se pierde.

Es extremadamente rentable... la mitad del precio de ChatGPT-5 y aproximadamente una décima parte del precio de Sonnet 4.5.

Logra evitar las trampas lógicas comunes de los LLM estándar.

Moonshot realmente está cambiando las reglas del juego para la accesibilidad de los pesos abiertos.

Puede ejecutar hasta 200 o 300 llamadas secuenciales a herramientas sin interferencia humana.

K2 Thinking logró una puntuación del 60.2%, superando significativamente la base humana del 29.2% en BrowseComp.

China realmente está impulsando la frontera del open-source y los pesos abiertos.

La implementación de Mixture-of-Experts aquí es increíblemente eficiente para un billón de parameters.

Obtienes reasoning de nivel de frontier model básicamente por centavos.

Lo tengo funcionando aquí en un Mac Studio usando un control cableado con límite.

Estamos usando 500 GB de RAM. Nuestra velocidad de procesamiento ha bajado a unos 6.9 tokens por segundo.

De hecho, escribió este código, pero no se detuvo. Empezó a pensar de nuevo.

Incluso con la cuantización, la coherencia lógica de este model sigue siendo de élite.

El monólogo interno muestra exactamente dónde corrige sus propios errores de programación.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro para Kimi K2 Thinking

Consejos de expertos para ayudarte a sacar el máximo provecho de Kimi K2 Thinking.

Activa las Thinking Tags

Al ejecutarlo localmente mediante herramientas como llama.cpp, asegúrate de usar el flag --special para renderizar correctamente los tokens internos <think>.

Optimiza la temperature

Ajusta la temperature a 1.0 y min_p a 0.01 para obtener los resultados de reasoning más estables y rigurosos.

Clústeres de Hardware

Despliega la versión con cuantización INT4 en un clúster de dos Mac Studio M3 Ultra con RDMA para una experiencia local de 1T sin pérdidas.

Planificación de largo alcance

Estructura los prompts para solicitar explícitamente un 'plan paso a paso' primero, activando así las capacidades de búsqueda y aprendizaje adaptativo del model.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Preguntas Frecuentes Sobre Kimi K2 Thinking

Encuentra respuestas a preguntas comunes sobre Kimi K2 Thinking