Kimi K2.5

Descubre Kimi K2.5 de Moonshot AI, un model agentic open-source de 1T de parameters con capacidades multimodal nativas, una context window de 262K y reasoning...

Agentic AIMultimodalOpen-sourceReasoningMoE
moonshot logomoonshotKimi K-seriesJanuary 27, 2026
Contexto
262Ktokens
Salida máx.
33Ktokens
Precio entrada
$0.60/ 1M
Precio salida
$2.50/ 1M
Modalidad:TextImageVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
87.6%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Kimi K2.5 obtuvo 87.6% en este benchmark.
HLE
50.2%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Kimi K2.5 obtuvo 50.2% en este benchmark.
MMLU
92%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Kimi K2.5 obtuvo 92% en este benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Kimi K2.5 obtuvo 87.1% en este benchmark.
SimpleQA
54%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Kimi K2.5 obtuvo 54% en este benchmark.
IFEval
94%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Kimi K2.5 obtuvo 94% en este benchmark.
AIME 2025
96.1%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Kimi K2.5 obtuvo 96.1% en este benchmark.
MATH
98%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Kimi K2.5 obtuvo 98% en este benchmark.
GSM8k
99%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Kimi K2.5 obtuvo 99% en este benchmark.
MGSM
96%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Kimi K2.5 obtuvo 96% en este benchmark.
MathVista
84.2%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Kimi K2.5 obtuvo 84.2% en este benchmark.
SWE-Bench
76.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Kimi K2.5 obtuvo 76.8% en este benchmark.
HumanEval
99%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Kimi K2.5 obtuvo 99% en este benchmark.
LiveCodeBench
85%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Kimi K2.5 obtuvo 85% en este benchmark.
MMMU
84%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Kimi K2.5 obtuvo 84% en este benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Kimi K2.5 obtuvo 78.5% en este benchmark.
ChartQA
77.5%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Kimi K2.5 obtuvo 77.5% en este benchmark.
DocVQA
88.8%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Kimi K2.5 obtuvo 88.8% en este benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Kimi K2.5 obtuvo 50.8% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Kimi K2.5 obtuvo 12% en este benchmark.

Acerca de Kimi K2.5

Conoce las capacidades, características y formas de uso de Kimi K2.5.

Una Nueva Frontera en la Inteligencia Agentic

Kimi K2.5 es un flagship model agentic open-source de Moonshot AI, que representa un gran salto en la inteligencia multimodal unificada. Basado en una arquitectura Mixture-of-Experts (MoE) de 1 billón de parameters con 32 mil millones de parameters activos, integra de forma nativa el procesamiento de texto, imagen y video en un único marco de reasoning. A diferencia de los LLM tradicionales, K2.5 está diseñado específicamente para la ejecución autónoma, contando con un modo 'Thinking' único que le permite autocorregirse y razonar a través de problemas complejos de múltiples pasos sin intervención humana.

Avances Arquitectónicos

El model introduce una característica revolucionaria conocida como 'Agent Swarm', que permite al sistema coordinar dinámicamente hasta 100 sub-agents paralelos para resolver tareas masivas de investigación o ingeniería. Al lograr un rendimiento de primer nivel en benchmarks como SWE-Bench y AIME 2025, Kimi K2.5 cierra eficazmente la brecha entre los models open-source y la AI propietaria de frontera, ofreciendo capacidades de élite a una fracción del coste operativo. Su integración del codificador MoonViT-3D permite una comprensión de video sin precedentes, abarcando varias horas de contenido con una alta precisión temporal.

Eficiencia Inigualable

Más allá de la potencia bruta, K2.5 se centra en una economía de tokens sostenible. Mediante el uso de un agresivo almacenamiento en caché de contexto y una estructura MoE altamente optimizada, ofrece un rendimiento que rivaliza con los models propietarios más caros, manteniendo al mismo tiempo un precio altamente competitivo de $0.60 por millón de input tokens. Esto lo convierte en el núcleo ideal para las empresas que buscan desplegar agents autónomos complejos de contexto largo a escala.

Kimi K2.5

Casos de uso de Kimi K2.5

Descubre las diferentes formas de usar Kimi K2.5 para lograr excelentes resultados.

Ingeniería de Software Autónoma

Resolución de problemas complejos en GitHub y clonación de sitios web full-stack a partir de bocetos visuales de UI.

Resolución de Matemáticas de Nivel Olimpiada

Aborda demostraciones matemáticas avanzadas y problemas de nivel de competición con más del 96% de precisión en AIME 2025.

Reasoning de Video de Larga Duración

Análisis y resumen de contenido en videos de hasta dos horas sin pérdida de contexto ni degradación temporal.

Agents de Investigación Dinámicos

Uso de 'Agent Swarm' para realizar investigaciones web multihilo y sintetizar datos de cientos de fuentes en paralelo.

Generación de Frontend Estético

Conversión de wireframes de UI dibujados a mano o capturas de pantalla en código React funcional y pulido con animaciones expresivas.

Control de Terminal Autónomo

Ejecución de comandos bash complejos y operaciones a nivel de sistema para gestionar clusters de servidores y entornos de desarrollo.

Fortalezas

Limitaciones

Reasoning Matemático de Élite: Con una puntuación del 96.1% en AIME 2025, supera a casi todos los models propietarios en deducción lógica pura.
Intensivo en Hardware: Ejecutar el model completo de 1T localmente requiere un cluster de AI de grado empresarial con múltiples GPUs H100 o B200.
Paralelismo Masivo: La capacidad 'Agent Swarm' permite más de 100 sub-agents, reduciendo drásticamente el tiempo de finalización de tareas de investigación.
Latency de Thinking: Activar el modo de reasoning profundo aumenta significativamente el tiempo hasta el primer token en comparación con el procesamiento estándar.
Arquitectura Multimodal Unificada: Procesa nativamente videos de 2 horas e imágenes de alta resolución sin necesidad de codificadores de visión independientes.
Brecha de Conocimiento a Nivel de Doctorado: Su 50.2% en 'Humanity's Last Exam' muestra margen de mejora en experiencia científica de alto nivel.
Economía de Tokens Agresiva: A $0.60 por 1M de input tokens, es aproximadamente 8-10 veces más barato que frontier models comparables como Claude 4.5.
Preocupaciones Regulatorias: Al ser un model chino, el uso de la API y la soberanía de los datos pueden estar sujetos a marcos regulatorios diferentes para empresas occidentales.

Inicio rápido de API

fireworks/kimi-k2p5

Ver documentación
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1'
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [{ role: 'user', content: 'Create a full-stack Next.js dashboard with a dark mode glassmorphism UI.' }],
    max_tokens: 2048,
  });
  console.log(response.choices[0].message.content);
}

main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Kimi K2.5

Mira lo que la comunidad piensa sobre Kimi K2.5

"Las capacidades de reasoning en AIME 2025 son absolutamente locas para un model abierto."
LogicLover
reddit
"Kimi K2.5 acaba de establecer un nuevo estándar para la comprensión de video largo. Finalmente, un model que no olvida el inicio del clip."
AI_Pioneer
x
"Usar K2.5 como agent de programación cambia las reglas del juego. Su puntuación en SWE-Bench no es solo un número, se puede sentir la competencia."
DevGuru
hackernews
"China acaba de lanzar Kimi K2.5 y, como un reloj, el rendimiento está a la par con los frontier AI models estadounidenses."
BasedTorba
x
"Kimi desde China acaba de destruir el sueño de negocio del billón de dólares de OpenAI... 8 veces más barato."
nrqa__
x
"Kimi K2.5 es el primer model que realmente se siente como un co-pilot en lugar de solo un cuadro de chat."
CodeWizard
reddit

Videos sobre Kimi K2.5

Mira tutoriales, reseñas y discusiones sobre Kimi K2.5

Probando los problemas de AIME, Kimi K2.5 acertó casi todo, incluso en los que GPT-4o tuvo dificultades.

Para tareas de programación, las capacidades agentic son claramente donde este model brilla en comparación con los LLM estándar.

La naturaleza open-source de un model de un billón de parameters como este no tiene precedentes en el mercado actual.

Estamos viendo un procesamiento lógico aquí que rivalizó con o1 en mis pruebas iniciales de matemáticas.

El precio de los tokens es tan bajo que elimina efectivamente el argumento de usar models cerrados propietarios para tareas básicas.

La capacidad de procesar videos de dos horas de una sola vez sin perder el contexto es un gran avance.

No es solo un model de chat; está diseñado desde cero para usar herramientas y terminales.

Cuando activas el modo Swarm, el paralelismo para la investigación web es básicamente inigualable.

Esto es Moonshot AI avisando al mundo de que tienen la capacidad de cómputo y el talento.

Verlo navegar por una terminal en vivo para corregir un bug es el futuro de la ingeniería autónoma.

El salto de Kimi K2.5 en el benchmark BrowseComp sugiere que puede navegar por la web con un nivel de persistencia que no habíamos visto.

El hecho de que esté unificando los modos de visión y thinking en una sola arquitectura es la verdadera noticia arquitectónica aquí.

El rendimiento en MMLU y GSM8k demuestra que la calidad de los datos utilizados para el entrenamiento fue de primer nivel.

A diferencia de versiones anteriores, la comprensión de video aquí no sufre de degradación temporal.

Si eres desarrollador, la compatibilidad con OpenAI hace que cambiar a este model para realizar pruebas no requiera casi ningún esfuerzo.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes
Ver video demo

Consejos Pro para Kimi K2.5

Consejos de expertos para ayudarte a sacar el máximo provecho de Kimi K2.5.

Aprovecha el Modo Thinking

Indica explícitamente al model 'Piensa paso a paso' para activar su modo de reasoning en tareas de programación o matemáticas con alta carga lógica.

Ventaja del Contexto de Video

Usa el codificador MoonViT-3D del model para procesar videos extremadamente largos; es excelente encontrando detalles específicos en clips de 2 horas.

Orquestación de Agents

Para proyectos grandes, utiliza la capacidad de swarm para que K2.5 divida las tareas en subtareas y logre una ejecución más rápida.

Ahorros por Cache Hits

Estructura tus llamadas a la API para aprovechar el agresivo almacenamiento en caché de contexto de Moonshot y reducir los costes de entrada hasta en un 75%.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

Preguntas Frecuentes Sobre Kimi K2.5

Encuentra respuestas a preguntas comunes sobre Kimi K2.5