moonshot

Kimi K2.5

Descubre Kimi K2.5 de Moonshot AI, un model agentic open-source de 1T de parámetros con capacidades multimodales nativas, context window de 262K y reasoning de...

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi27 de enero de 2026
Contexto
256Ktokens
Salida máx.
66Ktokens
Precio entrada
$0.60/ 1M
Precio salida
$3.00/ 1M
Modalidad:TextImageVideo
Capacidades:VisiónHerramientasStreamingRazonamiento
Benchmarks
GPQA
87.6%
GPQA: Q&A Científico Nivel Posgrado. Un riguroso benchmark con 448 preguntas de opción múltiple en biología, física y química creadas por expertos. Los doctores solo logran 65-74% de precisión, mientras que los no expertos obtienen solo 34% incluso con acceso ilimitado a internet (por eso 'a prueba de Google'). Kimi K2.5 obtuvo 87.6% en este benchmark.
HLE
50.2%
HLE: Razonamiento de Alto Nivel de Experticia. Evalúa la capacidad de un modelo para demostrar razonamiento a nivel experto en dominios especializados. Evalúa la comprensión profunda de temas complejos que requieren conocimiento profesional. Kimi K2.5 obtuvo 50.2% en este benchmark.
MMLU
91.5%
MMLU: Comprensión Masiva Multitarea del Lenguaje. Un benchmark completo con 16,000 preguntas de opción múltiple en 57 materias académicas incluyendo matemáticas, filosofía, derecho y medicina. Evalúa conocimiento amplio y capacidades de razonamiento. Kimi K2.5 obtuvo 91.5% en este benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Edición Profesional. Una versión mejorada de MMLU con 12,032 preguntas usando un formato más difícil de 10 opciones. Cubre Matemáticas, Física, Química, Derecho, Ingeniería, Economía, Salud, Psicología, Negocios, Biología, Filosofía e Informática. Kimi K2.5 obtuvo 87.1% en este benchmark.
SimpleQA
48%
SimpleQA: Benchmark de Precisión Factual. Evalúa la capacidad de un modelo para proporcionar respuestas precisas y factuales a preguntas directas. Mide la fiabilidad y reduce las alucinaciones en tareas de recuperación de conocimiento. Kimi K2.5 obtuvo 48% en este benchmark.
IFEval
85%
IFEval: Evaluación de Seguimiento de Instrucciones. Mide qué tan bien un modelo sigue instrucciones y restricciones específicas. Evalúa la capacidad de adherirse a reglas de formato, límites de longitud y otros requisitos explícitos. Kimi K2.5 obtuvo 85% en este benchmark.
AIME 2025
96.1%
AIME 2025: Examen de Matemáticas Invitacional Americano. Problemas de matemáticas a nivel de competencia del prestigioso examen AIME diseñado para estudiantes talentosos de secundaria. Evalúa resolución avanzada de problemas matemáticos que requiere razonamiento abstracto. Kimi K2.5 obtuvo 96.1% en este benchmark.
MATH
90.1%
MATH: Resolución de Problemas Matemáticos. Un benchmark completo de matemáticas que evalúa la resolución de problemas en álgebra, geometría, cálculo y otros dominios matemáticos. Requiere razonamiento en múltiples pasos y conocimiento matemático formal. Kimi K2.5 obtuvo 90.1% en este benchmark.
GSM8k
97.1%
GSM8k: Matemáticas de Primaria 8K. 8,500 problemas de matemáticas de nivel primaria que requieren razonamiento en múltiples pasos. Evalúa aritmética básica y pensamiento lógico a través de escenarios cotidianos. Kimi K2.5 obtuvo 97.1% en este benchmark.
MGSM
95%
MGSM: Matemáticas de Primaria Multilingüe. El benchmark GSM8k traducido a 10 idiomas incluyendo español, francés, alemán, ruso, chino y japonés. Evalúa el razonamiento matemático en diferentes idiomas. Kimi K2.5 obtuvo 95% en este benchmark.
MathVista
90.1%
MathVista: Razonamiento Visual Matemático. Evalúa la capacidad de resolver problemas matemáticos que involucran elementos visuales como gráficos, diagramas de geometría y figuras científicas. Combina comprensión visual con razonamiento matemático. Kimi K2.5 obtuvo 90.1% en este benchmark.
SWE-Bench
76.8%
SWE-Bench: Benchmark de Ingeniería de Software. Los modelos de IA intentan resolver issues reales de GitHub en proyectos Python de código abierto con verificación humana. Evalúa habilidades prácticas de ingeniería de software. Los mejores modelos pasaron de 4.4% (2023) a más del 70% (2024). Kimi K2.5 obtuvo 76.8% en este benchmark.
HumanEval
88%
HumanEval: Problemas de Programación Python. 164 problemas de programación escritos a mano donde los modelos deben generar implementaciones correctas de funciones Python. Cada solución se verifica con tests unitarios. Los mejores modelos ahora logran más del 90%. Kimi K2.5 obtuvo 88% en este benchmark.
LiveCodeBench
85%
LiveCodeBench: Benchmark de Codificación en Vivo. Evalúa habilidades de codificación con desafíos de programación del mundo real continuamente actualizados. A diferencia de benchmarks estáticos, usa problemas frescos para prevenir contaminación de datos. Kimi K2.5 obtuvo 85% en este benchmark.
MMMU
78.5%
MMMU: Comprensión Multimodal. Benchmark de Comprensión Multimodal Multidisciplinaria Masiva que evalúa modelos de visión-lenguaje en problemas universitarios en 30 materias que requieren tanto comprensión de imágenes como conocimiento experto. Kimi K2.5 obtuvo 78.5% en este benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Edición Profesional. Versión mejorada de MMMU con preguntas más desafiantes y evaluación más estricta. Evalúa razonamiento multimodal avanzado a niveles profesional y experto. Kimi K2.5 obtuvo 78.5% en este benchmark.
ChartQA
77.5%
ChartQA: Respuesta a Preguntas sobre Gráficos. Evalúa la capacidad de comprender y razonar sobre información presentada en gráficos y diagramas. Requiere extracción de datos, comparación de valores y cálculos desde representaciones visuales. Kimi K2.5 obtuvo 77.5% en este benchmark.
DocVQA
88.8%
DocVQA: Q&A Visual de Documentos. Benchmark de Respuesta a Preguntas Visuales de Documentos que evalúa la capacidad de extraer y razonar sobre información de imágenes de documentos incluyendo formularios, reportes y texto escaneado. Kimi K2.5 obtuvo 88.8% en este benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Tareas de Terminal/CLI. Evalúa la capacidad de realizar operaciones de línea de comandos, escribir scripts de shell y navegar en entornos de terminal. Mide habilidades prácticas de administración de sistemas y flujos de trabajo de desarrollo. Kimi K2.5 obtuvo 50.8% en este benchmark.
ARC-AGI
12%
ARC-AGI: Abstracción y Razonamiento. Corpus de Abstracción y Razonamiento para AGI - evalúa inteligencia fluida a través de puzzles de reconocimiento de patrones novedosos. Cada tarea requiere descubrir la regla subyacente a partir de ejemplos, midiendo capacidad de razonamiento general en lugar de memorización. Kimi K2.5 obtuvo 12% en este benchmark.

Acerca de Kimi K2.5

Conoce las capacidades, características y formas de uso de Kimi K2.5.

Kimi K2.5 es un model multimodal open-source de Moonshot AI. Utiliza una arquitectura Mixture-of-Experts (MoE) de 1 billón de parámetros donde 32 mil millones de parámetros están activos por token. El sistema unifica el procesamiento de texto, imágenes y video a través de un framework de razonamiento único en lugar de utilizar codificadores externos independientes para cada modalidad. Esta arquitectura permite al model manejar 256,000 tokens de contexto manteniendo una alta precisión de recuperación y consistencia lógica en secuencias muy largas.

El model destaca por su capacidad Agent Swarm. Esta funcionalidad permite al sistema coordinar hasta 100 sub-agents en paralelo para ejecutar tareas complejas de investigación o ingeniería de forma simultánea. Al integrar un codificador MoonViT-3D de 400M de parámetros, K2.5 puede analizar varias horas de video con precisión temporal. Está diseñado específicamente para la ejecución autónoma, superando a muchos modelos propietarios en benchmarks agentic como SWE-Bench y BrowseComp.

Kimi K2.5 ofrece un Thinking mode dedicado para tareas que requieren una lógica profunda. Cuando se activa, el model genera una cadena de razonamiento interna para autocorregirse y verificar pasos antes de producir una respuesta final. Esto lo hace altamente efectivo para matemáticas de nivel de competición y desarrollo de software a gran escala. Su economía de tokens está optimizada para el despliegue empresarial, ofreciendo inteligencia de nivel frontier a una fracción del costo de los sistemas cerrados de la competencia.

Kimi K2.5

Casos de uso de Kimi K2.5

Descubre las diferentes formas de usar Kimi K2.5 para lograr excelentes resultados.

Ingeniería de Software Autónoma

Resolución de problemas complejos de GitHub y construcción de arquitecturas de proyectos con múltiples archivos mediante lógica optimizada con SWE-Bench.

Desarrollo Web Visual

Creación de código frontend funcional y diseños de UI directamente a partir de grabaciones de pantalla de interacciones en sitios web existentes.

Investigación Multihilo

Uso de Agent Swarm para rastrear y sintetizar información de más de 100 fuentes en un solo flujo de trabajo paralelo.

Análisis de video largo

Extracción de eventos específicos y datos temporales de horas de grabaciones de seguridad o conferencias sin herramientas de extracción de fotogramas.

Generación de pruebas matemáticas

Aplicación del modo de deep thinking para resolver problemas matemáticos de nivel olímpico con una tasa de precisión del 96 por ciento.

Automatización de documentos empresariales

Generación de informes PDF de varias páginas y hojas de cálculo financieras complejas a partir de fuentes de datos empresariales no estructurados.

Fortalezas

Limitaciones

Rendimiento Agentic de élite: Obtiene una puntuación de 76.8 en SWE-Bench Verified, superando a muchos modelos frontier propietarios en tareas de ingeniería de software.
Necesidades extremas de VRAM local: Requiere 632GB de VRAM para el model completo sin cuantizar, haciendo que el despliegue local sea imposible para la mayoría de los usuarios domésticos.
Economía de tokens inigualable: Ofrece inteligencia MoE de 1T de parámetros a $0.60 por millón de input tokens, aproximadamente el 10 por ciento del costo de Claude Opus.
Mayor latencia de reasoning: El modo thinking puede introducir retrasos significativos mientras el model genera cadenas de lógica interna antes de responder.
Comprensión nativa de video: Procesa archivos de video complejos sin extracción externa de fotogramas, permitiendo un análisis temporal preciso de grabaciones largas.
Repetición en el formato: Puede generar bloques de texto excesivamente largos a menos que se le indique estrictamente que utilice estructuras de párrafos específicas.
Orquestación de enjambres paralelos: El único model abierto entrenado para coordinar hasta 100 sub-agents para flujos de trabajo de investigación masivos y multihilo.
Preocupaciones sobre la residencia de datos: La infraestructura principal tiene su sede en China, lo que puede presentar problemas de cumplimiento para ciertas empresas occidentales.

Inicio rápido de API

fireworks/kimi-k2p5

Ver documentación
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Instala el SDK y comienza a hacer llamadas API en minutos.

Lo que la gente dice sobre Kimi K2.5

Mira lo que la comunidad piensa sobre Kimi K2.5

Kimi K2.5 cuesta casi el 10 por ciento de lo que cuesta Opus a un nivel de rendimiento similar.
Odd_Tumbleweed574
reddit
La gente olvida que Nvidia perdió 600 mil millones de dólares cuando un laboratorio chino lanzó algo importante como open-source. Kimi está haciendo lo mismo con inteligencia de frontera.
chetaslua
twitter
El concepto de Attention Residuals en K2.5 es el primer cambio arquitectónico en años que realmente soluciona el problema de olvido de los LLM.
logic_king
hackernews
Workers AI ya ejecuta modelos grandes. Kimi K2.5 primero. Es uno de los mejores modelos open-source que existen, muy bueno también para programar.
dok2001
twitter
Kimi K2.5 es otra bestia. Es un model de RP increíble e inteligente, pero puede volverse neurótico si no usas los ajustes preestablecidos de la comunidad.
dptgreg
reddit
He reemplazado mi flujo de trabajo de GPT 4 con Kimi K2.5 porque el modo thinking es más transparente y la context window maneja todo mi repositorio.
Dev_Max
reddit

Videos sobre Kimi K2.5

Mira tutoriales, reseñas y discusiones sobre Kimi K2.5

Kimi K2.5 supera a GPT 5.2 con su thinking avanzado, destruyendo por completo a otros modelos Frontier.

Es el model de programación open-source más potente hasta la fecha con 76.8 en SWE verified.

El Agent swarm supone un cambio: del agente único al multi-agente ejecutando flujos de trabajo paralelos en hasta 1500 pasos coordinados.

La context window es masiva, con 256k tokens, lo cual es suficiente para la mayoría de los proyectos.

Moonshot realmente está superando los límites de lo que pueden hacer los open weights a principios de 2026.

Realmente captó toda la estética de diseño de Apple y produjo un sitio web atractivo con animaciones solo a partir de un video.

La funcionalidad Swarm parece genial y es muy divertida de usar, ya que asigna insignias de ID a cada sub-agent.

K2.5 es mucho más barato: 60 centavos por millón de input tokens y 3 dólares por millón de output tokens.

El procesamiento nativo de video significa que no tienes que usar herramientas externas costosas para procesar fotogramas.

Este model cambia las reglas del juego para los desarrolladores que necesitan agentes autónomos con un presupuesto limitado.

Moonshot logró esto dando a cada sub-agent recompensas en diferentes etapas críticas del proceso para evitar el colapso serial.

El model aprende a elegir el paralelismo solo cuando acorta el camino crítico, una innovación muy inteligente.

Kimi K2.5 está a punto de poder ejecutarse en hardware de consumo usando GGUF.

El modo thinking es increíblemente robusto para resolver errores lógicos complejos en Python.

Ver el lanzamiento de un model de 1 billón de parámetros de esta manera es enorme para la comunidad open-source.

Mas que solo prompts

Potencia tu flujo de trabajo con Automatizacion IA

Automatio combina el poder de agentes de IA, automatizacion web e integraciones inteligentes para ayudarte a lograr mas en menos tiempo.

Agentes de IA
Automatización Web
Flujos Inteligentes

Consejos Pro para Kimi K2.5

Consejos de expertos para ayudarte a sacar el máximo provecho de Kimi K2.5.

Activa el modo Thinking

Incluye el parámetro thinking en tu solicitud de API para obtener la máxima precisión en tareas de matemáticas y programación.

Inicia un Agent Swarm

Indica al model que despliegue un enjambre (swarm) para tareas de investigación y así forzar la orquestación paralela entre los sub-agents.

Optimiza la Temperature

Utiliza una temperature de 1.0 para el modo thinking y permitir un razonamiento diverso, pero redúcela a 0.6 para chats estándar.

Prompts visuales conjuntos

Sube capturas de pantalla con errores junto a fragmentos de código para aprovechar el entrenamiento unificado de texto-visión del model.

Context Caching

Utiliza context caching para documentos extensos y recurrentes con el fin de reducir los costos de input hasta en un 90 por ciento.

Testimonios

Lo Que Dicen Nuestros Usuarios

Unete a miles de usuarios satisfechos que han transformado su flujo de trabajo

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relacionados AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Preguntas Frecuentes Sobre Kimi K2.5

Encuentra respuestas a preguntas comunes sobre Kimi K2.5