Kimi K2.5

Узнайте о Kimi K2.5 от Moonshot AI: open-source agentic model с 1T parameters, нативной поддержкой мультимодальности, context window 262K и SOTA-уровнем...

Agentic AIMultimodalOpen-sourceReasoningMoE
moonshot logomoonshotKimi K-seriesJanuary 27, 2026
Контекст
262Kтокенов
Макс. вывод
33Kтокенов
Цена ввода
$0.60/ 1M
Цена вывода
$2.50/ 1M
Модальность:TextImageVideo
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
87.6%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Kimi K2.5 набрал 87.6% в этом бенчмарке.
HLE
50.2%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Kimi K2.5 набрал 50.2% в этом бенчмарке.
MMLU
92%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Kimi K2.5 набрал 92% в этом бенчмарке.
MMLU Pro
87.1%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Kimi K2.5 набрал 87.1% в этом бенчмарке.
SimpleQA
54%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Kimi K2.5 набрал 54% в этом бенчмарке.
IFEval
94%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Kimi K2.5 набрал 94% в этом бенчмарке.
AIME 2025
96.1%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Kimi K2.5 набрал 96.1% в этом бенчмарке.
MATH
98%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Kimi K2.5 набрал 98% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Kimi K2.5 набрал 99% в этом бенчмарке.
MGSM
96%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Kimi K2.5 набрал 96% в этом бенчмарке.
MathVista
84.2%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Kimi K2.5 набрал 84.2% в этом бенчмарке.
SWE-Bench
76.8%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Kimi K2.5 набрал 76.8% в этом бенчмарке.
HumanEval
99%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Kimi K2.5 набрал 99% в этом бенчмарке.
LiveCodeBench
85%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Kimi K2.5 набрал 85% в этом бенчмарке.
MMMU
84%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Kimi K2.5 набрал 84% в этом бенчмарке.
MMMU Pro
78.5%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Kimi K2.5 набрал 78.5% в этом бенчмарке.
ChartQA
77.5%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Kimi K2.5 набрал 77.5% в этом бенчмарке.
DocVQA
88.8%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Kimi K2.5 набрал 88.8% в этом бенчмарке.
Terminal-Bench
50.8%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Kimi K2.5 набрал 50.8% в этом бенчмарке.
ARC-AGI
12%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Kimi K2.5 набрал 12% в этом бенчмарке.

О модели Kimi K2.5

Узнайте о возможностях, функциях и способах использования Kimi K2.5.

Новый рубеж в Agentic Intelligence

Kimi K2.5 — это flagship open-source agentic model от Moonshot AI, представляющая собой качественный скачок в развитии унифицированного multimodal интеллекта. Построенная на массивной архитектуре Mixture-of-Experts (MoE) с 1 триллионом parameters (32 миллиарда активных parameters), она нативно интегрирует обработку текста, изображений и видео в единую структуру reasoning. В отличие от традиционных LLM, K2.5 разработана специально для автономного выполнения задач и оснащена уникальным режимом Thinking, который позволяет ей самокорректироваться и решать сложные многошаговые проблемы без вмешательства человека.

Архитектурные прорывы

Model представляет революционную функцию «Agent Swarm», которая позволяет системе динамически координировать до 100 параллельных субагентов для решения масштабных исследовательских или инженерных задач. Добившись высочайших результатов в таких benchmarks, как SWE-Bench и AIME 2025, Kimi K2.5 эффективно сокращает разрыв между open-source решениями и проприетарными frontier AI, предлагая элитные возможности за долю их стоимости. Интеграция энкодера MoonViT-3D обеспечивает беспрецедентное понимание видео, охватывающее несколько часов контента с высокой временной точностью.

Непревзойденная эффективность

Помимо чистой мощности, в K2.5 сделан упор на экономическую эффективность. Благодаря агрессивному кэшированию контекста и оптимизированной структуре MoE, она обеспечивает производительность, сопоставимую с самыми дорогими закрытыми моделями, сохраняя при этом конкурентоспособную цену в $0,60 за миллион входных tokens. Это делает её идеальной основой для предприятий, стремящихся развертывать сложные автономные агенты с длинным контекстом в промышленных масштабах.

Kimi K2.5

Варианты использования Kimi K2.5

Откройте для себя различные способы использования Kimi K2.5 для достижения отличных результатов.

Автономная разработка ПО

решение сложных проблем на GitHub и полное клонирование сайтов на основе визуальных набросков интерфейса.

Математика олимпиадного уровня

решение сложных математических доказательств и задач уровня соревнований с точностью более 96% на AIME 2025.

Reasoning по длинным видео

анализ и резюмирование контента из видеороликов длиной до двух часов без потери контекста или временной деградации.

Динамические исследовательские агенты

использование «Agent Swarm» для проведения многопоточных веб-исследований и параллельного синтеза данных из сотен источников.

Генерация эстетичного фронтенда

преобразование нарисованных от руки макетов интерфейса или скриншотов в готовый функциональный код на React с выразительной анимацией.

Автономное управление терминалом

выполнение сложных bash-команд и операций на системном уровне для управления серверными кластерами и средами разработки.

Преимущества

Ограничения

Элитный математический reasoning: результат 96,1% на AIME 2025 превосходит почти все проприетарные модели в чисто логическом выводе.
Требовательность к оборудованию: для локального запуска полной модели на 1T требуется AI-кластер корпоративного уровня с несколькими GPU H100 или B200.
Масштабный параллелизм: функция «Agent Swarm» позволяет задействовать более 100 субагентов, радикально сокращая время выполнения исследовательских задач.
Latency в режиме Thinking: активация режима глубокого reasoning значительно увеличивает время до получения первого token по сравнению со стандартной обработкой.
Единая multimodal архитектура: нативно обрабатывает двухчасовые видео и изображения высокого разрешения без необходимости в отдельных визуальных энкодерах.
Пробелы в знаниях уровня PhD: результат 50,2% в тесте «Humanity's Last Exam» показывает, что есть возможности для улучшения в области высокоуровневой научной экспертизы.
Выгодная экономика tokens: при цене $0,60 за 1 млн входных tokens она примерно в 8–10 раз дешевле сопоставимых frontier models, таких как Claude 4.5.
Регуляторные вопросы: поскольку это китайская model, использование API и суверенитет данных могут подпадать под иные нормативные акты, чем в западных компаниях.

Быстрый старт API

fireworks/kimi-k2p5

Посмотреть документацию
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1'
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [{ role: 'user', content: 'Create a full-stack Next.js dashboard with a dark mode glassmorphism UI.' }],
    max_tokens: 2048,
  });
  console.log(response.choices[0].message.content);
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Kimi K2.5

Посмотрите, что думает сообщество о Kimi K2.5

"Возможности reasoning в задачах AIME 2025 просто безумны для открытой модели."
LogicLover
reddit
"Kimi K2.5 установила новую планку для понимания длинных видео. Наконец-то model, которая не забывает начало ролика."
AI_Pioneer
x
"Использование K2.5 в качестве кодинг-агента меняет правила игры. Её результат в SWE-Bench — это не просто цифра, компетентность реально чувствуется."
DevGuru
hackernews
"Китай выпустил Kimi K2.5, и, как по часам, производительность оказалась на уровне американских frontier AI моделей."
BasedTorba
x
"Kimi из Китая только что разрушила мечту OpenAI о триллионном бизнесе... в 8 раз дешевле."
nrqa__
x
"Kimi K2.5 — первая model, которая ощущается как настоящий второй пилот, а не просто окошко чата."
CodeWizard
reddit

Видео о Kimi K2.5

Смотрите обучающие материалы, обзоры и обсуждения о Kimi K2.5

Тестируя задачи AIME, Kimi K2.5 решила почти все правильно, даже те, с которыми не справилась GPT-4o.

В задачах по кодингу agentic возможности — это явно то, в чем эта model превосходит стандартные LLM.

Сам факт появления open-source модели с триллионом parameters — это беспрецедентное событие для текущего рынка.

Здесь мы видим обработку логики, которая в моих первых математических тестах соперничала с o1.

Цены на tokens настолько низкие, что это фактически убивает аргументы в пользу закрытых проприетарных моделей для базовых задач.

Способность обрабатывать двухчасовые видео за один раз без потери контекста — это огромный прорыв.

Это не просто чат-model; она с самого начала спроектирована для работы с инструментами и терминалами.

Когда вы запускаете режим Swarm, параллелизм в веб-исследованиях становится просто непревзойденным.

Moonshot AI дает понять всему миру, что у них есть и вычислительные мощности, и таланты.

Видеть, как она работает в живом терминале, чтобы исправить баг, — это и есть будущее автономной инженерии.

Скачок Kimi K2.5 в benchmark BrowseComp говорит о том, что она может перемещаться по вебу с невиданным ранее упорством.

Тот факт, что они объединяют зрение и режимы мышления в одну архитектуру, — вот главная технологическая новость.

Производительность в MMLU и GSM8k доказывает, что качество данных для обучения было высочайшим.

В отличие от предыдущих версий, понимание видео здесь не страдает от временной деградации.

Если вы разработчик, совместимость с OpenAI делает переход на эту model для тестирования практически мгновенным.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы
Смотреть демо

Советы для Kimi K2.5

Экспертные советы для максимальной эффективности Kimi K2.5.

Используйте режим Thinking

явно добавляйте в prompt фразу «Think step-by-step», чтобы активировать режим reasoning для сложных логических, математических или кодинг-задач.

Преимущество контекста видео

используйте энкодер MoonViT-3D для обработки очень длинных видео; model отлично справляется с поиском конкретных деталей в двухчасовых записях.

Оркестрация агентов

для крупных проектов используйте функцию swarm, позволяя K2.5 разбивать задачи на подзадачи для более быстрого выполнения.

Экономия на кэшировании

структурируйте свои API-запросы так, чтобы использовать агрессивное кэширование контекста Moonshot, это поможет снизить затраты на входные tokens до 75%.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
deepseek

DeepSeek-V3.2-Speciale

deepseek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M

Часто задаваемые вопросы о Kimi K2.5

Найдите ответы на частые вопросы о Kimi K2.5