moonshot

Kimi K2.5

Откройте для себя Kimi K2.5 от Moonshot AI — 1T-параметрическую open-source агентную модель с нативными мультимодальными возможностями, 262K context window и...

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi27 января 2026 г.
Контекст
256Kтокенов
Макс. вывод
66Kтокенов
Цена ввода
$0.60/ 1M
Цена вывода
$3.00/ 1M
Модальность:TextImageVideo
Возможности:ЗрениеИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
87.6%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Kimi K2.5 набрал 87.6% в этом бенчмарке.
HLE
50.2%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Kimi K2.5 набрал 50.2% в этом бенчмарке.
MMLU
91.5%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Kimi K2.5 набрал 91.5% в этом бенчмарке.
MMLU Pro
87.1%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Kimi K2.5 набрал 87.1% в этом бенчмарке.
SimpleQA
48%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Kimi K2.5 набрал 48% в этом бенчмарке.
IFEval
85%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Kimi K2.5 набрал 85% в этом бенчмарке.
AIME 2025
96.1%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Kimi K2.5 набрал 96.1% в этом бенчмарке.
MATH
90.1%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Kimi K2.5 набрал 90.1% в этом бенчмарке.
GSM8k
97.1%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Kimi K2.5 набрал 97.1% в этом бенчмарке.
MGSM
95%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Kimi K2.5 набрал 95% в этом бенчмарке.
MathVista
90.1%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Kimi K2.5 набрал 90.1% в этом бенчмарке.
SWE-Bench
76.8%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Kimi K2.5 набрал 76.8% в этом бенчмарке.
HumanEval
88%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Kimi K2.5 набрал 88% в этом бенчмарке.
LiveCodeBench
85%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Kimi K2.5 набрал 85% в этом бенчмарке.
MMMU
78.5%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Kimi K2.5 набрал 78.5% в этом бенчмарке.
MMMU Pro
78.5%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Kimi K2.5 набрал 78.5% в этом бенчмарке.
ChartQA
77.5%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Kimi K2.5 набрал 77.5% в этом бенчмарке.
DocVQA
88.8%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Kimi K2.5 набрал 88.8% в этом бенчмарке.
Terminal-Bench
50.8%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Kimi K2.5 набрал 50.8% в этом бенчмарке.
ARC-AGI
12%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Kimi K2.5 набрал 12% в этом бенчмарке.

О модели Kimi K2.5

Узнайте о возможностях, функциях и способах использования Kimi K2.5.

Kimi K2.5 — это open-source мультимодальная модель от Moonshot AI. Она использует архитектуру Mixture-of-Experts на 1 триллион параметров, из которых 32 миллиарда активны на каждый token. Система объединяет обработку текста, изображений и видео через единую структуру рассуждений, вместо использования отдельных внешних энкодеров для каждой модальности. Такая архитектура позволяет модели обрабатывать 256 000 tokens контекста, сохраняя высокую точность извлечения и логическую последовательность на очень длинных отрезках.

Модель выделяется своими возможностями Agent Swarm. Эта функция позволяет системе координировать до 100 параллельных под-агентов для одновременного выполнения сложных исследовательских или инженерных задач. Интегрируя энкодер MoonViT-3D на 400 млн параметров, K2.5 может анализировать многочасовой видеоконтент с высокой временной точностью. Она специально разработана для автономного выполнения задач, превосходя многие проприетарные модели на агентных бенчмарках, таких как SWE-Bench и BrowseComp.

Kimi K2.5 предоставляет специальный режим Thinking для задач, требующих глубокой логики. При его включении модель генерирует внутреннюю цепочку рассуждений для самокоррекции и проверки шагов перед выдачей окончательного ответа. Это делает ее высокоэффективной в математике олимпиадного уровня и крупномасштабной разработке ПО. Экономика использования tokens оптимизирована для корпоративного внедрения, предлагая интеллект уровня frontier за долю стоимости конкурирующих closed-source систем.

Kimi K2.5

Варианты использования Kimi K2.5

Откройте для себя различные способы использования Kimi K2.5 для достижения отличных результатов.

Автономная разработка ПО

Решение сложных проблем в GitHub и создание архитектуры проектов с несколькими файлами с использованием логики, оптимизированной под SWE-Bench.

Визуальная веб-разработка

Создание функционального кода фронтенда и UI-дизайнов непосредственно на основе записи экрана взаимодействия с существующим веб-сайтом.

Многопоточные исследования

Использование Agent Swarm для сканирования и синтеза информации из более чем 100 источников в рамках единого параллельного рабочего процесса.

Анализ длинных видео

Извлечение конкретных событий и временных данных из многочасовых записей безопасности или лекций без использования инструментов извлечения кадров.

Генерация математических доказательств

Применение режима deep thinking для решения математических задач уровня олимпиад с точностью 96 процентов.

Автоматизация корпоративной документации

Создание многостраничных отчетов в PDF и сложных финансовых таблиц на основе неструктурированных бизнес-данных.

Преимущества

Ограничения

Элитная Agentic производительность: Набирает 76.8 баллов на SWE-Bench Verified, опережая многие проприетарные frontier models в задачах программной инженерии.
Экстремальные требования к локальной VRAM: Требует 632 ГБ VRAM для полной неквантованной модели, что делает локальное развертывание невозможным для большинства потребителей.
Непревзойденная экономика tokens: Предоставляет интеллект MoE на 1T parameters по цене $0.60 за миллион входных tokens, что составляет примерно 10 процентов от стоимости Claude Opus.
Более высокая latency reasoning: Режим thinking может вызывать значительные задержки, так как модель генерирует цепочки внутренней логики перед ответом.
Нативное понимание видео: Обрабатывает сложные видеофайлы без внешнего извлечения кадров, обеспечивая точный временной анализ длинных записей.
Повторяемость форматирования: Может генерировать чрезмерно длинные полотна текста, если не задать строгие инструкции по использованию конкретных структур абзацев.
Параллельная оркестрация Swarm: Единственная open-source модель, обученная координировать до 100 под-агентов для масштабных многопоточных исследовательских задач.
Вопросы локализации данных: Основная инфраструктура находится в Китае, что может создавать проблемы соответствия требованиям для некоторых западных компаний.

Быстрый старт API

fireworks/kimi-k2p5

Посмотреть документацию
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Kimi K2.5

Посмотрите, что думает сообщество о Kimi K2.5

Kimi K2.5 стоит почти в 10 раз меньше, чем Opus, при схожем уровне производительности.
Odd_Tumbleweed574
reddit
Люди забывают, что Nvidia потеряла 600 миллиардов долларов, когда китайская лаборатория выложила в open-source что-то значимое. Kimi делает это снова с интеллектом уровня frontier.
chetaslua
twitter
Концепция Attention Residuals в K2.5 — это первое архитектурное изменение за долгие годы, которое действительно решает проблему забывчивости LLM.
logic_king
hackernews
Workers AI теперь запускает большие модели. Kimi K2.5 — первая. Это одна из лучших open-source моделей, к тому же отлично подходит для кодинга.
dok2001
twitter
Kimi K2.5 — это совсем другой зверь. Это умная и невероятная модель для ролевых игр, но она может стать невротичной, если не использовать пресеты сообщества.
dptgreg
reddit
Я заменил свой рабочий процесс на GPT 4 на Kimi K2.5, потому что режим thinking прозрачнее, а context window справляется со всем моим репозиторием.
Dev_Max
reddit

Видео о Kimi K2.5

Смотрите обучающие материалы, обзоры и обсуждения о Kimi K2.5

Kimi K2.5 побеждает GPT 5.2 благодаря глубокому мышлению, просто уничтожая другие Frontier модели.

На сегодняшний день это самая сильная open-source модель для программирования с результатом 76.8 на SWE Verified.

Agent swarm — это переход от единичного агента к многоагентным параллельным рабочим процессам, охватывающим до 1500 скоординированных шагов.

Context window просто огромен — 256k tokens, чего более чем достаточно для большинства проектов.

Moonshot действительно расширяет границы возможностей open-source весов в начале 2026 года.

Она действительно попала в эстетику дизайна Apple и создала красивый веб-сайт с анимациями прямо из видео.

Функция Swarm выглядит очень круто, и ей определенно весело пользоваться, так как она назначает ID-значки каждому под-агенту.

K2.5 намного дешевле: 60 центов за миллион входных tokens и 3 доллара за миллион выходных.

Нативная обработка видео означает, что вам не нужно использовать дорогие внешние инструменты для обработки кадров.

Эта модель меняет правила игры для разработчиков, которым нужны автономные агенты при ограниченном бюджете.

Moonshot добилась этого, предоставляя каждому под-агенту вознаграждения на отдельных критических этапах, чтобы предотвратить крах последовательности.

Модель учится выбирать параллелизм только тогда, когда это сокращает критический путь — это очень умная инновация.

Kimi K2.5 находится на грани того, чтобы быть запущенной на потребительском оборудовании с использованием GGUF.

Режим thinking невероятно надежен для решения сложных логических ошибок в Python.

Выпуск модели с 1 триллионом parameters — это огромное событие для open-source сообщества.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Kimi K2.5

Экспертные советы для максимальной эффективности Kimi K2.5.

Включение режима Thinking

Передавайте параметр thinking в своем API-запросе для достижения максимальной точности в математических задачах и программировании.

Запуск Agent Swarm

Поручите модели развернуть swarm для исследовательских задач, чтобы задействовать параллельную оркестрацию под-агентов.

Оптимизация temperature

Используйте temperature 1.0 для режима thinking, чтобы обеспечить разнообразие рассуждений, но снижайте ее до 0.6 для стандартного чата.

Совместные Vision-промпты

Загружайте скриншоты ошибок вместе с фрагментами кода, чтобы использовать преимущества единого обучения модели в области текста и vision.

Context Caching

Используйте context caching для повторяющихся длинных документов, чтобы сократить расходы на ввод данных до 90 процентов.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Часто задаваемые вопросы о Kimi K2.5

Найдите ответы на частые вопросы о Kimi K2.5

Kimi K2.5: 1T Agent Swarm модель по цене $0.60 за миллион входных tokens