moonshot

Kimi K2 Thinking

Kimi K2 Thinking — это reasoning модель Moonshot AI на триллион параметров. Она превосходит GPT-5 в HLE и поддерживает 300 последовательных tool calls для...

moonshot logomoonshotKimi K26 ноября 2025 г.
Контекст
256Kтокенов
Макс. вывод
16Kтокенов
Цена ввода
$0.15/ 1M
Цена вывода
$0.15/ 1M
Модальность:Text
Возможности:ИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
93%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Kimi K2 Thinking набрал 93% в этом бенчмарке.
HLE
44.9%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Kimi K2 Thinking набрал 44.9% в этом бенчмарке.
MMLU
90%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Kimi K2 Thinking набрал 90% в этом бенчмарке.
MMLU Pro
78%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Kimi K2 Thinking набрал 78% в этом бенчмарке.
SimpleQA
55%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Kimi K2 Thinking набрал 55% в этом бенчмарке.
IFEval
92%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Kimi K2 Thinking набрал 92% в этом бенчмарке.
AIME 2025
99.1%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Kimi K2 Thinking набрал 99.1% в этом бенчмарке.
MATH
99.1%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Kimi K2 Thinking набрал 99.1% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Kimi K2 Thinking набрал 99% в этом бенчмарке.
MGSM
95%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Kimi K2 Thinking набрал 95% в этом бенчмарке.
MathVista
75%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Kimi K2 Thinking набрал 75% в этом бенчмарке.
SWE-Bench
71.3%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Kimi K2 Thinking набрал 71.3% в этом бенчмарке.
HumanEval
83%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Kimi K2 Thinking набрал 83% в этом бенчмарке.
LiveCodeBench
83.1%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Kimi K2 Thinking набрал 83.1% в этом бенчмарке.
MMMU
80%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Kimi K2 Thinking набрал 80% в этом бенчмарке.
MMMU Pro
60%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Kimi K2 Thinking набрал 60% в этом бенчмарке.
ChartQA
88%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Kimi K2 Thinking набрал 88% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Kimi K2 Thinking набрал 94% в этом бенчмарке.
Terminal-Bench
55%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Kimi K2 Thinking набрал 55% в этом бенчмарке.
ARC-AGI
12%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Kimi K2 Thinking набрал 12% в этом бенчмарке.

О модели Kimi K2 Thinking

Узнайте о возможностях, функциях и способах использования Kimi K2 Thinking.

Mixture of Experts на триллион параметров

Kimi K2 Thinking, это reasoning модель на триллион параметров, использующая архитектуру Mixture-of-Experts (MoE). Разработанная Moonshot AI и выпущенная в конце 2025 года, она активирует лишь 32B параметров для inference, что позволяет сбалансировать колоссальный объем знаний с вычислительной эффективностью. Она специально разработана как думающий агент, который масштабирует свои вычисления на этапе inference для решения сложных логических задач. Этот подход позволяет модели анализировать свои рассуждения и исправлять ошибки до предоставления финального ответа.

Agentic использование инструментов и планирование

Модель выделяется своей способностью автономно выполнять до 300 последовательных tool calls. В то время как большинство стандартных языковых моделей испытывают трудности с долгосрочным планированием, K2 Thinking спроектирована для agentic рабочих процессов, таких как автономный веб-серфинг и многоэтапная программная инженерия. Она нативно поддерживает точность INT4 посредством Quantization-Aware Training, что позволяет модели сохранять производительность уровня frontier при работе на стандартных серверных кластерах.

Фокус на разработчиках и исследованиях

С context window в 256K tokens модель создана для глубоких исследований и сложных технических задач. Она преодолевает разрыв в производительности между closed-source системами и моделями с открытыми весами. Ее способность отвечать на научные вопросы уровня PhD и решать задачи олимпиадной математики делает ее подходящим выбором для академических исследований, автоматизированных помощников по кодингу и высокоточных приложений, где логическая последовательность является основным требованием.

Kimi K2 Thinking

Варианты использования Kimi K2 Thinking

Откройте для себя различные способы использования Kimi K2 Thinking для достижения отличных результатов.

Сложная программная инженерия

Решение реальных проблем GitHub и проектирование многофайловых кодовых баз с использованием итеративной самокоррекции.

Автономные исследовательские агенты

Выполнение сотен последовательных tool calls для сбора и синтеза редких технических данных.

Математика олимпиадного уровня

Решение продвинутых задач по геометрии и алгебре с глубокой проверкой методом chain-of-thought.

Научные исследования уровня PhD

Ответы на экспертные вопросы по физике и биологии, требующие многошаговых логических дедукций.

Интерактивное управление компьютером

Навигация в терминальной среде и облачной инфраструктуре для автоматизации DevOps процессов.

Творческое письмо с упором на логику

Генерация длинных текстов, требующих строгого соблюдения сложных правил вымышленного мира.

Преимущества

Ограничения

State-of-the-art Reasoning: Набирает 44,9% в HLE с использованием инструментов, превосходя крупные closed-source модели в логике экспертного уровня.
Огромные системные требования: Локальный inference требует минимум 245 ГБ VRAM даже при квантовании, что ограничивает использование серверными кластерами высокого уровня.
Исключительная agentic глубина: Способна выполнять 300 последовательных tool calls, обеспечивая по-настоящему автономный веб-поиск и задачи в браузере.
Внутренняя latency ответов: Глубокий процесс мышления приводит к значительным задержкам, так как модель масштабирует свои вычисления во время выполнения (test-time computation).
Высочайшая математическая точность: Достигает 94,5% в AIME 2025, подтверждая свою надежность при решении математических задач высокого уровня.
Отсутствие встроенной multimodal способности: Этот вариант не может напрямую обрабатывать изображения или видео, требуя отдельной vision модели для таких задач.
Доступность open-weights: Предоставляет интеллект уровня frontier моделям для разработчиков для локального развертывания и fine-tuning.
Высокий расход tokens: Внутренние этапы reasoning потребляют большое количество output tokens, что увеличивает затраты на API при простых запросах.

Быстрый старт API

moonshot/kimi-k2-thinking

Посмотреть документацию
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: 'Разработай систему для автономного code review, используя 300 tool calls.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Kimi K2 Thinking

Посмотрите, что думает сообщество о Kimi K2 Thinking

Kimi K2.5, лучшая открытая модель для кодинга, они реально сделали круто.
npc_gooner
reddit
Moonshot AI только что выпустили Kimi K2 Thinking. 300 последовательных tool calls? Это будущее agentic AI.
@tech_trends
twitter
Kimi выпустили Kimi K2 Thinking, open-source reasoning модель на триллион параметров. Это серьезный игрок.
nekofneko
reddit
Тот факт, что она может обрабатывать 300 tool calls последовательно, открывает совершенно новые рабочие процессы для агентов.
AI Explained
youtube
Впечатляет видеть open-source модель, достигающую таких показателей. Подход с масштабированием test-time явно работает.
jsmith23
hackernews
Запуск этой модели локально, непростая задача, но глубина reasoning не имеет аналогов в пространстве open weights.
LocalLlamaEnthusiast
reddit

Видео о Kimi K2 Thinking

Смотрите обучающие материалы, обзоры и обсуждения о Kimi K2 Thinking

Kimi K2 Thinking, это лучшая AI модель, которой я когда-либо пользовался.

Это самая agentic независимая модель из когда-либо созданных. Она может работать часами самостоятельно.

Она способна думать и анализировать каждый свой шаг, поэтому никогда не теряет нить рассуждений.

Скорость reasoning удивительно высокая, несмотря на триллион параметров.

Если вы создаете агентов, это именно та архитектура, на которую стоит посмотреть.

Kimi K2 Thinking... это обновление для мышления модели Kimi K2, которая, честно говоря, пользуется огромным признанием.

Это, конечно же, open-source модель... с общим размером около 1 триллиона параметров.

Все результаты benchmark указаны для точности int4.

Она решает сложные математические задачи с логикой, которая соперничает с лучшими проприетарными лабораториями.

Процесс установки локальных весов довольно прост, если у вас достаточно VRAM.

Kimi K2.5, это новейшая open-source модель, разработанная китайской компанией Moonshot AI.

Она способна запускать до 100 под-агентов и 1500 tool calls параллельно.

Я бы определенно рекомендовал её, если вы хотите создать по-настоящему красивый веб-сайт.

Внутренний chain-of-thought позволяет ей исправлять ошибки в коде перед выдачей финального ответа.

Moonshot действительно сосредоточились на долгосрочном планировании в этом релизе.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы

Советы для Kimi K2 Thinking

Экспертные советы для максимальной эффективности Kimi K2 Thinking.

Включение вывода Thinking

Используйте специальный флаг tokens в вашем движке inference, чтобы увидеть внутренние этапы reasoning модели.

Оптимизация Temperature

Установите sampling temperature на 1.0 и min_p на 0.01 для наиболее стабильного процесса reasoning.

Использование System Prompts

Начинайте диалог с официального identity prompt от Moonshot AI для стабилизации поведения модели.

Масштабирование test-time compute

Разрешите модели генерировать больше внутренних tokens для сложных задач, чтобы повысить точность.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Часто задаваемые вопросы о Kimi K2 Thinking

Найдите ответы на частые вопросы о Kimi K2 Thinking