moonshot

Kimi K2 Thinking

Kimi K2 Thinking — это reasoning model от Moonshot AI с 1T параметров. Она превосходит GPT-5 в benchmark HLE и поддерживает до 300 последовательных...

moonshot logomoonshotKimi2025-11-06
Контекст
256Kтокенов
Макс. вывод
16Kтокенов
Цена ввода
$0.15/ 1M
Цена вывода
$0.15/ 1M
Модальность:Text
Возможности:ИнструментыПотоковая передачаРассуждение
Бенчмарки
GPQA
93%
GPQA: Научные вопросы уровня докторантуры. Строгий бенчмарк с 448 вопросами с множественным выбором по биологии, физике и химии, созданными экспертами в данных областях. Эксперты с PhD достигают лишь 65-74% точности, в то время как неспециалисты набирают только 34% даже при неограниченном доступе в интернет (отсюда название 'устойчивый к Google'). Kimi K2 Thinking набрал 93% в этом бенчмарке.
HLE
44.9%
HLE: Рассуждение высокого уровня экспертизы. Тестирует способность модели демонстрировать рассуждения экспертного уровня в специализированных областях. Оценивает глубокое понимание сложных тем, требующих знаний профессионального уровня. Kimi K2 Thinking набрал 44.9% в этом бенчмарке.
MMLU
90%
MMLU: Массовое многозадачное языковое понимание. Комплексный бенчмарк с 16 000 вопросами с множественным выбором по 57 академическим предметам, включая математику, философию, право и медицину. Тестирует широкие знания и способности к рассуждению. Kimi K2 Thinking набрал 90% в этом бенчмарке.
MMLU Pro
78%
MMLU Pro: MMLU профессиональная версия. Улучшенная версия MMLU с 12 032 вопросами в более сложном формате с 10 вариантами ответа. Охватывает математику, физику, химию, право, инженерию, экономику, здравоохранение, психологию, бизнес, биологию, философию и информатику. Kimi K2 Thinking набрал 78% в этом бенчмарке.
SimpleQA
55%
SimpleQA: Бенчмарк фактической точности. Тестирует способность модели давать точные, фактические ответы на прямые вопросы. Измеряет надежность и снижает галлюцинации в задачах извлечения знаний. Kimi K2 Thinking набрал 55% в этом бенчмарке.
IFEval
92%
IFEval: Оценка следования инструкциям. Измеряет, насколько хорошо модель следует конкретным инструкциям и ограничениям. Тестирует способность соблюдать правила форматирования, ограничения длины и другие явные требования. Kimi K2 Thinking набрал 92% в этом бенчмарке.
AIME 2025
99.1%
AIME 2025: Американский пригласительный математический экзамен. Математические задачи соревновательного уровня с престижного экзамена AIME, предназначенного для талантливых старшеклассников. Тестирует продвинутое математическое решение задач, требующее абстрактного мышления, а не просто сопоставления паттернов. Kimi K2 Thinking набрал 99.1% в этом бенчмарке.
MATH
99.1%
MATH: Решение математических задач. Комплексный математический бенчмарк, тестирующий решение задач по алгебре, геометрии, анализу и другим математическим областям. Требует многошагового рассуждения и формальных математических знаний. Kimi K2 Thinking набрал 99.1% в этом бенчмарке.
GSM8k
99%
GSM8k: Математика начальной школы 8K. 8 500 математических задач уровня начальной школы, требующих многошагового рассуждения. Тестирует базовую арифметику и логическое мышление через жизненные сценарии, такие как покупки или расчет времени. Kimi K2 Thinking набрал 99% в этом бенчмарке.
MGSM
95%
MGSM: Многоязычная математика начальной школы. Бенчмарк GSM8k, переведенный на 10 языков, включая испанский, французский, немецкий, русский, китайский и японский. Тестирует математическое рассуждение на разных языках. Kimi K2 Thinking набрал 95% в этом бенчмарке.
MathVista
75%
MathVista: Математическое визуальное рассуждение. Тестирует способность решать математические задачи, включающие визуальные элементы, такие как графики, геометрические диаграммы и научные рисунки. Сочетает визуальное понимание с математическим рассуждением. Kimi K2 Thinking набрал 75% в этом бенчмарке.
SWE-Bench
71.3%
SWE-Bench: Бенчмарк программной инженерии. ИИ-модели пытаются решить реальные проблемы GitHub в проектах Python с открытым исходным кодом с человеческой верификацией. Тестирует практические навыки программной инженерии на производственных кодовых базах. Лучшие модели улучшились с 4,4% в 2023 до более 70% в 2024. Kimi K2 Thinking набрал 71.3% в этом бенчмарке.
HumanEval
83%
HumanEval: Задачи программирования на Python. 164 вручную написанные задачи программирования, где модели должны генерировать правильные реализации функций Python. Каждое решение проверяется юнит-тестами. Лучшие модели теперь достигают более 90% точности. Kimi K2 Thinking набрал 83% в этом бенчмарке.
LiveCodeBench
83.1%
LiveCodeBench: Бенчмарк живого кодирования. Тестирует навыки программирования на постоянно обновляемых задачах из реального мира. В отличие от статических бенчмарков, использует свежие задачи для предотвращения загрязнения данных и измерения реальных навыков кодирования. Kimi K2 Thinking набрал 83.1% в этом бенчмарке.
MMMU
80%
MMMU: Мультимодальное понимание. Массовый мультидисциплинарный мультимодальный бенчмарк понимания, тестирующий модели зрения и языка на задачах университетского уровня по 30 предметам, требующим понимания изображений и экспертных знаний. Kimi K2 Thinking набрал 80% в этом бенчмарке.
MMMU Pro
60%
MMMU Pro: MMMU профессиональная версия. Улучшенная версия MMMU с более сложными вопросами и строгой оценкой. Тестирует продвинутое мультимодальное рассуждение на профессиональном и экспертном уровнях. Kimi K2 Thinking набрал 60% в этом бенчмарке.
ChartQA
88%
ChartQA: Вопросы и ответы по диаграммам. Тестирует способность понимать и рассуждать об информации, представленной в диаграммах и графиках. Требует извлечения данных, сравнения значений и выполнения вычислений из визуальных представлений данных. Kimi K2 Thinking набрал 88% в этом бенчмарке.
DocVQA
94%
DocVQA: Визуальные Q&A по документам. Бенчмарк визуальных вопросов и ответов по документам, тестирующий способность извлекать и рассуждать об информации из изображений документов, включая формы, отчеты и отсканированный текст. Kimi K2 Thinking набрал 94% в этом бенчмарке.
Terminal-Bench
55%
Terminal-Bench: Задачи Terminal/CLI. Тестирует способность выполнять операции командной строки, писать shell-скрипты и работать в терминальных средах. Измеряет практические навыки системного администрирования и рабочих процессов разработки. Kimi K2 Thinking набрал 55% в этом бенчмарке.
ARC-AGI
12%
ARC-AGI: Абстракция и рассуждение. Корпус абстракции и рассуждения для AGI - тестирует флюидный интеллект через новые головоломки распознавания паттернов. Каждая задача требует обнаружения базового правила из примеров, измеряя общую способность к рассуждению, а не запоминание. Kimi K2 Thinking набрал 12% в этом бенчмарке.

О модели Kimi K2 Thinking

Узнайте о возможностях, функциях и способах использования Kimi K2 Thinking.

Открытый интеллект с 1T parameters

Kimi K2 Thinking — это революционная reasoning model от Moonshot AI с 1T parameters, которая переопределила границы open-source интеллекта. Выпущенная в ноябре 2025 года, она использует сложную архитектуру Mixture-of-Experts (MoE) с общим количеством 1T parameters, из которых для inference активируются только 32B. Это делает её одновременно невероятно мощной и вычислительно эффективной. В отличие от стандартных языковых моделей, K2 Thinking спроектирована как «thinking agent», масштабирующий вычисления во время test-time для глубокого логического reasoning, планирования и автономного использования инструментов.

Agentic возможности и масштабируемость

Model особенно известна своими agentic способностями, успешно выполняя до 300 последовательных tool calls без участия человека. Это делает её грозным инструментом для комплексных исследований, спортивного программирования и многоэтапных технических рабочих процессов. Используя нативную точность INT4 через Quantization-Aware Training, Moonshot AI позволила этой массивной model работать на доступных hardware clusters, превосходя при этом таких закрытых гигантов, как GPT-5 и Claude 4.5, в критически важных benchmarks на логику и поиск.

Архитектура, ориентированная на разработчиков

Созданная для мирового сообщества разработчиков, Kimi K2-Thinking предлагает непревзойденные показатели соотношения цены и производительности. Благодаря огромному context window в 256K и поддержке расширенного процесса chain-of-thought, она сокращает разрыв между локальными специализированными решениями и облачными API корпоративного уровня. Методология её обучения сфокусирована на долгосрочном планировании, что позволяет model итеративно рефлексировать, исправлять и оптимизировать свои результаты.

Kimi K2 Thinking

Варианты использования Kimi K2 Thinking

Откройте для себя различные способы использования Kimi K2 Thinking для достижения отличных результатов.

Autonomous Research

проведение глубоких исследований в интернете, требующих сотен последовательных tool calls и итеративной проверки информации.

Scientific Problem Solving

решение задач по математике и физике уровня PhD с использованием выполнения кода на Python и цепочек chain-of-thought.

Competitive Programming

решение сложных алгоритмических задач на платформах вроде Codeforces и LeetCode с точностью уровня PhD.

Complex Code Debugging

поиск и исправление логических ошибок в огромных многофайловых кодовых базах через исчерпывающий reasoning с широким горизонтом планирования.

Legal and Compliance Analysis

анализ объемных технических или юридических документов в пределах 256K context window для выявления скрытых рисков или противоречий.

Agentic AI Automation

обеспечение работы автономных agents, которые могут планировать, действовать, рефлексировать и совершенствовать свои результаты часами без участия человека.

Преимущества

Ограничения

Agentic Depth: единственная open-weights model, способная обрабатывать 200–300 последовательных tool calls без снижения производительности.
Только текстовый ввод: на данный момент отсутствует нативная multimodal поддержка зрения для обработки изображений, видео или аудиофайлов.
State-of-the-Art reasoning: превосходит GPT-5 и Claude 4.5 в тестах Humanity's Last Exam (HLE) и BrowseComp благодаря интенсивному масштабированию вычислений во время выполнения (test-time scaling).
Огромные требования к RAM: для локального развертывания полной 1T архитектуры требуется более 500 ГБ RAM или распределенные кластеры Mac.
Непревзойденная экономическая эффективность: при фиксированной цене $0.15 за 1M tokens она предлагает frontier intelligence за ничтожную часть стоимости проприетарных API.
Latency первого token: интенсивная фаза внутреннего reasoning приводит к более долгому времени ожидания первого token по сравнению с LLMs без функций мышления.
Native INT4 optimization: нативная квантование через Quantization-Aware Training обеспечивает двукратный прирост скорости local inference на доступном оборудовании.
Избыточность reasoning: model может генерировать чрезмерно длинные последовательности chain-of-thought даже для относительно простых запросов.

Быстрый старт API

moonshot/kimi-k2-thinking

Посмотреть документацию
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

Установите SDK и начните делать API-запросы за несколько минут.

Что люди говорят о Kimi K2 Thinking

Посмотрите, что думает сообщество о Kimi K2 Thinking

"Kimi K2 Thinking — лучшая AI model, которую я когда-либо использовал... никаких галлюцинаций и сотни tool calls."
Alex Finn
youtube
"Разрыв между closed-source и open-source продолжает сокращаться, в то время как стоимость tokens рушится."
Emad Mostaque
x
"Moonshot K2-Thinking переопределяет возможности локальных интеллектуальных agents с 300 tool calls."
Brian Roemmele
x
"Наконец-то появилась model, которая действительно продумывает логику prompt перед ответом!"
ai_user_2025
reddit
"Китай действительно расширяет границы open-source и open weights с серией Kimi."
Nathan Lambert
x
"Абсолютно потрясающая производительность в сложных математических задачах."
MathWizard
hackernews

Видео о Kimi K2 Thinking

Смотрите обучающие материалы, обзоры и обсуждения о Kimi K2 Thinking

Это самая agentic независимая model из всех когда-либо созданных.

Она способна думать и рефлексировать на каждом этапе пути, поэтому никогда не сбивается.

Она чрезвычайно экономична... вдвое дешевле ChatGPT-5 и примерно в десять раз дешевле Sonnet 4.5.

Ей удается избегать распространенных логических ловушек стандартных LLMs.

Moonshot действительно меняет правила игры в доступности open-weight решений.

Она может выполнять до 200–300 последовательных tool calls без вмешательства человека.

K2 Thinking набрала 60.2% в BrowseComp, значительно превзойдя человеческий базовый уровень в 29.2%.

Китай действительно расширяет границы open-source и open weights.

Реализация Mixture-of-Experts здесь невероятно эффективна для 1T parameters.

Вы получаете reasoning уровня frontier model буквально за копейки.

Я запустил её на Mac Studio, используя проводное ограничение pseudo cis control.

Мы используем 500 ГБ RAM. Скорость обработки упала примерно до 6.9 tokens в секунду.

Она действительно написала этот код, но не остановилась, а снова начала думать.

Даже с квантованием логическая связность этой model остается элитной.

Внутренний монолог точно показывает, в каких местах она исправляет собственные ошибки в коде.

Больше чем просто промпты

Улучшите свой рабочий процесс с ИИ-Автоматизацией

Automatio объединяет мощь ИИ-агентов, веб-автоматизации и умных интеграций, чтобы помочь вам достигать большего за меньшее время.

ИИ Агенты
Веб Автоматизация
Умные Процессы
Смотреть демо

Советы для Kimi K2 Thinking

Экспертные советы для максимальной эффективности Kimi K2 Thinking.

Включите Thinking Tags

при локальном запуске через такие инструменты, как llama.cpp, обязательно используйте флаг --special для корректного отображения внутренних <think> tokens.

Оптимизируйте Temperature

установите temperature на 1.0, а min_p на 0.01 для получения наиболее стабильных и строгих результатов reasoning.

Hardware Clustering

разверните INT4 quantized версию на кластере из двух Mac Studio M3 Ultra с поддержкой RDMA для полноценного локального использования 1T model.

Long-Horizon Planning

структурируйте prompts так, чтобы явно запрашивать «пошаговый план» в начале — это активирует возможности адаптивного обучения и поиска model.

Отзывы

Что Говорят Наши Пользователи

Присоединяйтесь к тысячам довольных пользователей, которые трансформировали свой рабочий процесс

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Похожие AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Часто задаваемые вопросы о Kimi K2 Thinking

Найдите ответы на частые вопросы о Kimi K2 Thinking