moonshot

Kimi K2 Thinking

Kimi K2 Thinking은 Moonshot AI의 1조 parameter 규모 reasoning model입니다. HLE benchmark에서 GPT-5를 능가하며, 개발자를 위해 300회의 연속적인 자율 tool call을 지원합니다.

moonshot logomoonshotKimi2025-11-06
컨텍스트
256K토큰
최대 출력
16K토큰
입력 가격
$0.15/ 1M
출력 가격
$0.15/ 1M
모달리티:Text
기능:도구스트리밍추론
벤치마크
GPQA
93%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. Kimi K2 Thinking이 이 벤치마크에서 93%점을 기록했습니다.
HLE
44.9%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 44.9%점을 기록했습니다.
MMLU
90%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 90%점을 기록했습니다.
MMLU Pro
78%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. Kimi K2 Thinking이 이 벤치마크에서 78%점을 기록했습니다.
SimpleQA
55%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 55%점을 기록했습니다.
IFEval
92%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. Kimi K2 Thinking이 이 벤치마크에서 92%점을 기록했습니다.
AIME 2025
99.1%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. Kimi K2 Thinking이 이 벤치마크에서 99.1%점을 기록했습니다.
MATH
99.1%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 99.1%점을 기록했습니다.
GSM8k
99%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. Kimi K2 Thinking이 이 벤치마크에서 99%점을 기록했습니다.
MGSM
95%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. Kimi K2 Thinking이 이 벤치마크에서 95%점을 기록했습니다.
MathVista
75%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 75%점을 기록했습니다.
SWE-Bench
71.3%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. Kimi K2 Thinking이 이 벤치마크에서 71.3%점을 기록했습니다.
HumanEval
83%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. Kimi K2 Thinking이 이 벤치마크에서 83%점을 기록했습니다.
LiveCodeBench
83.1%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 83.1%점을 기록했습니다.
MMMU
80%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 80%점을 기록했습니다.
MMMU Pro
60%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. Kimi K2 Thinking이 이 벤치마크에서 60%점을 기록했습니다.
ChartQA
88%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 88%점을 기록했습니다.
DocVQA
94%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 94%점을 기록했습니다.
Terminal-Bench
55%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 55%점을 기록했습니다.
ARC-AGI
12%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 12%점을 기록했습니다.

Kimi K2 Thinking 소개

Kimi K2 Thinking의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

1조 Parameters 규모의 오픈 인텔리전스

Kimi K2 Thinking은 오픈소스 인텔리전스의 경계를 재정의한 Moonshot AI의 획기적인 1조 parameters reasoning model입니다. 2025년 11월에 출시된 이 모델은 총 1T parameters 규모의 정교한 Mixture-of-Experts(MoE) 아키텍처를 활용하며, inference 시에는 32B만 활성화하여 강력한 성능과 연산 효율성을 동시에 달성했습니다. 일반적인 언어 모델과 달리 K2 Thinking은 'thinking agent'로 설계되어, 깊은 논리적 reasoning, 계획 수립 및 자율적 tool use를 위해 test-time computation을 확장합니다.

Agentic 역량과 확장성

이 model은 특히 agentic 능력으로 유명하며, 인간의 개입 없이 최대 300회의 연속적인 tool call을 성공적으로 수행합니다. 이는 복잡한 리서치, 경쟁 프로그래밍 및 다단계 기술 워크플로우에 있어 강력한 선택지가 됩니다. Quantization-Aware Training을 통해 네이티브 INT4 정밀도를 활용함으로써, Moonshot AI는 이 거대한 model이 일반적인 하드웨어 클러스터에서도 실행될 수 있게 함과 동시에 핵심 reasoning 및 브라우징 benchmark에서 GPT-5 및 Claude 4.5와 같은 closed-source 거물들을 압도하도록 만들었습니다.

개발자 중심의 아키텍처

전 세계 개발자 커뮤니티를 위해 설계된 Kimi K2-Thinking은 타의 추종을 불허하는 가성비를 제공합니다. 256K의 방대한 context window와 광범위한 chain-of-thought 프로세싱 지원을 통해, 로컬 특화 model과 엔터프라이즈급 클라우드 API 사이의 간극을 메웁니다. 이 모델의 학습 방법론은 long-horizon planning에 초점을 맞추고 있어, 결과물을 반복적으로 반추하고 수정하며 최적화할 수 있습니다.

Kimi K2 Thinking

Kimi K2 Thinking 사용 사례

Kimi K2 Thinking을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

자율적 리서치

수백 개의 연속적인 tool call과 반복적인 정보 검증이 필요한 심층 웹 조사를 수행합니다.

과학적 문제 해결

Python 도구 실행 및 chain-of-thought 프로세싱을 통해 박사 학위 수준의 수학 및 물리학 문제를 해결합니다.

경쟁 프로그래밍

Codeforces 및 LeetCode와 같은 플랫폼의 고난도 알고리즘 문제를 박사 급 정확도로 해결합니다.

복잡한 코드 디버깅

광범위한 reasoning 단계를 통해 방대한 멀티 파일 코드베이스의 논리적 오류를 식별하고 수정합니다.

법률 및 컴플라이언스 분석

256K context window를 활용하여 긴 기술 또는 법률 문서를 검토하고 미세한 리스크나 모순점을 찾아냅니다.

agentic AI 자동화

인간의 개입 없이도 몇 시간 동안 스스로 계획하고 실행하며, 결과를 반추하고 다듬는 자율 에이전트를 구동합니다.

강점

제한

깊이 있는 agentic 능력: 성능 저하 없이 200~300개의 연속적인 tool call을 관리할 수 있는 유일한 open weights model입니다.
텍스트 전용 입력: 이미지, 비디오 또는 오디오 파일을 직접 처리할 수 있는 네이티브 multimodal 비전 기능이 현재 부족합니다.
state-of-the-art reasoning: 강력한 test-time scaling을 통해 Humanity's Last Exam(HLE) 및 BrowseComp에서 GPT-5 및 Claude 4.5를 능가합니다.
방대한 RAM 요구 사항: 전체 1T 아키텍처를 로컬에 배포하려면 500GB 이상의 RAM 또는 분산형 Mac 클러스터가 필요합니다.
비교할 수 없는 비용 효율성: 100만 tokens당 0.15달러의 단일 가격으로, 폐쇄형 API 비용의 일부만으로 frontier급 지능을 제공합니다.
초기 token 지연 시간: 집중적인 내부 reasoning 단계로 인해 reasoning 기능이 없는 LLM에 비해 첫 번째 token 생성(TTFT)까지 시간이 더 걸립니다.
네이티브 INT4 최적화: Quantization-Aware Training을 통한 네이티브 quantization으로 일반 하드웨어에서의 로컬 inference 속도를 2배 향상했습니다.
reasoning의 장황함: 비교적 간단한 질문에 대해서도 지나치게 긴 chain-of-thought 시퀀스를 생성할 수 있습니다.

API 빠른 시작

moonshot/kimi-k2-thinking

문서 보기
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

Kimi K2 Thinking에 대한 사람들의 의견

커뮤니티가 Kimi K2 Thinking에 대해 어떻게 생각하는지 확인하세요

"Kimi K2 Thinking은 제가 사용해 본 최고의 AI 모델입니다... hallucinations가 전혀 없고 수백 번의 tool call을 완벽히 수행합니다."
Alex Finn
youtube
"token 비용이 급감함에 따라 closed-source와 open-source 사이의 격차가 계속 좁혀지고 있습니다."
Emad Mostaque
x
"Moonshot K2-Thinking은 300회의 tool call을 통해 로컬 지능형 에이전트의 정의를 다시 쓰고 있습니다."
Brian Roemmele
x
"드디어 답변하기 전에 prompt의 논리를 실제로 깊이 생각하는 모델이 나왔네요!"
ai_user_2025
reddit
"중국은 Kimi 시리즈를 통해 open-source open weights의 경계를 정말로 확장하고 있습니다."
Nathan Lambert
x
"경쟁력 있는 수학 문제 풀이 성능이 정말 놀랍습니다."
MathWizard
hackernews

Kimi K2 Thinking에 대한 동영상

Kimi K2 Thinking에 대한 튜토리얼, 리뷰 및 토론 시청

지금까지 만들어진 것 중 가장 독립적인 agentic 모델입니다.

매 단계마다 생각하고 반추할 수 있어서 절대 길을 잃지 않습니다.

비용 효율성이 매우 뛰어납니다. ChatGPT 5 가격의 절반, Claude 3.5 Sonnet 가격의 약 10분의 1 수준이죠.

일반적인 LLM들이 빠지기 쉬운 논리적 함정을 잘 피해 갑니다.

Moonshot은 open weights의 접근성 측면에서 판도를 바꾸고 있습니다.

인간의 개입 없이 최대 200~300개의 연속적인 tool call을 실행할 수 있습니다.

K2 thinking은 BrowseComp에서 60.2%를 기록하며 인간의 기준선인 29.2%를 크게 앞질렀습니다.

중국이 open-source open weights 분야의 frontier를 정말 강력하게 밀어붙이고 있습니다.

1조 parameters 규모임에도 불구하고 Mixture-of-Experts 구현이 믿을 수 없을 정도로 효율적입니다.

사실상 헐값에 frontier급 reasoning 능력을 얻는 셈입니다.

Mac Studio에서 가상 컨트롤 유선 제한을 사용해 실행 중입니다.

현재 500GB의 RAM을 사용하고 있습니다. 처리 속도는 초당 6.9 tokens 정도로 느려졌네요.

코드를 작성한 뒤 멈추지 않고 다시 reasoning 과정을 시작했습니다.

quantization 적용 후에도 이 model의 논리적 일관성은 최상위 수준입니다.

내부 독백(internal monologue)을 통해 코딩 오류를 스스로 수정하는 과정을 정확히 보여줍니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로
데모 영상 보기

Kimi K2 Thinking 프로 팁

Kimi K2 Thinking을 최대한 활용하기 위한 전문가 팁.

Thinking Tags 활성화

llama.cpp와 같은 도구를 통해 로컬에서 실행할 때, 내부 <think> tokens가 올바르게 렌더링되도록 --special 플래그를 사용하세요.

Temperature 최적화

가장 안정적이고 엄밀한 reasoning 결과를 얻으려면 temperature를 1.0으로, min_p를 0.01로 설정하세요.

하드웨어 클러스터링

손실 없는 1T 로컬 경험을 위해 RDMA로 연결된 두 대의 Mac Studio M3 Ultra 클러스터에 INT4 quantization 버전을 배포하세요.

Long-Horizon Planning

prompt 구성 시 처음에 명시적으로 '단계별 계획(step-by-step plan)'을 요청하여 model의 적응형 학습과 검색 강점을 유도하세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Kimi K2 Thinking에 대한 자주 묻는 질문

Kimi K2 Thinking에 대한 일반적인 질문에 대한 답변 찾기