moonshot

Kimi K2 Thinking

Kimi K2 Thinking은 Moonshot AI의 1조 parameter reasoning 모델입니다. HLE에서 기존 모델들을 능가하며, 300개의 순차적 tool call을 자율적으로 수행합니다.

moonshot logomoonshotKimi K22025년 11월 6일
컨텍스트
256K토큰
최대 출력
16K토큰
입력 가격
$0.15/ 1M
출력 가격
$0.15/ 1M
모달리티:Text
기능:도구스트리밍추론
벤치마크
GPQA
93%
GPQA: 대학원 수준 과학 Q&A. 생물학, 물리학, 화학 분야의 448개 객관식 문제로 구성된 엄격한 벤치마크. 박사 전문가도 65-74%의 정확도만 달성합니다. Kimi K2 Thinking이 이 벤치마크에서 93%점을 기록했습니다.
HLE
44.9%
HLE: 고급 전문 추론. 전문 분야에서 전문가 수준의 추론을 보여주는 모델의 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 44.9%점을 기록했습니다.
MMLU
90%
MMLU: 대규모 다중 작업 언어 이해. 57개 학술 과목에 걸쳐 16,000개의 객관식 문제로 구성된 종합 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 90%점을 기록했습니다.
MMLU Pro
78%
MMLU Pro: MMLU 프로페셔널 에디션. 더 어려운 10지선다형 형식의 12,032개 문제를 포함하는 MMLU의 향상된 버전. Kimi K2 Thinking이 이 벤치마크에서 78%점을 기록했습니다.
SimpleQA
55%
SimpleQA: 사실 정확성 벤치마크. 직접적인 질문에 정확하고 사실적인 응답을 제공하는 모델의 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 55%점을 기록했습니다.
IFEval
92%
IFEval: 지시 따르기 평가. 모델이 특정 지시와 제약 조건을 얼마나 잘 따르는지 측정합니다. Kimi K2 Thinking이 이 벤치마크에서 92%점을 기록했습니다.
AIME 2025
99.1%
AIME 2025: 미국 초청 수학 시험. 명문 AIME 시험의 경쟁 수준 수학 문제. Kimi K2 Thinking이 이 벤치마크에서 99.1%점을 기록했습니다.
MATH
99.1%
MATH: 수학 문제 해결. 대수, 기하, 미적분 등의 분야를 테스트하는 종합 수학 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 99.1%점을 기록했습니다.
GSM8k
99%
GSM8k: 초등학교 수학 8K. 다단계 추론이 필요한 8,500개의 초등학교 수준 수학 문장제. Kimi K2 Thinking이 이 벤치마크에서 99%점을 기록했습니다.
MGSM
95%
MGSM: 다국어 초등학교 수학. GSM8k 벤치마크를 10개 언어로 번역한 것. Kimi K2 Thinking이 이 벤치마크에서 95%점을 기록했습니다.
MathVista
75%
MathVista: 수학적 시각 추론. 차트, 그래프 등 시각적 요소가 포함된 수학 문제를 푸는 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 75%점을 기록했습니다.
SWE-Bench
71.3%
SWE-Bench: 소프트웨어 엔지니어링 벤치마크. AI 모델이 오픈소스 Python 프로젝트의 실제 GitHub 이슈를 해결하려고 시도합니다. Kimi K2 Thinking이 이 벤치마크에서 71.3%점을 기록했습니다.
HumanEval
83%
HumanEval: Python 프로그래밍 문제. 모델이 올바른 Python 함수 구현을 생성해야 하는 164개의 수작업 프로그래밍 문제. Kimi K2 Thinking이 이 벤치마크에서 83%점을 기록했습니다.
LiveCodeBench
83.1%
LiveCodeBench: 라이브 코딩 벤치마크. 지속적으로 업데이트되는 실제 프로그래밍 챌린지에서 코딩 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 83.1%점을 기록했습니다.
MMMU
80%
MMMU: 멀티모달 이해. 대학 수준 문제에서 비전-언어 모델을 테스트하는 대규모 다분야 멀티모달 이해 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 80%점을 기록했습니다.
MMMU Pro
60%
MMMU Pro: MMMU 프로페셔널 에디션. 더 도전적인 문제와 더 엄격한 평가를 갖춘 MMMU의 향상된 버전. Kimi K2 Thinking이 이 벤치마크에서 60%점을 기록했습니다.
ChartQA
88%
ChartQA: 차트 질문 응답. 차트와 그래프에 제시된 정보를 이해하고 추론하는 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 88%점을 기록했습니다.
DocVQA
94%
DocVQA: 문서 시각 Q&A. 문서 이미지에서 정보를 추출하는 능력을 테스트하는 문서 시각 질문 응답 벤치마크. Kimi K2 Thinking이 이 벤치마크에서 94%점을 기록했습니다.
Terminal-Bench
55%
Terminal-Bench: 터미널/CLI 작업. 명령줄 작업을 수행하고 셸 스크립트를 작성하는 능력을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 55%점을 기록했습니다.
ARC-AGI
12%
ARC-AGI: 추상화 및 추론. AGI를 위한 추상화 및 추론 코퍼스 - 새로운 패턴 인식 퍼즐로 유동 지능을 테스트합니다. Kimi K2 Thinking이 이 벤치마크에서 12%점을 기록했습니다.

Kimi K2 Thinking 소개

Kimi K2 Thinking의 기능, 특징 및 더 나은 결과를 얻는 방법에 대해 알아보세요.

1조 parameter 규모의 Mixture of Experts

Kimi K2 Thinking은 Mixture-of-Experts (MoE) 아키텍처를 활용하는 1조 parameter 규모의 reasoning 모델입니다. 2025년 후반에 출시된 이 모델은 inference 시 320억 개의 parameter만 활성화하여 방대한 지식 용량과 계산 효율성 사이의 균형을 맞췄습니다. 이 모델은 complex 논리 문제를 해결하기 위해 inference 단계에서 계산량을 확장하는 thinking agent로 설계되었습니다. 이러한 접근 방식을 통해 모델은 최종 답변을 내놓기 전에 스스로의 reasoning을 성찰하고 오류를 수정할 수 있습니다.

Agentic Tool 사용 및 계획

이 모델은 최대 300개의 순차적 tool call을 자율적으로 처리할 수 있는 능력으로 차별화됩니다. 일반적인 언어 모델들이 long-horizon 계획 수립에 어려움을 겪는 반면, K2 Thinking은 자율적인 웹 브라우징이나 다단계 소프트웨어 엔지니어링과 같은 agentic 워크플로우를 위해 설계되었습니다. Quantization-Aware Training을 통해 INT4 정밀도를 기본 지원하며, 이를 통해 표준 엔터프라이즈 하드웨어 클러스터에서도 frontier 수준의 성능을 유지할 수 있습니다.

개발자 및 연구 중심

256K token의 context window를 갖춘 이 모델은 심층 연구 및 복잡한 기술 작업에 최적화되어 있습니다. closed-source 시스템과 open-weights 모델 사이의 성능 격차를 해소합니다. 박사 수준의 과학 질문과 경쟁 수준의 수학 문제를 해결하는 능력은 학술 연구, 자동화된 코딩 어시스턴트 및 논리적 일관성이 최우선인 high-fidelity reasoning 애플리케이션에 적합한 선택지입니다.

Kimi K2 Thinking

Kimi K2 Thinking 사용 사례

Kimi K2 Thinking을 사용하여 훌륭한 결과를 얻는 다양한 방법을 발견하세요.

복잡한 소프트웨어 엔지니어링

반복적인 자체 교정(self-correction)을 사용하여 실제 GitHub 이슈를 해결하고 다중 파일 코드베이스를 설계합니다.

자율 연구 Agent

수백 개의 순차적 tool call을 실행하여 방대한 기술 데이터를 수집하고 종합합니다.

올림피아드 수준의 수학

심층적인 chain-of-thought 검증을 통해 고급 기하학 및 대수학 문제를 해결합니다.

박사 수준의 과학 탐구

다단계 논리적 추론이 필요한 물리학 및 생물학 분야의 전문가 수준 질문에 답변합니다.

인터랙티브 컴퓨터 제어

터미널 환경과 클라우드 인프라를 탐색하여 devops 워크플로우를 자동화합니다.

논리 중심의 창작 글쓰기

복잡한 세계관 규칙을 엄격하게 준수해야 하는 장문의 콘텐츠를 생성합니다.

강점

제한

최첨단(State-of-the-Art) Reasoning: 도구 사용 환경에서 HLE 44.9%를 기록하며, 전문가 수준의 논리 영역에서 주요 closed-source 모델들을 능가합니다.
엄청난 자원 요구 사항: 로컬 inference 시 양자화를 적용해도 최소 245GB의 VRAM이 필요하여 고급 서버 클러스터로 사용이 제한됩니다.
뛰어난 Agentic 심도: 300개의 순차적 tool call을 수행할 수 있어 진정한 자율 웹 연구 및 브라우저 작업이 가능합니다.
내재된 응답 Latency: 심층적인 thinking 과정으로 인해 모델이 test-time computation을 확장함에 따라 상당한 대기 시간이 발생합니다.
최고 수준의 수학적 정확도: AIME 2025에서 94.5%를 달성하여 고난도 수학 문제 해결에 대한 신뢰성을 입증했습니다.
네이티브 Multimodality 부재: 이 버전은 이미지나 비디오 입력을 직접 처리할 수 없으며, multimodal 작업을 위해 별도의 vision 모델이 필요합니다.
Open-Weights 접근성: 개발자 커뮤니티에 frontier model 수준의 지능을 제공하여 로컬 배포 및 fine-tuning을 지원합니다.
높은 token 오버헤드: 내부 reasoning 단계가 많은 양의 output token을 소비하므로 간단한 쿼리에도 API 비용이 증가합니다.

API 빠른 시작

moonshot/kimi-k2-thinking

문서 보기
moonshot SDK
import OpenAI from 'openai';

const client = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.cn/v1',
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [{ role: 'user', content: '300개의 tool call을 사용하는 자율 코드 리뷰 시스템을 설계하세요.' }],
  });
  console.log(response.choices[0].message.content);
}

main();

SDK를 설치하고 몇 분 안에 API 호출을 시작하세요.

Kimi K2 Thinking에 대한 사람들의 의견

커뮤니티가 Kimi K2 Thinking에 대해 어떻게 생각하는지 확인하세요

Kimi K2.5는 코딩을 위한 최고의 open 모델입니다. 정말 대단합니다.
npc_gooner
reddit
Moonshot AI가 Kimi K2 Thinking을 출시했습니다. 300개의 순차적 tool call이라니? 이것이 agentic AI의 미래입니다.
@tech_trends
twitter
Kimi가 open-source 1조 parameter reasoning 모델인 Kimi K2 Thinking을 출시했습니다. 진짜가 나타났습니다.
nekofneko
reddit
300개의 tool call을 순차적으로 처리할 수 있다는 사실은 완전히 새로운 agent 워크플로우의 가능성을 엽니다.
AI Explained
youtube
open-source 모델이 이 정도 수치를 기록하는 것은 인상적입니다. test-time scaling 접근 방식이 확실히 성과를 내고 있습니다.
jsmith23
hackernews
이 모델을 로컬에서 실행하는 것은 도전적인 일이지만, reasoning의 깊이는 open weights 공간에서 독보적입니다.
LocalLlamaEnthusiast
reddit

Kimi K2 Thinking에 대한 동영상

Kimi K2 Thinking에 대한 튜토리얼, 리뷰 및 토론 시청

Kimi K2 Thinking은 제가 사용해 본 최고의 AI 모델입니다.

지금까지 만들어진 모델 중 가장 자율적인 agentic 모델입니다. 즉, 몇 시간 동안 스스로 실행될 수 있습니다.

모든 단계에서 생각하고 성찰할 수 있어 길을 잃지 않습니다.

1조 개의 parameters에도 불구하고 reasoning 속도가 놀라울 정도로 빠릅니다.

agent를 구축 중이라면 이 아키텍처를 주목해야 합니다.

Kimi K2 Thinking...은 널리 인정받는 Kimi K2 모델의 thinking 업그레이드 버전입니다.

물론 1조 개의 parameters를 가진 open-source 모델입니다.

모든 benchmark 결과는 int4 정밀도로 보고됩니다.

최상위 proprietary 연구소 수준의 논리로 복잡한 수학 문제를 처리합니다.

VRAM만 충분하다면 로컬 가중치 설치 과정은 매우 간단합니다.

Kimi K2.5는 Moonshot AI라는 중국 기업에서 개발한 최신 open-source 모델입니다.

최대 100개의 sub-agent와 1,500개의 tool call을 동시에 실행할 수 있습니다.

정말 아름다운 웹사이트를 만들고 싶다면 강력히 추천합니다.

내부 chain-of-thought를 통해 최종 답변을 제공하기 전에 코드 오류를 스스로 교정합니다.

Moonshot은 이번 릴리스에서 장기 계획(long-horizon planning)에 정말 집중했습니다.

단순한 프롬프트 이상

워크플로를 강화하세요 AI 자동화

Automatio는 AI 에이전트, 웹 자동화 및 스마트 통합의 힘을 결합하여 더 짧은 시간에 더 많은 것을 달성할 수 있도록 도와줍니다.

AI 에이전트
웹 자동화
스마트 워크플로

Kimi K2 Thinking 프로 팁

Kimi K2 Thinking을 최대한 활용하기 위한 전문가 팁.

Thinking Output 활성화

inference engine의 special tokens 플래그를 사용하여 모델의 내부 reasoning 단계를 확인하세요.

Temperature 최적화

가장 일관된 reasoning 흐름을 위해 sampling temperature를 1.0으로, min_p를 0.01로 설정하세요.

System Prompts 활용

모델의 동작을 안정화하기 위해 Moonshot AI 공식 identity prompt로 대화를 시작하세요.

Test-Time Compute 확장

더 어려운 문제의 경우 모델이 더 많은 내부 token을 생성하도록 허용하여 정확도를 높이세요.

후기

사용자 후기

워크플로를 혁신한 수천 명의 만족한 사용자와 함께하세요

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

관련 AI Models

openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3.1 Pro

Google

Gemini 3.1 Pro is Google's elite multimodal model featuring the DeepThink reasoning engine, a 1M+ context window, and industry-leading ARC-AGI logic scores.

1M context
$2.00/$12.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Kimi K2 Thinking에 대한 자주 묻는 질문

Kimi K2 Thinking에 대한 일반적인 질문에 대한 답변 찾기