moonshot

Kimi K2 Thinking

Kimi K2 Thinking, Moonshot AI’ın trilyonlarca parametre içeren reasoning modelidir. HLE benchmark testlerinde GPT-5’i geride bırakır ve geliştiriciler için...

moonshot logomoonshotKimi2025-11-06
Bağlam
256Ktoken
Maks. çıktı
16Ktoken
Giriş fiyatı
$0.15/ 1M
Çıkış fiyatı
$0.15/ 1M
Modalite:Text
Yetenekler:AraçlarAkışAkıl Yürütme
Benchmarks
GPQA
93%
GPQA: Doktora Düzeyinde Bilim Soruları. Biyoloji, fizik ve kimya alanlarında uzmanlar tarafından oluşturulmuş 448 çoktan seçmeli soru içeren zorlu bir benchmark. Doktora uzmanları sadece %65-74 doğruluk oranına ulaşırken, uzman olmayanlar sınırsız web erişimiyle bile sadece %34 puan alır (bu yüzden 'Google'a dayanıklı' olarak adlandırılır). Kimi K2 Thinking bu benchmark'ta 93% puan aldı.
HLE
44.9%
HLE: Yüksek Düzey Uzmanlık Akıl Yürütme. Bir modelin özelleşmiş alanlarda uzman düzeyinde akıl yürütme sergileme yeteneğini test eder. Profesyonel düzeyde bilgi gerektiren karmaşık konuların derin anlaşılmasını değerlendirir. Kimi K2 Thinking bu benchmark'ta 44.9% puan aldı.
MMLU
90%
MMLU: Kapsamlı Çoklu Görev Dil Anlama. Matematik, felsefe, hukuk ve tıp dahil 57 akademik konuyu kapsayan 16.000 çoktan seçmeli soru içeren kapsamlı bir benchmark. Geniş bilgi ve akıl yürütme yeteneklerini test eder. Kimi K2 Thinking bu benchmark'ta 90% puan aldı.
MMLU Pro
78%
MMLU Pro: MMLU Profesyonel Sürüm. Daha zor 10 seçenekli format kullanan 12.032 soru içeren geliştirilmiş MMLU sürümü. Matematik, Fizik, Kimya, Hukuk, Mühendislik, Ekonomi, Sağlık, Psikoloji, İşletme, Biyoloji, Felsefe ve Bilgisayar Bilimlerini kapsar. Kimi K2 Thinking bu benchmark'ta 78% puan aldı.
SimpleQA
55%
SimpleQA: Olgusal Doğruluk Benchmark'ı. Bir modelin basit sorulara doğru, olgusal yanıtlar verme yeteneğini test eder. Bilgi alma görevlerinde güvenilirliği ölçer ve halüsinasyonları azaltır. Kimi K2 Thinking bu benchmark'ta 55% puan aldı.
IFEval
92%
IFEval: Talimat Takip Değerlendirmesi. Bir modelin belirli talimatları ve kısıtlamaları ne kadar iyi takip ettiğini ölçer. Biçimlendirme kurallarına, uzunluk sınırlarına ve diğer açık gereksinimlere uyma yeteneğini test eder. Kimi K2 Thinking bu benchmark'ta 92% puan aldı.
AIME 2025
99.1%
AIME 2025: Amerikan Davetiye Matematik Sınavı. Yetenekli lise öğrencileri için tasarlanmış prestijli AIME sınavından yarışma düzeyinde matematik problemleri. Sadece kalıp eşleştirme değil, soyut akıl yürütme gerektiren ileri düzey matematiksel problem çözmeyi test eder. Kimi K2 Thinking bu benchmark'ta 99.1% puan aldı.
MATH
99.1%
MATH: Matematiksel Problem Çözme. Cebir, geometri, kalkülüs ve diğer matematiksel alanlarda problem çözmeyi test eden kapsamlı bir matematik benchmark'ı. Çok adımlı akıl yürütme ve formal matematiksel bilgi gerektirir. Kimi K2 Thinking bu benchmark'ta 99.1% puan aldı.
GSM8k
99%
GSM8k: İlkokul Matematiği 8K. Çok adımlı akıl yürütme gerektiren 8.500 ilkokul düzeyinde matematik sözel problemi. Alışveriş veya zaman hesaplamaları gibi gerçek dünya senaryoları aracılığıyla temel aritmetik ve mantıksal düşünmeyi test eder. Kimi K2 Thinking bu benchmark'ta 99% puan aldı.
MGSM
95%
MGSM: Çok Dilli İlkokul Matematiği. GSM8k benchmark'ı İspanyolca, Fransızca, Almanca, Rusça, Çince ve Japonca dahil 10 dile çevrilmiştir. Farklı dillerde matematiksel akıl yürütmeyi test eder. Kimi K2 Thinking bu benchmark'ta 95% puan aldı.
MathVista
75%
MathVista: Matematiksel Görsel Akıl Yürütme. Grafikler, geometri diyagramları ve bilimsel şekiller gibi görsel öğeler içeren matematik problemlerini çözme yeteneğini test eder. Görsel anlayışı matematiksel akıl yürütme ile birleştirir. Kimi K2 Thinking bu benchmark'ta 75% puan aldı.
SWE-Bench
71.3%
SWE-Bench: Yazılım Mühendisliği Benchmark'ı. Yapay zeka modelleri, insan doğrulaması ile açık kaynak Python projelerindeki gerçek GitHub sorunlarını çözmeye çalışır. Üretim kod tabanlarında pratik yazılım mühendisliği becerilerini test eder. En iyi modeller 2023'te %4,4'ten 2024'te %70'in üzerine çıktı. Kimi K2 Thinking bu benchmark'ta 71.3% puan aldı.
HumanEval
83%
HumanEval: Python Programlama Problemleri. Modellerin doğru Python fonksiyon implementasyonları üretmesi gereken 164 el yazımı programlama problemi. Her çözüm birim testlerle doğrulanır. En iyi modeller artık %90'ın üzerinde doğruluk oranına ulaşıyor. Kimi K2 Thinking bu benchmark'ta 83% puan aldı.
LiveCodeBench
83.1%
LiveCodeBench: Canlı Kodlama Benchmark'ı. Sürekli güncellenen gerçek dünya programlama zorlukları üzerinde kodlama yeteneklerini test eder. Statik benchmark'ların aksine, veri kirliliğini önlemek ve gerçek kodlama becerilerini ölçmek için taze problemler kullanır. Kimi K2 Thinking bu benchmark'ta 83.1% puan aldı.
MMMU
80%
MMMU: Çok Modlu Anlama. Görüntü anlama ve uzman bilgisi gerektiren 30 konuda üniversite düzeyinde problemlerde görme-dil modellerini test eden Kapsamlı Çok Disiplinli Çok Modlu Anlama benchmark'ı. Kimi K2 Thinking bu benchmark'ta 80% puan aldı.
MMMU Pro
60%
MMMU Pro: MMMU Profesyonel Sürüm. Daha zor sorular ve daha katı değerlendirme içeren geliştirilmiş MMMU sürümü. Profesyonel ve uzman seviyelerinde ileri düzey çok modlu akıl yürütmeyi test eder. Kimi K2 Thinking bu benchmark'ta 60% puan aldı.
ChartQA
88%
ChartQA: Grafik Soru Cevaplama. Grafiklerde ve tablolarda sunulan bilgileri anlama ve akıl yürütme yeteneğini test eder. Görsel veri gösterimlerinden veri çıkarma, değerleri karşılaştırma ve hesaplamalar yapma gerektirir. Kimi K2 Thinking bu benchmark'ta 88% puan aldı.
DocVQA
94%
DocVQA: Belge Görsel Soru Cevaplama. Formlar, raporlar ve taranmış metin dahil belge görüntülerinden bilgi çıkarma ve akıl yürütme yeteneğini test eden Belge Görsel Soru Cevaplama benchmark'ı. Kimi K2 Thinking bu benchmark'ta 94% puan aldı.
Terminal-Bench
55%
Terminal-Bench: Terminal/CLI Görevleri. Komut satırı işlemleri yapma, shell betikleri yazma ve terminal ortamlarında gezinme yeteneğini test eder. Pratik sistem yönetimi ve geliştirme iş akışı becerilerini ölçer. Kimi K2 Thinking bu benchmark'ta 55% puan aldı.
ARC-AGI
12%
ARC-AGI: Soyutlama ve Akıl Yürütme. AGI için Soyutlama ve Akıl Yürütme Corpus'u - yeni örüntü tanıma bulmacaları aracılığıyla akışkan zekayı test eder. Her görev, örneklerden temel kuralı keşfetmeyi gerektirir ve ezberleme yerine genel akıl yürütme yeteneğini ölçer. Kimi K2 Thinking bu benchmark'ta 12% puan aldı.

Kimi K2 Thinking Hakkında

Kimi K2 Thinking'in yetenekleri, özellikleri ve kullanım yolları hakkında bilgi edinin.

Trilyon Parametreli Açık Zeka

Kimi K2 Thinking, Moonshot AI tarafından geliştirilen ve open-source zeka sınırlarını yeniden tanımlayan çığır açıcı bir trilyon parameters içeren reasoning modelidir. Kasım 2025'te piyasaya sürülen model, toplam 1T parameters içeren gelişmiş bir Mixture-of-Experts (MoE) mimarisi kullanır; inference sırasında yalnızca 32B parametreyi etkinleştirerek hem dikkat çekici derecede güçlü hem de hesaplama açısından verimli kalır. Standart dil modellerinin aksine K2 Thinking, derin mantıksal reasoning, planlama ve otonom araç kullanımı gerçekleştirmek için test-time computation ölçeklendiren bir "düşünen agent" olarak tasarlanmıştır.

Agentic Yetenek ve Ölçeklenebilirlik

Model, özellikle insan müdahalesi olmadan 300'e kadar ardışık araç çağrısını başarıyla yürütebilen agentic yetenekleriyle tanınır. Bu, onu karmaşık araştırmalar, rekabetçi programlama ve çok adımlı teknik iş akışları için müthiş bir seçenek haline getirir. Moonshot AI, Quantization-Aware Training aracılığıyla yerel olarak INT4 hassasiyetini kullanarak, bu devasa modelin kritik reasoning ve tarama benchmark testlerinde GPT-5 ve Claude 4.5 gibi closed-source devleri geride bırakırken erişilebilir donanım kümelerinde çalışmasına olanak tanımıştır.

Geliştirici Odaklı Mimari

Küresel geliştirici topluluğu için tasarlanan Kimi K2-Thinking, rakipsiz maliyet-performans metrikleri sunar. Devasa 256K context window ve kapsamlı chain-of-thought işleme desteği ile yerel özelleşmiş modeller ile kurumsal düzeydeki bulut API yapıları arasındaki boşluğu doldurur. Eğitim metodolojisi uzun vadeli planlamaya odaklanarak modelin çıktılarını yinelemeli olarak yansıtmasına, düzeltmesine ve optimize etmesine olanak tanır.

Kimi K2 Thinking

Kimi K2 Thinking için Kullanım Alanları

Harika sonuçlar elde etmek için Kimi K2 Thinking'i kullanmanın farklı yollarını keşfedin.

Otonom Araştırma

Yüzlerce ardışık araç çağrısı ve yinelemeli bilgi doğrulaması gerektiren derinlemesine web araştırmalarını yürütme.

Bilimsel Problem Çözme

Python araç yürütme ve chain-of-thought işleme kullanarak doktora seviyesindeki matematik ve fizik sorularını çözme.

Rekabetçi Programlama

Codeforces ve LeetCode gibi platformlardaki yüksek zorluktaki algoritmik problemleri doktora düzeyinde doğrulukla çözme.

Karmaşık Kod Hata Ayıklama

Kapsamlı ve uzun vadeli reasoning adımları aracılığıyla devasa çok dosyalı kod tabanlarındaki mantıksal hataları tespit etme ve düzeltme.

Hukuki ve Uyumluluk Analizi

Belirli riskleri veya çelişkileri belirlemek için 256K context window boyunca uzun teknik veya hukuki belgeleri inceleme.

Agentic AI Otomasyonu

İnsan müdahalesi olmadan saatlerce plan yapabilen, hareket edebilen, düşünebilen ve çıktılarını optimize edebilen otonom agent'lara güç verme.

Güçlü Yönler

Sınırlamalar

Agentic Derinlik: Performans düşüşü yaşamadan 200–300 ardışık araç çağrısını yönetebilen tek open-weights model.
Sadece Metin Girişi: Şu anda doğrudan görüntü, video veya ses dosyalarını işlemek için yerel multimodal vizyon desteğinden yoksundur.
State-of-the-Art Reasoning: Yoğun test-time scaling sayesinde Humanity's Last Exam (HLE) ve BrowseComp testlerinde GPT-5 ve Claude 4.5 modellerini geride bırakır.
Devasa RAM Gereksinimleri: Tam 1T mimarisinin yerel dağıtımı 500 GB'ın üzerinde RAM veya dağıtık Mac kümeleri gerektirir.
Rakipsiz Maliyet Verimliliği: 1 milyon tokens başına 0,15 $ sabit fiyatla, proprietary API maliyetlerinin çok küçük bir kısmına frontier intelligence sunar.
İlk Token Gecikmesi: Yoğun dahili reasoning aşaması, thinking özelliği olmayan LLM modellerine kıyasla ilk token üretimine kadar geçen sürenin (latency) daha uzun olmasına neden olur.
Native INT4 Optimizasyonu: Quantization-Aware Training aracılığıyla sağlanan yerel kuantizasyon, erişilebilir donanımlarda yerel inference için 2 kat hız artışı sağlar.
Reasoning Ayrıntıcılığı: Model, nispeten basit sorular için bile aşırı uzun chain-of-thought dizileri oluşturabilir.

API Hızlı Başlangıç

moonshot/kimi-k2-thinking

Belgeleri Görüntüle
moonshot SDK
import OpenAI from 'openai';

const openai = new OpenAI({
  apiKey: process.env.MOONSHOT_API_KEY,
  baseURL: 'https://api.moonshot.ai/v1',
});

async function main() {
  const completion = await openai.chat.completions.create({
    model: 'kimi-k2-thinking',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning AI by Moonshot AI.' },
      { role: 'user', content: 'Solve the Riemann Hypothesis proof verification task.' }
    ],
  });

  console.log(completion.choices[0].message.content);
}

main();

SDK'yı yükleyin ve dakikalar içinde API çağrıları yapmaya başlayın.

İnsanlar Kimi K2 Thinking Hakkında Ne Diyor

Topluluğun Kimi K2 Thinking hakkında ne düşündüğünü görün

"Kimi K2 Thinking şimdiye kadar kullandığım en iyi AI modeli... halüsinasyon yok ve yüzlerce araç çağrısı yapabiliyor."
Alex Finn
youtube
"Tokens maliyetleri düştükçe kapalı ve açık modeller arasındaki fark daralmaya devam ediyor."
Emad Mostaque
x
"Moonshot K2-Thinking, 300 araç çağrısı ile yerel akıllı agent'ları yeniden tanımlıyor."
Brian Roemmele
x
"Sonunda cevap vermeden önce prompt mantığı üzerinde gerçekten düşünen bir model!"
ai_user_2025
reddit
"Çin, Kimi serisi ile open-source open weights sınırlarını gerçekten zorluyor."
Nathan Lambert
x
"Rekabetçi matematik problemlerinde kesinlikle akıl almaz bir performans."
MathWizard
hackernews

Kimi K2 Thinking Hakkında Videolar

Kimi K2 Thinking hakkında eğitimler, incelemeler ve tartışmalar izleyin

Bu, şimdiye kadar yapılmış en agentic bağımsız model.

Her adımda düşünebiliyor ve yansıtabiliyor. Bu yüzden asla yolunu kaybetmiyor.

Son derece uygun maliyetli... ChatGPT-5'in yarı fiyatına ve Sonnet 4.5'in yaklaşık onda biri fiyatına.

Standart LLM modellerinin yaygın mantık tuzaklarından kaçınmayı başarıyor.

Moonshot, open-weight erişilebilirliği konusunda oyunun kurallarını gerçekten değiştiriyor.

İnsan müdahalesi olmadan 200 ila 300 ardışık araç çağrısını yürütebiliyor.

K2 Thinking, BrowseComp'ta %60,2 puan alarak %29,2 olan insan temel çizgisini önemli ölçüde geride bıraktı.

Çin, open-source open weights sınırlarını gerçekten zorluyor.

Buradaki Mixture-of-Experts uygulaması 1 trilyon parameters için inanılmaz derecede verimli.

Temelde çok düşük maliyetlerle frontier-level reasoning elde ediyorsunuz.

Burada bir Mac Studio üzerinde pseudo cis kontrol kablolu limit kullanarak çalıştırıyorum.

500 GB RAM kullanıyoruz. İşleme hızımız saniyede yaklaşık 6,9 tokens civarına düştü.

Aslında bu kodu yazdı ama durmadı. Tekrar düşünmeye başladı.

Kuantizasyonla bile bu modelin mantıksal tutarlılığı elit düzeyde kalıyor.

Dahili monolog, kendi kodlama hatalarını tam olarak nerede düzelttiğini gösteriyor.

Sadece promptlardan fazlasi

İş akışınızı güçlendirin Yapay Zeka Otomasyonu

Automatio, yapay zeka ajanlari, web otomasyonu ve akilli entegrasyonlarin gucunu birlestirerek daha az zamanda daha fazlasini basarmaniza yardimci olur.

Yapay Zeka Ajanları
Web Otomasyonu
Akıllı İş Akışları
Demo videoyu izle

Kimi K2 Thinking için Pro İpuçları

Kimi K2 Thinking'den en iyi şekilde yararlanmak için uzman ipuçları.

Thinking Etiketlerini Etkinleştirin

llama.cpp gibi araçlarla yerel çalıştırma yaparken, dahili <think> tokens yapılarını doğru işlemek için --special bayrağını kullandığınızdan emin olun.

Temperature Ayarını Optimize Edin

En istikrarlı ve titiz reasoning sonuçları için temperature değerini 1.0 ve min_p değerini 0.01 olarak ayarlayın.

Donanım Kümeleme

Kayıpsız bir 1T yerel deneyimi için INT4 quantized versiyonunu, RDMA ile birbirine bağlı iki adet Mac Studio M3 Ultra kümesinde dağıtın.

Uzun Vadeli Planlama

Modelin adaptif öğrenme ve arama yeteneklerini tetiklemek için prompt yapılarını önce açıkça 'adım adım plan' isteyecek şekilde kurgulayın.

Referanslar

Kullanicilarimiz Ne Diyor

Is akisini donusturen binlerce memnun kullaniciya katilin

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

İlgili AI Models

openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M

Kimi K2 Thinking Hakkında Sık Sorulan Sorular

Kimi K2 Thinking hakkında sık sorulan soruların cevaplarını bulun