moonshot

Kimi K2.5

Entdecken Sie Moonshot AIs Kimi K2.5, ein open-source agentic model mit 1T Parametern, nativen multimodalen Fähigkeiten, einer 262K context window und...

Agentic AIMultimodalOpen SourceReasoningMoE
moonshot logomoonshotKimi27. Januar 2026
Kontext
256KToken
Max. Ausgabe
66KToken
Eingabepreis
$0.60/ 1M
Ausgabepreis
$3.00/ 1M
Modalität:TextImageVideo
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
87.6%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Kimi K2.5 erreichte 87.6% bei diesem Benchmark.
HLE
50.2%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Kimi K2.5 erreichte 50.2% bei diesem Benchmark.
MMLU
91.5%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Kimi K2.5 erreichte 91.5% bei diesem Benchmark.
MMLU Pro
87.1%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Kimi K2.5 erreichte 87.1% bei diesem Benchmark.
SimpleQA
48%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Kimi K2.5 erreichte 48% bei diesem Benchmark.
IFEval
85%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Kimi K2.5 erreichte 85% bei diesem Benchmark.
AIME 2025
96.1%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Kimi K2.5 erreichte 96.1% bei diesem Benchmark.
MATH
90.1%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Kimi K2.5 erreichte 90.1% bei diesem Benchmark.
GSM8k
97.1%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Kimi K2.5 erreichte 97.1% bei diesem Benchmark.
MGSM
95%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Kimi K2.5 erreichte 95% bei diesem Benchmark.
MathVista
90.1%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Kimi K2.5 erreichte 90.1% bei diesem Benchmark.
SWE-Bench
76.8%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Kimi K2.5 erreichte 76.8% bei diesem Benchmark.
HumanEval
88%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Kimi K2.5 erreichte 88% bei diesem Benchmark.
LiveCodeBench
85%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Kimi K2.5 erreichte 85% bei diesem Benchmark.
MMMU
78.5%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Kimi K2.5 erreichte 78.5% bei diesem Benchmark.
MMMU Pro
78.5%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Kimi K2.5 erreichte 78.5% bei diesem Benchmark.
ChartQA
77.5%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Kimi K2.5 erreichte 77.5% bei diesem Benchmark.
DocVQA
88.8%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Kimi K2.5 erreichte 88.8% bei diesem Benchmark.
Terminal-Bench
50.8%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Kimi K2.5 erreichte 50.8% bei diesem Benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Kimi K2.5 erreichte 12% bei diesem Benchmark.

Über Kimi K2.5

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Kimi K2.5.

Kimi K2.5 ist ein open-source, multimodales model von Moonshot AI. Es verwendet eine 1-Billion-Parameter-Mixture-of-Experts-Architektur, bei der 32 Milliarden Parameter pro token aktiv sind. Das System vereint Text-, Bild- und Videoverarbeitung durch ein einheitliches Reasoning-Framework, anstatt separate externe encoder für jede Modalität zu verwenden. Diese Architektur ermöglicht es dem model, 256.000 tokens an Kontext zu verarbeiten, während gleichzeitig eine hohe Abrufgenauigkeit und logische Konsistenz über sehr lange Sequenzen hinweg beibehalten wird.

Das model zeichnet sich durch seine Agent Swarm-Fähigkeit aus. Diese Funktion ermöglicht es dem System, bis zu 100 parallele Sub-agents zu koordinieren, um komplexe Forschungs- oder Entwicklungsaufgaben gleichzeitig auszuführen. Durch die Integration eines MoonViT-3D encoders mit 400M Parametern kann K2.5 mehrere Stunden Videomaterial mit zeitlicher Präzision analysieren. Es wurde speziell für die autonome Ausführung konzipiert und übertrifft viele proprietäre models in agentic benchmarks wie SWE-Bench und BrowseComp.

Kimi K2.5 bietet einen dedizierten Thinking-Modus für Aufgaben, die tiefgreifende Logik erfordern. Wenn aktiviert, generiert das model eine interne chain-of-thought, um sich selbst zu korrigieren und Schritte zu verifizieren, bevor eine endgültige Antwort produziert wird. Dies macht es äußerst effektiv für Mathematik auf Wettbewerbsniveau und groß angelegte Softwareentwicklung. Die Token-Ökonomie ist für den Unternehmenseinsatz optimiert und bietet frontier-Level-Intelligenz zu einem Bruchteil der Kosten konkurrierender closed-source Systeme.

Kimi K2.5

Anwendungsfälle für Kimi K2.5

Entdecken Sie die verschiedenen Möglichkeiten, Kimi K2.5 für großartige Ergebnisse zu nutzen.

Autonome Softwareentwicklung

Lösung komplexer GitHub-Issues und Erstellung von Architektur für Multi-File-Projekte unter Verwendung von SWE-Bench-optimierter Logik.

Visuelle Webentwicklung

Erstellung von funktionalem Frontend-Code und UI-Designs direkt aus Bildschirmaufnahmen bestehender Website-Interaktionen.

Multithreading-Recherche

Verwendung von Agent Swarm, um Informationen aus über 100 Quellen in einem einzigen parallelen Workflow zu crawlen und zusammenzufassen.

Lange Videoanalyse

Extrahieren spezifischer Ereignisse und zeitlicher Daten aus stundenlangen Sicherheits- oder Vorlesungsaufnahmen ohne Tools zur Frame-Extraktion.

Generierung mathematischer Beweise

Anwendung des Deep-Thinking-Modus zur Lösung mathematischer Probleme auf Olympiade-Niveau mit einer Genauigkeit von 96 Prozent.

Automatisierung von Unternehmensdokumenten

Generierung mehrseitiger PDF-Berichte und komplexer Finanztabellen aus unstrukturierten Geschäftsdatenquellen.

Stärken

Einschränkungen

Elite Agentic Performance: Erreicht 76,8 Punkte auf dem SWE-Bench Verified, womit es bei Softwareentwicklungsaufgaben viele proprietäre frontier-Modelle übertrifft.
Extremer VRAM-Bedarf: Erfordert 632 GB VRAM für das vollständige, unquantisierte model, was eine lokale Bereitstellung für die meisten Privatanwender unmöglich macht.
Unübertroffene Token-Ökonomie: Bietet 1T parameter MoE-Intelligenz für 0,60 $ pro Million Input tokens, was etwa 10 Prozent der Kosten von Claude Opus entspricht.
Höhere Reasoning-Latenz: Der Thinking-Modus kann zu erheblichen Verzögerungen führen, da das model interne logische Ketten generiert, bevor es antwortet.
Natives Videoverständnis: Verarbeitet komplexe Videodateien ohne externe Frame-Extraktion und ermöglicht eine präzise zeitliche Analyse langer Aufnahmen.
Formatierungswiederholungen: Kann zu extrem langen Textwänden neigen, sofern nicht explizit die Verwendung spezifischer Absatzstrukturen gefordert wird.
Parallele Swarm-Orchestrierung: Das einzige open-source model, das darauf trainiert wurde, bis zu 100 Sub-agents für massive, multithreading-basierte Forschungsworkflows zu koordinieren.
Bedenken zum Datenstandort: Die primäre Infrastruktur basiert in China, was für bestimmte westliche Unternehmen Compliance-Probleme aufwerfen könnte.

API-Schnellstart

fireworks/kimi-k2p5

Dokumentation anzeigen
moonshot SDK
import OpenAI from 'openai';
const client = new OpenAI({ apiKey: process.env.KIMI_API_KEY, baseURL: 'https://api.moonshot.cn/v1' });
async function main() {
  const res = await client.chat.completions.create({
    model: 'kimi-k2.5',
    messages: [
      { role: 'system', content: 'You are Kimi, a reasoning agent.' },
      { role: 'user', content: 'Design a parallel research plan for quantum computing trends.' }
    ],
    extra_body: { thinking: { type: 'enabled' } }
  });
  console.log(res.choices[0].message.content);
}
main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Kimi K2.5 sagen

Sehen Sie, was die Community über Kimi K2.5 denkt

Kimi K2.5 kostet bei ähnlichem Leistungsniveau fast nur 10 Prozent dessen, was Opus kostet.
Odd_Tumbleweed574
reddit
Die Leute vergessen, dass Nvidia 600 Milliarden Dollar an Wert verlor, als ein chinesisches Labor etwas Großes open source machte. Kimi tut das mit frontier-Intelligenz erneut.
chetaslua
twitter
Das Attention Residuals-Konzept in K2.5 ist die erste architektonische Änderung seit Jahren, die tatsächlich das Problem des Vergessens bei LLMs behebt.
logic_king
hackernews
Workers AI betreibt jetzt große models. Kimi K2.5 ist das erste. Es ist eines der besten open-source models überhaupt und auch sehr gut zum Coden.
dok2001
twitter
Kimi K2.5 ist ein ganz anderes Kaliber. Es ist ein intelligentes, unglaubliches RP-model, aber es kann neurotisch werden, wenn man keine Community-Presets verwendet.
dptgreg
reddit
Ich habe meinen GPT 4-Workflow durch Kimi K2.5 ersetzt, weil der Thinking-Modus transparenter ist und die context window mein ganzes Repo abdeckt.
Dev_Max
reddit

Videos über Kimi K2.5

Schauen Sie Tutorials, Rezensionen und Diskussionen über Kimi K2.5

Kimmy K2.5 schlägt GPT 5.2 mit hohem thinking-Level und lässt andere frontier-Modelle weit hinter sich.

Es ist das bisher stärkste open-source coding-model mit 76,8 Punkten auf SWE verified.

Agent swarm markiert den Wechsel von einem einzelnen agent zu einem Multi-agent-System, das parallele Workflows über bis zu 1500 koordinierte Schritte ausführt.

Die context window ist mit 256k tokens gewaltig und reicht für die meisten Projekte völlig aus.

Moonshot verschiebt Anfang 2026 wirklich die Grenzen dessen, was mit open weights möglich ist.

Es hat die gesamte Apple-Designästhetik wirklich gut getroffen und allein aus einem Video eine ansprechend aussehende Website mit Animationen erstellt.

Die Swarm-Funktion sieht sehr cool aus und macht definitiv Spaß, da sie jedem Sub-agent ID-Badges zuweist.

K2.5 ist mit 60 Cent pro Million Input tokens und 3 Dollar pro Million Output tokens viel günstiger.

Die native Videoverarbeitung bedeutet, dass Sie keine teuren externen Tools zur Verarbeitung von Frames benötigen.

Dieses model ist ein Wendepunkt für Entwickler, die autonome agents mit begrenztem Budget benötigen.

Moonshot hat dies erreicht, indem jedem Sub-agent an verschiedenen kritischen Stufen Belohnungen zugewiesen werden, um einen seriellen Zusammenbruch zu verhindern.

Das model lernt, Parallelität nur dann zu wählen, wenn dies den kritischen Pfad verkürzt – eine sehr clevere Innovation.

Kimi K2.5 steht kurz davor, dass man es mit GGUF auf Consumer-Hardware ausführen kann.

Der Thinking-Modus ist unglaublich robust bei der Lösung komplexer logischer Fehler in Python.

Ein 1-Billion-Parameter-model so veröffentlicht zu sehen, ist eine riesige Sache für die open-source Community.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Kimi K2.5

Expertentipps, um das Beste aus Kimi K2.5 herauszuholen.

Thinking-Modus aktivieren

Geben Sie den thinking-Parameter in Ihrer API-Anfrage an, um bei Mathematik- und Coding-Aufgaben maximale Genauigkeit zu erzielen.

Agent Swarm auslösen

Weisen Sie das model an, einen Swarm für Forschungsaufgaben einzusetzen, um eine parallele Orchestrierung über mehrere Sub-agents hinweg zu erzwingen.

Temperature optimieren

Verwenden Sie für den Thinking-Modus eine temperature von 1.0, um vielfältiges reasoning zu ermöglichen, senken Sie diese jedoch auf 0.6 für Standard-Chats.

Kombinierte Vision-Prompts

Laden Sie Fehlermeldungs-Screenshots zusammen mit Code-Snippets hoch, um das integrierte Text-Vision-Training des models zu nutzen.

Context Caching

Nutzen Sie context caching für wiederkehrende lange Dokumente, um die Input-Kosten um bis zu 90 Prozent zu senken.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M

Häufig gestellte Fragen zu Kimi K2.5

Finden Sie Antworten auf häufige Fragen zu Kimi K2.5