deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale ist ein auf reasoning spezialisiertes LLM mit Goldmedaillen-Leistung in Mathematik, DeepSeek Sparse Attention und 131K context window....

DeepSeekReasoningAIOpen-SourceMathe-OlympiadeSparseAttention
deepseek logodeepseekDeepSeek-V32025-12-01
Kontext
131KToken
Max. Ausgabe
131KToken
Eingabepreis
$0.28/ 1M
Ausgabepreis
$0.42/ 1M
Modalität:Text
Fähigkeiten:ToolsStreamingLogik
Benchmarks
GPQA
91.5%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). DeepSeek-V3.2-Speciale erreichte 91.5% bei diesem Benchmark.
HLE
30.6%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. DeepSeek-V3.2-Speciale erreichte 30.6% bei diesem Benchmark.
MMLU
88.5%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. DeepSeek-V3.2-Speciale erreichte 88.5% bei diesem Benchmark.
MMLU Pro
78.4%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. DeepSeek-V3.2-Speciale erreichte 78.4% bei diesem Benchmark.
SimpleQA
45.8%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. DeepSeek-V3.2-Speciale erreichte 45.8% bei diesem Benchmark.
IFEval
91.2%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. DeepSeek-V3.2-Speciale erreichte 91.2% bei diesem Benchmark.
AIME 2025
96%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. DeepSeek-V3.2-Speciale erreichte 96% bei diesem Benchmark.
MATH
90.1%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. DeepSeek-V3.2-Speciale erreichte 90.1% bei diesem Benchmark.
GSM8k
98.9%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. DeepSeek-V3.2-Speciale erreichte 98.9% bei diesem Benchmark.
MGSM
92.5%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. DeepSeek-V3.2-Speciale erreichte 92.5% bei diesem Benchmark.
MathVista
68.5%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. DeepSeek-V3.2-Speciale erreichte 68.5% bei diesem Benchmark.
SWE-Bench
73.1%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). DeepSeek-V3.2-Speciale erreichte 73.1% bei diesem Benchmark.
HumanEval
94.1%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. DeepSeek-V3.2-Speciale erreichte 94.1% bei diesem Benchmark.
LiveCodeBench
71.4%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. DeepSeek-V3.2-Speciale erreichte 71.4% bei diesem Benchmark.
MMMU
70.2%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. DeepSeek-V3.2-Speciale erreichte 70.2% bei diesem Benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. DeepSeek-V3.2-Speciale erreichte 58% bei diesem Benchmark.
ChartQA
85%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. DeepSeek-V3.2-Speciale erreichte 85% bei diesem Benchmark.
DocVQA
93%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. DeepSeek-V3.2-Speciale erreichte 93% bei diesem Benchmark.
Terminal-Bench
46.4%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. DeepSeek-V3.2-Speciale erreichte 46.4% bei diesem Benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. DeepSeek-V3.2-Speciale erreichte 12% bei diesem Benchmark.

Über DeepSeek-V3.2-Speciale

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von DeepSeek-V3.2-Speciale.

Eine neue Ära des Reasoning

DeepSeek-V3.2-Speciale ist ein state-of-the-art, auf reasoning spezialisiertes Large Language Model (LLM) und dient als High-Compute-Variante der V3.2-Familie. Explizit entwickelt, um mit frontier-Systemen wie GPT-5 und Gemini 3 Pro zu konkurrieren, erreicht es eine außergewöhnliche Performance durch die Lockerung von Längenbeschränkungen während des reinforcement learning und die Skalierung des Post-Training-Computes auf über 10 % des Pre-Training-Budgets. Dies ermöglicht es dem Modell, extrem lange chain-of-thought-Trajektorien – mit über 47.000 tokens pro Antwort – zu generieren, um komplexe, mehrstufige Probleme zu lösen.

Architektonische Innovation

Technisch führt das Modell DeepSeek Sparse Attention (DSA) ein, einen revolutionären Mechanismus, der einen blitzschnellen Indexer nutzt, um die relevantesten tokens innerhalb seines 131K context window zu identifizieren. Durch die Fokussierung auf eine spezifische Untergruppe von tokens reduziert das Modell den Rechenaufwand für die long-context-Inference erheblich, während die Genauigkeit von dense-Architekturen beibehalten wird. Es ist das erste open-source Modell, das Goldmedaillen-Ergebnisse bei der Internationalen Mathematik-Olympiade (IMO) 2025 und der Internationalen Informatik-Olympiade (IOI) erzielt hat.

Effizienz und Integration

Über die reine Logik hinaus priorisiert das Modell Kosteneffizienz und Entwicklernutzen. Zu einem Bruchteil des Preises seiner closed-source-Konkurrenten unterstützt es Thinking in Tool-Use, einen Modus, in dem reasoning direkt in den Tool-Calling-Loop integriert ist. Dies ermöglicht robustere agentic-Systeme, die Aktionen in komplexen simulierten Umgebungen in Echtzeit planen, verifizieren und korrigieren können.

DeepSeek-V3.2-Speciale

Anwendungsfälle für DeepSeek-V3.2-Speciale

Entdecken Sie die verschiedenen Möglichkeiten, DeepSeek-V3.2-Speciale für großartige Ergebnisse zu nutzen.

Mathematische Beweise auf Olympiaden-Niveau

Lösung von Wettbewerbsaufgaben der IMO und CMO, die dutzende logische Schritte erfordern.

Agentic Software Engineering

Behebung realer GitHub-Issues durch autonomes Navigieren in komplexen Codebases und das Erstellen von Patches.

Simulation komplexer Systeme

Emulation physikalischer oder mathematischer Systeme, wie HF-Ausbreitung oder Wellenphysik, mit hoher Präzision.

Deep-Reasoning-Workflows

Durchführung umfassender Recherchen und chain-of-thought-Analysen für die strategische Planung oder wissenschaftliche Entdeckungen.

Planung autonomer Agenten

Nutzung von „Thinking in Tool-Use“, um mehrstufige Aktionen in über 1.800 simulierten Umgebungen zu planen, auszuführen und zu verifizieren.

Zero-Shot Competitive Programming

Generierung effizienter Algorithmen für CodeForces- oder IOI-Programmierwettbewerbe mit automatisierter Selbstkorrektur.

Stärken

Einschränkungen

Goldmedaillen-Reasoning: Erreicht Gold-Level-Ergebnisse bei der Internationalen Mathematik-Olympiade (IMO) 2025 und übertrifft fast jedes closed-source Modell in der Logik.
Token-Ineffizienz: Um die hohe Genauigkeit zu erreichen, generiert das Modell oft 3- bis 4-mal mehr tokens als Wettbewerber, was zu längeren Wartezeiten führt.
Unschlagbare Preis-Leistung: Mit 0,28 $ / 0,42 $ pro 1M tokens ermöglicht es frontier-reasoning zu einem Preis, der großangelegte agentic-Implementierungen rentabel macht.
Hardware-Intensität: Als 671B-Parameter-Modell erfordert der lokale Betrieb massive VRAM-Setups, die die meisten Consumer-Desktops übersteigen.
Effizienter langer Kontext: Der DeepSeek Sparse Attention (DSA) Mechanismus erlaubt die Verarbeitung von 131K tokens bei deutlich geringeren Rechenkosten als Standard-dense-transformer.
Inference-Latenz: Die erweiterten reasoning-Ketten bedeuten, dass das Modell bei hochkomplexen Mathe-Problemen mehrere Minuten für eine finale Antwort benötigen kann.
Fortschrittliche Tool-Integration: Bietet einen neuartigen „Thinking in Tool-Use“-Modus, bei dem reasoning direkt in den Tool-Calling-Loop integriert ist.
API-fokussierte Beta: Während die Gewichte verfügbar sind, wird die am stärksten optimierte „Speciale“-Erfahrung derzeit vorrangig über die DeepSeek-API-Endpunkte bereitgestellt.

API-Schnellstart

deepseek/deepseek-v3.2-speciale

Dokumentation anzeigen
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: "IHR_DEEPSEEK_API_KEY",
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "Löse die IMO-Aufgabe 1 von 2025 mit schrittweisem Reasoning." }],
    model: "deepseek-v3.2-speciale",
    max_tokens: 16384, 
  });

  console.log("Reasoning Chain:", completion.choices[0].message.reasoning_content);
  console.log("Finale Antwort:", completion.choices[0].message.content);
}

main();

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über DeepSeek-V3.2-Speciale sagen

Sehen Sie, was die Community über DeepSeek-V3.2-Speciale denkt

"DeepSeek V3.2 Speciale dominiert meine Mathe-Benchmarks und ist dabei ~15× günstiger als GPT-5.1 High"
gum1h0x
x
"Sie sind die Ersten, die ein Gold-IMO-2025- und ICPC-World-Finals-Modell veröffentlichen, auf das wirklich jeder zugreifen kann"
Chubby
reddit
"Es denkt wirklich eine wahnsinnig lange Zeit nach... aber das generierte Skript war mathematisch absolut fundiert"
Bijan Bowen
youtube
"Speciale ist für harte Probleme – konkurriert mit Gemini-3.0-Pro mit Goldmedaillen-Ergebnissen bei der IMO 2025"
nick-baumann
reddit
"Die Validitätsrate ist extrem hoch, was bedeutet, dass es bei einem falschen Wortübergang nicht direkt in einen Loop verfällt"
Lisan al Gaib
x
"Das ist im Grunde o1-pro-Performance zu GPT-4o-mini-Preisen. Unglaubliche Arbeit von DeepSeek"
tech-enthusiast
hackernews

Videos über DeepSeek-V3.2-Speciale

Schauen Sie Tutorials, Rezensionen und Diskussionen über DeepSeek-V3.2-Speciale

Man sagt im Grunde, dass es über maximale reasoning-Fähigkeiten verfügt und als Rivale zu Gemini 3 Pro konzipiert wurde.

Was mich besonders beeindruckt hat: Gemini 2.5 deepthink erreichte nur Bronze-Level, während dieses DeepSeek-Modell Gold holt.

Ein Modell dieser Leistungsstärke als „open-source“ zu haben, ist wirklich bemerkenswert.

Es wird sehr lange nachdenken... es ist nicht für einfache Fragen wie „Was ist 2+2“ gedacht.

Die Genauigkeit bei den Mathe-Olympiade-Aufgaben von 2025 ist für ein Modell zu diesem Preis einfach beispiellos.

V3.2 Speciale hat maximierte reasoning-Fähigkeiten und ist eher ein Konkurrent für Gemini 3 Pro.

DeepSeek ist der erste Anbieter, der Thinking direkt in das Tool-Use integriert.

Ein open-source Modell, das mit diesen teuren closed-source Modellen vergleichbar ist.

Die benchmark-Zahlen, die sie erreichen, stellen die meisten anderen open-weights Modelle komplett in den Schatten.

Sie haben bei dieser Variante das reinforcement learning massiv verstärkt.

Speciale ist speziell für reasoning entwickelt... man lässt das Modell so lange denken, wie es nötig ist.

Es nutzt jetzt ihre DSA- oder Deepseek-Sparse-Architektur, um den Attention-Flaschenhals zu lösen.

Das ist nicht nur eine theoretische Optimierung. Es bedeutet, dass dieses Modell unglaublich günstig im Betrieb ist, selbst bei langen Kontexten.

Wenn man sich HumanEval ansieht, sind 94,1 % einfach umwerfend für ein Modell, das man herunterladen kann.

Es fühlt sich „intelligenter“ an, wie es Code-Refactoring im Vergleich zum Standard-V3 handhabt.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows
Demo-Video ansehen

Pro-Tipps für DeepSeek-V3.2-Speciale

Expertentipps, um das Beste aus DeepSeek-V3.2-Speciale herauszuholen.

Längenbeschränkungen deaktivieren

Stellen Sie sicher, dass Ihr API-Aufruf keine restriktiven max_tokens-Limits hat; das Modell benötigt Raum zum „Nachdenken“.

Token-Verbrauch überwachen

Dieses Modell priorisiert Genauigkeit vor Kürze und kann für dieselbe Aufgabe 3-4x mehr tokens verbrauchen als Standard-Modelle.

Thinking in Tool-Use nutzen

Setzen Sie das Modell für komplexe agentic-Aufgaben ein, bei denen es während der Tool-Ausführung und nicht nur davor reasoning anwenden kann.

Lokale Quantisierung

Bei lokalem Betrieb sollte eine Q5_K_M oder höhere Quantisierung verwendet werden, um die komplexen reasoning-Gewichte der 671B-Architektur zu erhalten.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M

Häufig gestellte Fragen zu DeepSeek-V3.2-Speciale

Finden Sie Antworten auf häufige Fragen zu DeepSeek-V3.2-Speciale