deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale adalah LLM reasoning-first dengan performa matematika medali emas, DeepSeek Sparse Attention, dan context window 131K. Menyaingi GPT-5...

DeepSeekReasoningAIOpenSourceOlimpiadeMatematikaSparseAttention
deepseek logodeepseekDeepSeek-V32025-12-01
Konteks
131Ktoken
Output maks.
131Ktoken
Harga input
$0.28/ 1M
Harga output
$0.42/ 1M
Modalitas:Text
Kemampuan:AlatStreamingPenalaran
Benchmarks
GPQA
91.5%
GPQA: Tanya Jawab Sains Tingkat Doktoral. Benchmark ketat dengan 448 pertanyaan pilihan ganda dalam biologi, fisika, dan kimia yang dibuat oleh pakar domain. Para ahli PhD hanya mencapai akurasi 65-74%, sementara non-ahli hanya mendapat 34% bahkan dengan akses web tak terbatas (sehingga disebut 'tahan Google'). DeepSeek-V3.2-Speciale meraih skor 91.5% pada benchmark ini.
HLE
30.6%
HLE: Penalaran Keahlian Tingkat Tinggi. Menguji kemampuan model untuk mendemonstrasikan penalaran tingkat ahli di domain khusus. Mengevaluasi pemahaman mendalam tentang topik kompleks yang membutuhkan pengetahuan tingkat profesional. DeepSeek-V3.2-Speciale meraih skor 30.6% pada benchmark ini.
MMLU
88.5%
MMLU: Pemahaman Bahasa Multitugas Masif. Benchmark komprehensif dengan 16.000 pertanyaan pilihan ganda meliputi 57 mata pelajaran akademik termasuk matematika, filsafat, hukum, dan kedokteran. Menguji pengetahuan luas dan kemampuan penalaran. DeepSeek-V3.2-Speciale meraih skor 88.5% pada benchmark ini.
MMLU Pro
78.4%
MMLU Pro: MMLU Edisi Profesional. Versi MMLU yang ditingkatkan dengan 12.032 pertanyaan menggunakan format 10 pilihan yang lebih sulit. Mencakup Matematika, Fisika, Kimia, Hukum, Teknik, Ekonomi, Kesehatan, Psikologi, Bisnis, Biologi, Filsafat, dan Ilmu Komputer. DeepSeek-V3.2-Speciale meraih skor 78.4% pada benchmark ini.
SimpleQA
45.8%
SimpleQA: Benchmark Akurasi Faktual. Menguji kemampuan model untuk memberikan respons yang akurat dan faktual terhadap pertanyaan langsung. Mengukur keandalan dan mengurangi halusinasi dalam tugas pengambilan pengetahuan. DeepSeek-V3.2-Speciale meraih skor 45.8% pada benchmark ini.
IFEval
91.2%
IFEval: Evaluasi Kepatuhan Instruksi. Mengukur seberapa baik model mengikuti instruksi dan batasan tertentu. Menguji kemampuan untuk mematuhi aturan format, batas panjang, dan persyaratan eksplisit lainnya. DeepSeek-V3.2-Speciale meraih skor 91.2% pada benchmark ini.
AIME 2025
96%
AIME 2025: Ujian Matematika Undangan Amerika. Soal matematika tingkat kompetisi dari ujian AIME bergengsi yang dirancang untuk siswa SMA berbakat. Menguji pemecahan masalah matematika tingkat lanjut yang membutuhkan penalaran abstrak, bukan sekadar pencocokan pola. DeepSeek-V3.2-Speciale meraih skor 96% pada benchmark ini.
MATH
90.1%
MATH: Pemecahan Masalah Matematika. Benchmark matematika komprehensif yang menguji pemecahan masalah dalam aljabar, geometri, kalkulus, dan domain matematika lainnya. Membutuhkan penalaran multi-langkah dan pengetahuan matematika formal. DeepSeek-V3.2-Speciale meraih skor 90.1% pada benchmark ini.
GSM8k
98.9%
GSM8k: Matematika SD 8K. 8.500 soal cerita matematika tingkat SD yang membutuhkan penalaran multi-langkah. Menguji aritmatika dasar dan pemikiran logis melalui skenario dunia nyata seperti belanja atau perhitungan waktu. DeepSeek-V3.2-Speciale meraih skor 98.9% pada benchmark ini.
MGSM
92.5%
MGSM: Matematika SD Multibahasa. Benchmark GSM8k yang diterjemahkan ke 10 bahasa termasuk Spanyol, Prancis, Jerman, Rusia, Cina, dan Jepang. Menguji penalaran matematika dalam berbagai bahasa. DeepSeek-V3.2-Speciale meraih skor 92.5% pada benchmark ini.
MathVista
68.5%
MathVista: Penalaran Matematika Visual. Menguji kemampuan untuk menyelesaikan masalah matematika yang melibatkan elemen visual seperti grafik, diagram geometri, dan figur ilmiah. Menggabungkan pemahaman visual dengan penalaran matematika. DeepSeek-V3.2-Speciale meraih skor 68.5% pada benchmark ini.
SWE-Bench
73.1%
SWE-Bench: Benchmark Rekayasa Perangkat Lunak. Model AI mencoba menyelesaikan masalah GitHub nyata dalam proyek Python open-source dengan verifikasi manusia. Menguji keterampilan rekayasa perangkat lunak praktis pada codebase produksi. Model terbaik meningkat dari 4,4% di 2023 menjadi lebih dari 70% di 2024. DeepSeek-V3.2-Speciale meraih skor 73.1% pada benchmark ini.
HumanEval
94.1%
HumanEval: Masalah Pemrograman Python. 164 masalah pemrograman yang ditulis tangan di mana model harus menghasilkan implementasi fungsi Python yang benar. Setiap solusi diverifikasi dengan unit test. Model terbaik sekarang mencapai akurasi lebih dari 90%. DeepSeek-V3.2-Speciale meraih skor 94.1% pada benchmark ini.
LiveCodeBench
71.4%
LiveCodeBench: Benchmark Koding Langsung. Menguji kemampuan koding pada tantangan pemrograman dunia nyata yang terus diperbarui. Berbeda dengan benchmark statis, menggunakan masalah baru untuk mencegah kontaminasi data dan mengukur keterampilan koding yang sebenarnya. DeepSeek-V3.2-Speciale meraih skor 71.4% pada benchmark ini.
MMMU
70.2%
MMMU: Pemahaman Multimodal. Benchmark Pemahaman Multimodal Multi-disiplin Masif yang menguji model penglihatan-bahasa pada masalah tingkat universitas di 30 mata pelajaran yang membutuhkan pemahaman gambar dan pengetahuan ahli. DeepSeek-V3.2-Speciale meraih skor 70.2% pada benchmark ini.
MMMU Pro
58%
MMMU Pro: MMMU Edisi Profesional. Versi MMMU yang ditingkatkan dengan pertanyaan lebih sulit dan evaluasi lebih ketat. Menguji penalaran multimodal tingkat lanjut di tingkat profesional dan ahli. DeepSeek-V3.2-Speciale meraih skor 58% pada benchmark ini.
ChartQA
85%
ChartQA: Tanya Jawab Grafik. Menguji kemampuan untuk memahami dan bernalar tentang informasi yang disajikan dalam grafik dan diagram. Membutuhkan ekstraksi data, perbandingan nilai, dan melakukan perhitungan dari representasi visual data. DeepSeek-V3.2-Speciale meraih skor 85% pada benchmark ini.
DocVQA
93%
DocVQA: Tanya Jawab Visual Dokumen. Benchmark Tanya Jawab Visual Dokumen yang menguji kemampuan untuk mengekstrak dan bernalar tentang informasi dari gambar dokumen termasuk formulir, laporan, dan teks yang dipindai. DeepSeek-V3.2-Speciale meraih skor 93% pada benchmark ini.
Terminal-Bench
46.4%
Terminal-Bench: Tugas Terminal/CLI. Menguji kemampuan untuk melakukan operasi baris perintah, menulis skrip shell, dan menavigasi lingkungan terminal. Mengukur keterampilan administrasi sistem praktis dan alur kerja pengembangan. DeepSeek-V3.2-Speciale meraih skor 46.4% pada benchmark ini.
ARC-AGI
12%
ARC-AGI: Abstraksi dan Penalaran. Abstraction and Reasoning Corpus untuk AGI - menguji kecerdasan fluida melalui teka-teki pengenalan pola baru. Setiap tugas membutuhkan penemuan aturan yang mendasari dari contoh, mengukur kemampuan penalaran umum daripada menghafal. DeepSeek-V3.2-Speciale meraih skor 12% pada benchmark ini.

Tentang DeepSeek-V3.2-Speciale

Pelajari tentang kemampuan, fitur, dan cara menggunakan DeepSeek-V3.2-Speciale.

Garis Depan Baru dalam Reasoning

DeepSeek-V3.2-Speciale adalah state-of-the-art, reasoning-first large language model (LLM) yang berfungsi sebagai varian komputasi tinggi dari keluarga V3.2. Dirancang secara eksplisit untuk menyaingi sistem frontier seperti GPT-5 dan Gemini 3 Pro, model ini mencapai performa luar biasa dengan melonggarkan batasan panjang (length penalties) selama reinforcement learning dan menskalakan komputasi pasca-pelatihan hingga lebih dari 10% dari anggaran pra-pelatihan. Hal ini memungkinkan model untuk menghasilkan lintasan chain-of-thought yang sangat panjang—melebihi 47.000 tokens per respons—untuk menyelesaikan masalah multi-langkah yang kompleks.

Inovasi Arsitektur

Secara teknis, model ini memperkenalkan DeepSeek Sparse Attention (DSA), sebuah mekanisme revolusioner yang menggunakan lightning indexer untuk mengidentifikasi tokens yang paling relevan dalam context window 131K-nya. Dengan berfokus pada subset tokens tertentu, model ini secara signifikan mengurangi beban komputasi untuk inference context panjang sambil tetap mempertahankan akurasi arsitektur dense. Model ini tercatat sebagai model open-source pertama yang meraih hasil medali emas dalam International Mathematical Olympiad (IMO) 2025 dan International Olympiad in Informatics (IOI).

Efisiensi dan Integrasi

Selain logika murni, model ini memprioritaskan efisiensi biaya dan utilitas pengembang. Dibanderol dengan harga jauh di bawah kompetitor closed-source-nya, model ini mendukung Thinking in Tool-Use, sebuah mode di mana reasoning diintegrasikan langsung ke dalam loop pemanggilan alat. Hal ini memungkinkan pembuatan agent otonom yang lebih tangguh yang dapat merencanakan, memverifikasi, dan mengoreksi tindakan secara real-time di dalam lingkungan simulasi yang kompleks.

DeepSeek-V3.2-Speciale

Kasus Penggunaan untuk DeepSeek-V3.2-Speciale

Temukan berbagai cara menggunakan DeepSeek-V3.2-Speciale untuk hasil yang luar biasa.

Bukti Matematika Tingkat Olimpiade

Menyelesaikan masalah tingkat kompetisi dari IMO dan CMO yang membutuhkan puluhan langkah logis.

Software Engineering Agentic

Menyelesaikan masalah GitHub di dunia nyata dengan menavigasi codebase yang kompleks secara otonom dan menerapkan patch.

Simulasi Sistem Kompleks

Meniru sistem fisik atau matematika, seperti propagasi frekuensi radio atau fisika gelombang, dengan presisi tinggi.

Alur Kerja Deep Reasoning

Melakukan riset komprehensif dan analisis chain-of-thought untuk perencanaan strategis atau penemuan ilmiah.

Perencanaan Agent Otonom

Menggunakan "Thinking in Tool-Use" untuk merencanakan, mengeksekusi, dan memverifikasi tindakan multi-langkah di lebih dari 1.800 lingkungan simulasi.

Competitive Programming Zero-Shot

Menghasilkan algoritma yang efisien untuk tantangan pemrograman tingkat CodeForces atau IOI dengan koreksi mandiri otomatis.

Kelebihan

Keterbatasan

Reasoning Kelas Medali Emas: Meraih hasil tingkat emas pada International Mathematical Olympiad (IMO) 2025, mengungguli hampir semua model closed-source dalam hal logika.
Inefisiensi Token: Untuk mencapai akurasi tinggi, model sering kali menghasilkan 3x hingga 4x lebih banyak tokens daripada kompetitor, yang menyebabkan waktu tunggu lebih lama.
Harga yang Tak Tertandingi: Dibanderol dengan harga $0,28/$0,42 per 1M tokens, model ini menyediakan frontier reasoning pada titik harga yang membuat deployment agent skala besar menjadi layak.
Intensitas Perangkat Keras: Sebagai model dengan 671B parameters, menjalankannya secara lokal memerlukan konfigurasi VRAM masif yang melebihi sebagian besar desktop konsumen.
Context Panjang yang Efisien: Mekanisme DeepSeek Sparse Attention (DSA) memungkinkannya memproses 131K tokens dengan biaya komputasi yang jauh lebih rendah daripada transformer dense standar.
Latency Inference: Rangkaian reasoning yang panjang berarti model dapat memakan waktu beberapa menit untuk menghasilkan jawaban akhir bagi masalah matematika yang sangat kompleks.
Integrasi Alat Canggih: Menampilkan mode "Thinking in Tool-Use" pertama di jenisnya, di mana reasoning diintegrasikan langsung ke dalam loop pemanggilan alat.
Beta yang Dioptimalkan Hanya untuk API: Meskipun weights tersedia, pengalaman "Speciale" yang paling optimal saat ini diprioritaskan melalui endpoint API DeepSeek.

Mulai Cepat API

deepseek/deepseek-v3.2-speciale

Lihat Dokumentasi
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: "YOUR_DEEPSEEK_API_KEY",
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "Selesaikan Soal IMO 2025 Nomor 1 dengan reasoning langkah demi langkah." }],
    model: "deepseek-v3.2-speciale",
    max_tokens: 16384, 
  });

  console.log("Reasoning Chain:", completion.choices[0].message.reasoning_content);
  console.log("Jawaban Akhir:", completion.choices[0].message.content);
}

main();

Instal SDK dan mulai melakukan panggilan API dalam hitungan menit.

Apa Kata Orang Tentang DeepSeek-V3.2-Speciale

Lihat apa yang dipikirkan komunitas tentang DeepSeek-V3.2-Speciale

"DeepSeek V3.2 Speciale mendominasi benchmark matematika saya sambil ~15× lebih murah daripada GPT-5.1 High"
gum1h0x
x
"Mereka adalah yang pertama merilis model yang meraih Emas IMO 2025 dan ICPC World Finals yang benar-benar bisa diakses semua orang"
Chubby
reddit
"Model ini memang melakukan reasoning dalam waktu yang sangat lama... tapi skrip yang dihasilkannya secara matematis sangat akurat"
Bijan Bowen
youtube
"Speciale adalah untuk masalah sulit—menyaingi Gemini-3.0-Pro dengan hasil medali emas di IMO 2025"
nick-baumann
reddit
"Rasio validitasnya sangat tinggi, artinya ketika ia menghasilkan satu transisi kata yang salah, ia tidak terjebak dalam loop kegagalan"
Lisan al Gaib
x
"Ini pada dasarnya performa o1-pro dengan harga GPT-4o-mini. Kerja luar biasa dari DeepSeek"
tech-enthusiast
hackernews

Video Tentang DeepSeek-V3.2-Speciale

Tonton tutorial, ulasan, dan diskusi tentang DeepSeek-V3.2-Speciale

Mereka pada dasarnya mengatakan model ini memiliki kemampuan reasoning maksimal dan dirancang untuk menyaingi Gemini 3 Pro.

Alasan yang menarik bagi saya adalah ketika Gemini 2.5 deepthink hanya mendapat hasil tingkat perunggu, sementara model DeepSeek ini mendapat emas.

Memiliki model dengan potensi setingkat ini yang bersifat open-source sungguh sangat luar biasa.

Model ini akan berpikir dalam waktu yang sangat lama... ini tidak ditujukan untuk pertanyaan sederhana seperti 'berapa 2+2'.

Akurasi pada soal-soal olimpiade matematika 2025 benar-benar belum pernah ada untuk model dengan harga semurah ini.

V3.2 speciality memiliki kemampuan reasoning maksimal dan lebih merupakan pesaing bagi Gemini 3 Pro.

DeepSeek adalah yang pertama mengintegrasikan pemikiran (thinking) langsung ke dalam penggunaan alat.

Sebuah model open-source yang sebanding dengan model-model closed-source yang mahal ini.

Angka benchmark yang mereka capai pada dasarnya melampaui jauh sebagian besar model open weights lainnya.

Mereka benar-benar fokus dua kali lipat pada reinforcement learning untuk varian ini.

Speciale dirancang khusus untuk reasoning... biarkan model berpikir selama yang ia butuhkan.

Sekarang ia menggunakan DSA atau Deepseek sparse architecture mereka untuk mengatasi hambatan perhatian (attention bottleneck).

Ini bukan sekadar optimasi teoretis. Artinya model ini sangat murah untuk dijalankan, bahkan pada context yang panjang.

Ketika Anda melihat HumanEval, 94,1% adalah angka yang luar biasa untuk model yang bisa Anda unduh.

Terasa lebih 'cerdas' dalam cara ia menangani refaktorisasi kode dibandingkan dengan V3 standar.

Lebih dari sekadar prompt

Tingkatkan alur kerja Anda dengan Otomatisasi AI

Automatio menggabungkan kekuatan agen AI, otomatisasi web, dan integrasi cerdas untuk membantu Anda mencapai lebih banyak dalam waktu lebih singkat.

Agen AI
Otomasi Web
Alur Kerja Cerdas
Tonton video demo

Tips Pro untuk DeepSeek-V3.2-Speciale

Tips ahli untuk memaksimalkan DeepSeek-V3.2-Speciale.

Matikan Batasan Panjang

Pastikan pemanggilan API Anda tidak memiliki batas max_tokens yang ketat; model butuh ruang untuk "berpikir."

Pantau Konsumsi Token

Model ini memprioritaskan akurasi daripada keringkasan dan dapat menggunakan 3-4x lebih banyak tokens dibandingkan model standar untuk tugas yang sama.

Manfaatkan Thinking dalam Tool-Use

Gunakan model ini untuk tugas agent yang kompleks di mana ia dapat melakukan reasoning selama eksekusi alat, bukan hanya sebelumnya.

Quantization Lokal

Jika dijalankan secara lokal, gunakan kuantisasi Q5_K_M atau yang lebih tinggi untuk menjaga weights reasoning yang rumit dari arsitektur 671B.

Testimoni

Apa Kata Pengguna Kami

Bergabunglah dengan ribuan pengguna puas yang telah mengubah alur kerja mereka

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Terkait AI Models

google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M

Pertanyaan yang Sering Diajukan tentang DeepSeek-V3.2-Speciale

Temukan jawaban untuk pertanyaan umum tentang DeepSeek-V3.2-Speciale