deepseek

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale er en reasoning-først LLM med guldmedalje-matematik, DeepSeek Sparse Attention og 131K context window. En rival til GPT-5...

DeepSeekReasoningAIOpen-sourceMatematik-OLSparseAttention
deepseek logodeepseekDeepSeek-V32025-12-01
Kontekst
131Ktokens
Maks output
131Ktokens
Input-pris
$0.28/ 1M
Output-pris
$0.42/ 1M
Modalitet:Text
Funktioner:VærktøjerStreamingRæsonnering
Benchmarks
GPQA
91.5%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). DeepSeek-V3.2-Speciale scorede 91.5% på denne benchmark.
HLE
30.6%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. DeepSeek-V3.2-Speciale scorede 30.6% på denne benchmark.
MMLU
88.5%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. DeepSeek-V3.2-Speciale scorede 88.5% på denne benchmark.
MMLU Pro
78.4%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. DeepSeek-V3.2-Speciale scorede 78.4% på denne benchmark.
SimpleQA
45.8%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. DeepSeek-V3.2-Speciale scorede 45.8% på denne benchmark.
IFEval
91.2%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. DeepSeek-V3.2-Speciale scorede 91.2% på denne benchmark.
AIME 2025
96%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. DeepSeek-V3.2-Speciale scorede 96% på denne benchmark.
MATH
90.1%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. DeepSeek-V3.2-Speciale scorede 90.1% på denne benchmark.
GSM8k
98.9%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. DeepSeek-V3.2-Speciale scorede 98.9% på denne benchmark.
MGSM
92.5%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. DeepSeek-V3.2-Speciale scorede 92.5% på denne benchmark.
MathVista
68.5%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. DeepSeek-V3.2-Speciale scorede 68.5% på denne benchmark.
SWE-Bench
73.1%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. DeepSeek-V3.2-Speciale scorede 73.1% på denne benchmark.
HumanEval
94.1%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. DeepSeek-V3.2-Speciale scorede 94.1% på denne benchmark.
LiveCodeBench
71.4%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. DeepSeek-V3.2-Speciale scorede 71.4% på denne benchmark.
MMMU
70.2%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. DeepSeek-V3.2-Speciale scorede 70.2% på denne benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. DeepSeek-V3.2-Speciale scorede 58% på denne benchmark.
ChartQA
85%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. DeepSeek-V3.2-Speciale scorede 85% på denne benchmark.
DocVQA
93%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. DeepSeek-V3.2-Speciale scorede 93% på denne benchmark.
Terminal-Bench
46.4%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. DeepSeek-V3.2-Speciale scorede 46.4% på denne benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. DeepSeek-V3.2-Speciale scorede 12% på denne benchmark.

Om DeepSeek-V3.2-Speciale

Lær om DeepSeek-V3.2-Speciales muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

En ny front inden for Reasoning

DeepSeek-V3.2-Speciale er en state-of-the-art, reasoning-først large language model (LLM), der fungerer som high-compute varianten af V3.2-familien. Den er eksplicit bygget til at konkurrere med frontier-systemer som GPT-5 og Gemini 3 Pro og opnår exceptionel ydeevne ved at fjerne længdebegrænsninger under reinforcement learning og skalere post-training compute til over 10 % af det oprindelige pre-training budget. Dette gør det muligt for modellen at generere ekstremt lange chain-of-thought forløb — over 47.000 tokens pr. svar — for at løse komplekse problemer i mange trin.

Arkitektonisk innovation

Teknisk set introducerer modellen DeepSeek Sparse Attention (DSA), en revolutionerende mekanisme, der bruger en lynhurtig indeksering til at identificere de mest relevante tokens inden for sit 131K context window. Ved at fokusere på en specifik delmængde af tokens reducerer modellen de beregningsmæssige omkostninger ved long-context inference markant, samtidig med at den opretholder nøjagtigheden fra dense-arkitekturer. Det er bemærkelsesværdigt nok den første open-source model, der har opnået guldmedalje-resultater i den internationale matematik-olympiade (IMO) 2025 og den internationale informatik-olympiade (IOI).

Effektivitet og integration

Udover ren logik prioriterer modellen omkostningseffektivitet og værktøjer til udviklere. Den er prissat til en brøkdel af sine closed-source konkurrenter og understøtter Thinking in Tool-Use, en tilstand hvor reasoning er integreret direkte i tool-calling loopet. Dette giver mulighed for mere robuste autonome agenter, der kan planlægge, verificere og rette handlinger i realtid inden for komplekse simulerede miljøer.

DeepSeek-V3.2-Speciale

Anvendelser for DeepSeek-V3.2-Speciale

Opdag de forskellige måder, du kan bruge DeepSeek-V3.2-Speciale til at opnå gode resultater.

Matematiske beviser på Olympiade-niveau

Løsning af problemer på konkurrenceniveau fra IMO og CMO, der kræver snesevis af logiske trin.

Agentic Software Engineering

Løsning af reelle GitHub-issues ved autonomt at navigere i komplekse kodebaser og anvende rettelser.

Kompleks system-simulering

Emulering af fysiske eller matematiske systemer, såsom radiofrekvensudbredelse eller bølge-fysik, med høj præcision.

Deep Reasoning workflows

Udførelse af omfattende research og chain-of-thought analyse til strategisk planlægning eller videnskabelige opdagelser.

Planlægning for autonome agenter

Brug af "Thinking in Tool-Use" til at planlægge, udføre og verificere handlinger i flere trin på tværs af over 1.800 simulerede miljøer.

Zero-shot konkurrence-programmering

Generering af effektive algoritmer til CodeForces eller IOI-programmeringsudfordringer med automatiseret selv-korrektion.

Styrker

Begrænsninger

Guldmedalje-reasoning: Opnåede guld-resultater i den internationale matematik-olympiade (IMO) 2025 og udkonkurrerede næsten alle closed-source modeller i logik.
Token-ineffektivitet: For at opnå sin høje nøjagtighed genererer modellen ofte 3 til 4 gange flere tokens end konkurrenterne, hvilket fører til længere ventetid.
Uovertruffen pris: Med en pris på $0,28/$0,42 pr. 1M tokens muliggør den frontier reasoning til en pris, der gør store agent-implementeringer rentable.
Hardware-intensiv: Som en model med 671B parameters kræver lokal afvikling massive VRAM-opsætninger, der overstiger de fleste almindelige computere.
Effektiv lang kontekst: DeepSeek Sparse Attention (DSA) mekanismen gør det muligt at behandle 131K tokens med langt lavere compute-omkostninger end standard dense transformere.
Inference latency: De udvidede reasoning-kæder betyder, at modellen kan være flere minutter om at producere et endeligt svar på meget komplekse matematikopgaver.
Avanceret værktøjsintegration: Indeholder den første af sin slags "Thinking in Tool-Use" tilstand, hvor reasoning er integreret direkte i tool-calling loopet.
API-optimeret beta: Selvom vægtene er tilgængelige, er den mest optimerede "Speciale"-oplevelse i øjeblikket prioriteret gennem DeepSeeks egne API-endpoints.

API hurtig start

deepseek/deepseek-v3.2-speciale

Se dokumentation
deepseek SDK
import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "https://api.deepseek.com",
  apiKey: "DIN_DEEPSEEK_API_KEY",
});

async function main() {
  const completion = await openai.chat.completions.create({
    messages: [{ role: "user", content: "Løs IMO 2025 Opgave 1 med trin-for-trin reasoning." }],
    model: "deepseek-v3.2-speciale",
    max_tokens: 16384, 
  });

  console.log("Reasoning Chain:", completion.choices[0].message.reasoning_content);
  console.log("Endeligt svar:", completion.choices[0].message.content);
}

main();

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om DeepSeek-V3.2-Speciale

Se hvad fællesskabet mener om DeepSeek-V3.2-Speciale

"DeepSeek V3.2 Speciale dominerer min matematik-bench, mens den er ~15x billigere end GPT-5.1 High"
gum1h0x
x
"De er de første til at udgive en model med Guld-niveau i IMO 2025 og ICPC World Finals, som alle faktisk har adgang til"
Chubby
reddit
"Den bruger vildt lang tid på reasoning... men scriptet, den genererede, var matematisk fejlfrit"
Bijan Bowen
youtube
"Speciale er til de svære problemer — den konkurrerer med Gemini-3.0-Pro med guldmedalje-resultater i 2025 IMO"
nick-baumann
reddit
"Validitetsraten er super høj, hvilket betyder, at selv hvis den laver en fejl i én ord-overgang, falder den ikke ned i et 'doom loop'"
Lisan al Gaib
x
"Dette er dybest set o1-pro performance til GPT-4o-mini priser. Fantastisk arbejde af DeepSeek"
tech-enthusiast
hackernews

Videoer om DeepSeek-V3.2-Speciale

Se vejledninger, anmeldelser og diskussioner om DeepSeek-V3.2-Speciale

De siger dybest set, at den har maksimeret reasoning-kapacitet, og den er designet til at konkurrere med Gemini 3 Pro.

Grunden til, at det resonerede med mig, var da Gemini 2.5 deepthink kun fik bronze-resultater, mens denne DeepSeek-model får guld.

At have en model med dette niveau af styrke, som er såkaldt open-source, er virkelig ret imponerende.

Den kommer til at tænke i meget lang tid... den er ikke beregnet til simple 'hvad er 2+2'-spørgsmål.

Nøjagtigheden på 2025-matematikolympiade-opgaverne er bare uhørt for en model til denne pris.

V3.2 speciality har maksimeret reasoning-evner og er mere en rival til Gemini 3 Pro.

DeepSeek er de første til at integrere tænkning direkte i tool-use.

En open-source model, der er sammenlignelig med disse lukkede og dyre modeller.

De benchmark-tal, de rammer, tørrer i bund og grund gulv med de fleste open-weights.

De har virkelig satset alt på reinforcement learning til denne variant.

Speciale er designet specifikt til reasoning... lad modellen tænke så længe, den har brug for.

Den bruger nu deres DSA eller Deepseek sparse architecture til at løse attention-flaskehalsen.

Dette er ikke bare en teoretisk optimering. Det betyder, at denne model er utroligt billig at køre, selv ved lange kontekster.

Når man ser på HumanEval, er 94,1 % bare svimlende for en model, man kan downloade.

Den føles mere 'intelligent' i måden, den håndterer kode-refactoring på sammenlignet med standard V3.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange
Se demovideo

Pro-tips til DeepSeek-V3.2-Speciale

Eksperttips til at hjælpe dig med at få mest muligt ud af DeepSeek-V3.2-Speciale og opnå bedre resultater.

Deaktiver længdebegrænsninger

Sørg for, at dit API-kald ikke har restriktive max_tokens grænser; modellen har brug for plads til at "tænke".

Overvåg token-forbrug

Denne model prioriterer nøjagtighed over kortfattethed og kan bruge 3-4 gange flere tokens end standardmodeller til den samme opgave.

Udnyt tænkepauser i Tool-Use

Brug modellen til komplekse agent-opgaver, hvor den kan anvende reasoning under eksekvering af værktøjer frem for kun før.

Lokal kvantisering

Hvis du kører den lokalt, bør du bruge Q5_K_M eller højere kvantisering for at bevare de indviklede reasoning-vægte i 671B-arkitekturen.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
moonshot

Kimi K2 Thinking

moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.15/1M
openai

GPT-5.2

openai

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
openai

GPT-5.2 Pro

openai

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M

Ofte stillede spørgsmål om DeepSeek-V3.2-Speciale

Find svar på almindelige spørgsmål om DeepSeek-V3.2-Speciale