anthropic

Claude Sonnet 4.5

Anthropic's Claude Sonnet 4.5 leverer verdensførende kodning (77,2% SWE-bench) og et 200K context window, optimeret til den næste generation af autonome...

AI CodingAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude29. september 2025
Kontekst
200Ktokens
Maks output
64Ktokens
Input-pris
$3.00/ 1M
Output-pris
$15.00/ 1M
Modalitet:TextImageAudioVideo
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
83%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Claude Sonnet 4.5 scorede 83% på denne benchmark.
HLE
34%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Claude Sonnet 4.5 scorede 34% på denne benchmark.
MMLU
89%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Claude Sonnet 4.5 scorede 89% på denne benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Claude Sonnet 4.5 scorede 78% på denne benchmark.
SimpleQA
52%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Claude Sonnet 4.5 scorede 52% på denne benchmark.
IFEval
88%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Claude Sonnet 4.5 scorede 88% på denne benchmark.
AIME 2025
87%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Claude Sonnet 4.5 scorede 87% på denne benchmark.
MATH
87%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Claude Sonnet 4.5 scorede 87% på denne benchmark.
GSM8k
98%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Claude Sonnet 4.5 scorede 98% på denne benchmark.
MGSM
92%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Claude Sonnet 4.5 scorede 92% på denne benchmark.
MathVista
72%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Claude Sonnet 4.5 scorede 72% på denne benchmark.
SWE-Bench
77%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Claude Sonnet 4.5 scorede 77% på denne benchmark.
HumanEval
94%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Claude Sonnet 4.5 scorede 94% på denne benchmark.
LiveCodeBench
68%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Claude Sonnet 4.5 scorede 68% på denne benchmark.
MMMU
78%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Claude Sonnet 4.5 scorede 78% på denne benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Claude Sonnet 4.5 scorede 55% på denne benchmark.
ChartQA
89%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Claude Sonnet 4.5 scorede 89% på denne benchmark.
DocVQA
92%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Claude Sonnet 4.5 scorede 92% på denne benchmark.
Terminal-Bench
50%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Claude Sonnet 4.5 scorede 50% på denne benchmark.
ARC-AGI
14%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Claude Sonnet 4.5 scorede 14% på denne benchmark.

Om Claude Sonnet 4.5

Lær om Claude Sonnet 4.5s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

**Frontlinjen for Agentic Intelligence**

Claude 4.5 Sonnet repræsenterer et stort fremskridt inden for frontier-intelligens, optimeret til æraen for autonome AI-agenter. Den blev udgivet sent i 2025 og er en hybrid reasoning-model, der gør det muligt for udviklere at skifte mellem hurtig eksekvering af rutineopgaver og extended thinking til komplekse logiske udfordringer. Den fører i benchmarks inden for computer use og tool-orkestrering, hvilket gør den til den foretrukne motor for terminal-baserede agenter og softwareudvikling med mange filer.

**Præcision og færre hallucinationer**

Modelarkitekturen prioriterer logik og præcision, hvilket mindsker den tendens til 'sycophancy' og hallucinationer, der blev observeret i tidligere serier. Med en 64.000-token output-grænse og et 200.000-token input-vindue kan den behandle hele repositories og samtidig generere komplette applikationsfiler i én arbejdsgang. Den introducerer native checkpoints til agentic workflows, hvilket tillader systemer at rulle tilbage og rette fejl autonomt uden menneskelig indgriben.

**Multimodal og logisk styrke**

Udover softwareudvikling excellerer Sonnet 4.5 i multimodal dokumentanalyse og finansiel modellering. Dens interne logik prioriterer arkitektonisk context, hvilket gør den bedre i stand til at kortlægge storskala-systemer end sine forgængere. Uanset om den behandler håndskrevne noter eller implementerer API-integrationer, bevarer modellen høj faktuel nøjagtighed og streng overholdelse af instruktioner på tværs af opgaver med lang tidshorisont.

Claude Sonnet 4.5

Anvendelser for Claude Sonnet 4.5

Opdag de forskellige måder, du kan bruge Claude Sonnet 4.5 til at opnå gode resultater.

Autonom softwareudvikling

Håndtering af udvikling fra ende til anden, fra indledende krav til automatiske commits via terminal-interfaces.

GUI-baseret automatisering

Automatisering af web-browsing og dataindtastning i legacy-applikationer ved hjælp af indbyggede computer use-kapabiliteter.

Multi-agent orkestrering

Delegering af specialiserede opgaver til under-agenter som reviewers og builders i et centralt planlægningsloop.

Kompleks refactoring af kode

Om-arkitektur af codebases med flere filer, mens der opretholdes konsistens på tværs af 200.000 tokens aktiv context.

Nuanceret finansiel analyse

Analyse af kvartalsrapporter og regneark med vision-kapabiliteter for at identificere uoverensstemmelser og investeringsindsigt.

Interaktiv datavisualisering

Generering af dynamiske diagrammer fra komplekse datasæt ved hjælp af indlejret kodekørsel og realtids-opbygning.

Styrker

Begrænsninger

Native Computer Use: Modellen interagerer med operativsystemer via markørbevægelser og GUI-manipulation med 61,4 procents nøjagtighed.
Intet native audio-input: Modellen kan ikke direkte behandle lydfiler som en indbygget modalitet og kræver eksterne transskriberingsværktøjer.
Elite coding-præstation: Den opnår 77,2 procent på SWE-bench Verified og fører over alle andre modeller i løsning af GitHub-issues.
Omkostning ved reasoning-tokens: Tokens brugt under intern extended thinking afregnes som output tokens, hvilket øger prisen for komplekse forespørgsler.
30-timers opgavehorisont: Arkitekturen muliggør 30 timers kontinuerligt autonomt arbejde, mens den bevarer tilstand og fokus.
Latency i Thinking Mode: Når extended thinking er aktiveret, kan det tage modellen flere minutter at behandle komplekse arkitektoniske planer.
64K output-grænse: Massiv output-kapacitet gør det muligt at generere hele applikationsarkitekturer i ét API-kald.
Varians i matematisk konkurrence-benchmark: Selvom den fører inden for kodning, ligger den til tider efter specialiserede reasoning-modeller i specifikke benchmarks for konkurrenceprogrammering.

API hurtig start

anthropic/claude-4-5-sonnet

Se dokumentation
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-4-5-sonnet-20250929",
  max_tokens: 1024,
  messages: [
    { role: "user", content: "Analyze this codebase for security flaws." }
  ],
});

console.log(response.content[0].text);

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Claude Sonnet 4.5

Se hvad fællesskabet mener om Claude Sonnet 4.5

Claude 4.5 Sonnet er tilgængelig overalt i dag, den bedste coding-model i verden.
ClaudeOfficial
reddit
Dette løser et af de mest smertefulde skaleringsproblemer med MCP-setups. Jeg så min context fordampe, før det egentlige arbejde overhovedet begyndte.
Simon Willison
twitter
Claude Code-Sonnet 4.5 er langt foran Gemini 3.0 Pro til komplekse Dockerized refactoring-opgaver.
Comfortable-Friend96
reddit
Mønsteret: Fejl bliver til dokumentation. Du tilføjer en regel til CLAUDE.md, og det sker aldrig igen.
Boris Cherny
twitter
Hybrid reasoning-tilstanden er en lifesaver til debugging af kompleks async-logik, hvor almindelige modeller bare går i loop.
AsyncDev
hackernews
Prisparitet med 3.5 Sonnet gør dette til en nem opgradering for alle vores agent-pipelines i produktion.
StartupFounder2025
reddit

Videoer om Claude Sonnet 4.5

Se vejledninger, anmeldelser og diskussioner om Claude Sonnet 4.5

Denne nye 4.5 Sonnet-model overgår endda Opus 4.1 i Swaybench verified-testen

Den var i stand til at bevare fokus i over 30 timer på komplekse opgaver med mange trin

Den fører i OS World-benchmark for computer use med en score på 61,4 procent

Den interne reasoning-motor håndterer Python-miljøer med langt mere stabilitet end 3.5

Terminal-integrationen føles meget mere tæt med næsten nul hallucinerede shell-kommandoer

Sonnet 4.5 fører nu inden for agentic tool use... et hop på 20 procent, hvilket er virkelig spændende

Claude code med Sonnet 4.5 gennemførte hele Stripe-implementeringen på 15 minutter

Claude Sonnet 4.5 var meget hurtigere og et pænt stykke bedre

Thinking-toggle giver dig mulighed for at kaste mere compute efter specifikke kodestykker

Den beholder context perfekt, selv når du er 150.000 tokens inde i et massivt projekt

Det er den bedst præsterende model nogensinde, når den styrer din computer

Fald i fejlrater for kodning fra 9 procent til stort set nul

Claude imagine er måske den fedeste funktion... en app-byggeoplevelse i realtid

MCP-integrationen gør det muligt at søge i værktøjer uden at opbruge din prompt-context

Vision-latency er væsentligt reduceret ved analyse af komplekse UI-layouts

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til Claude Sonnet 4.5

Eksperttips til at hjælpe dig med at få mest muligt ud af Claude Sonnet 4.5 og opnå bedre resultater.

Aktivér MCP Tool Search

Brug Model Context Protocol Tool Search for at reducere context-forbrug med 85 procent og give plads til aktive filer.

Udnyt Agentic Checkpoints

Brug /checkpoint-kommandoen i terminal-interfaces for at gemme fremskridt før større refactoring, så du lynhurtigt kan rulle tilbage.

Context Budgeting

Ryd historikken mellem uafhængige opgaver for at undgå context-forringelse og bevare høj logisk præcision.

System Prompt Hierarki

Definér model-personaen og strenge output-restriktioner i en dedikeret konfigurationsfil for at sikre konsistens på tværs af agenter.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Ofte stillede spørgsmål om Claude Sonnet 4.5

Find svar på almindelige spørgsmål om Claude Sonnet 4.5