anthropic

Claude Opus 4.5

Claude Opus 4.5 er Anthropics mest kraftfulde frontier model, der leverer rekordhøj 80,9 % SWE-bench-performance og avanceret autonom agency til kodning.

anthropic logoanthropicClaude 424. november 2025
Kontekst
200Ktokens
Maks output
64Ktokens
Input-pris
$5.00/ 1M
Output-pris
$25.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
87%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Claude Opus 4.5 scorede 87% på denne benchmark.
MMLU
90.8%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Claude Opus 4.5 scorede 90.8% på denne benchmark.
MMLU Pro
80%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Claude Opus 4.5 scorede 80% på denne benchmark.
IFEval
90%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Claude Opus 4.5 scorede 90% på denne benchmark.
AIME 2025
37%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Claude Opus 4.5 scorede 37% på denne benchmark.
MATH
85%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Claude Opus 4.5 scorede 85% på denne benchmark.
GSM8k
95%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Claude Opus 4.5 scorede 95% på denne benchmark.
MGSM
92%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Claude Opus 4.5 scorede 92% på denne benchmark.
MathVista
72%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Claude Opus 4.5 scorede 72% på denne benchmark.
SWE-Bench
80.9%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Claude Opus 4.5 scorede 80.9% på denne benchmark.
HumanEval
90%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Claude Opus 4.5 scorede 90% på denne benchmark.
LiveCodeBench
75%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Claude Opus 4.5 scorede 75% på denne benchmark.
MMMU
80.7%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Claude Opus 4.5 scorede 80.7% på denne benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Claude Opus 4.5 scorede 60% på denne benchmark.
ChartQA
90%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Claude Opus 4.5 scorede 90% på denne benchmark.
DocVQA
94%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Claude Opus 4.5 scorede 94% på denne benchmark.
Terminal-Bench
59.3%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Claude Opus 4.5 scorede 59.3% på denne benchmark.
ARC-AGI
37.6%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Claude Opus 4.5 scorede 37.6% på denne benchmark.

Om Claude Opus 4.5

Lær om Claude Opus 4.5s muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Claude Opus 4.5 er flagskibsmodellen fra Anthropic, udgivet i slutningen af 2025. Den er specifikt designet til kompleks softwareudvikling og højrisiko-reasoning. Modellen opnåede en rekordhøj score på 80,9 % på SWE-bench Verified-benchmarken, hvilket gør den til det foretrukne valg til autonom debugging og refactoring af systemer. Den introducerer en raffineret persona, der vægter diplomatisk ærlighed og nuanceret hjælpsomhed.

Multimodal og agentic optimering

Arkitekturen understøtter et 200.000-token context window og en 64.000-token output-grænse. Udviklere kan bruge en specialiseret effort-parameter til at skalere reasoning-dybde i forhold til beregningsomkostninger. Denne fleksibilitet giver mulighed for højintensive logikopgaver eller hurtigere, mere økonomiske kreative udkast. Modellen er multimodal og er særdeles dygtig til at fortolke arkitektoniske diagrammer og tætte UI-layouts.

Ingeniørarbejde og værktøjsbrug

Optimeret til agentic workflows, navigerer den i terminalmiljøer via Claude Code for at udføre systemomfattende audits. Den reducerer priser for input og output væsentligt sammenlignet med tidligere flagskibsmodeller. Dens evne til at bevare sammenhæng i langsigtede opgaver gør den til en pålidelig partner for professionelle ingeniørteams og kompleks dataanalyse.

Claude Opus 4.5

Anvendelser for Claude Opus 4.5

Opdag de forskellige måder, du kan bruge Claude Opus 4.5 til at opnå gode resultater.

Autonom softwareudvikling

Automatisering af end-to-end debugging og systemomfattende refactoring med en rekordhøj score på 80,9 % på SWE-bench.

Agentic research-workflows

Syntetisering af enorme mængder teknisk data til handlingsorienterede forretningsstrategier ved hjælp af et 200k context window.

High-fidelity UI/UX vision

Konvertering af komplekse Figma-designs og arkitekturdiagrammer til produktionsklar frontend-kode med pixel-perfekt nøjagtighed.

Multi-agent orkestrering

Fungerer som den centrale hjerne for teams af sub-agents til at styre langsigtede projekter på tværs af forskellige kodebaser.

Avanceret dataanalyse

Automatisering af komplekse finansielle modeller og Excel-workflows med høj præcision og reasoning-dybde.

Litterært og kreativt arbejde

Produktion af nuanceret tekst, der overholder specifikke stilkrav og komplekse menneskecentrerede designprincipper.

Styrker

Begrænsninger

Elite kodningsperformance: Den første model, der bryder 80 %-barrieren på SWE-bench Verified (80,9 %), og som udkonkurrerer alle andre frontier models.
Huller i matematiske benchmarks: Selvom den er i eliteklassen inden for kodning, ligger den en smule bag specialiserede modeller inden for matematik på ph.d.-niveau.
Fleksibel kontrol over reasoning: Effort-parameteren giver udviklere granulær kontrol over beregningsomkostninger og reasoning-dybde til specifikke workflows.
Latency ved planlægning: Hvis effort-parameteren sættes til 'high', kan det resultere i væsentligt længere tænkefaser, før det første token genereres.
Naturlig nuanceret samtale: Anerkendt for en raffineret persona, der håndterer tvetydighed og følger komplekse baggrundsscenarier uden robotagtig vejledning.
Begrænsninger i kontekst-tokens: System prompts og værktøjsdefinitioner kan forbruge en stor del af dit context window, før selve behandlingen begynder.
Betydelig omkostningseffektivitet: Prissætningen på $5/$25 gør intelligens på Opus-niveau tilgængelig for enterprise-produktion i stor skala.
Upræcis faktuel genkaldelse: I specialiserede nøjagtighedstests som SimpleQA kan den stadig lejlighedsvis opdigte detaljer sammenlignet med søgeintensive konkurrenter.

API hurtig start

anthropic/claude-opus-4.5

Se dokumentation
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Analyser denne systemarkitektur for race conditions.' }],
});

console.log(msg.content[0].text);

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Claude Opus 4.5

Se hvad fællesskabet mener om Claude Opus 4.5

Claude Opus 4.5 føles mindre som en statsløs assistent og mere som en vedholdende teamkammerat. Den kan spore antagelser på tværs af flere filer på en måde, der føles markant stærkere.
Federal-Piano8695
reddit
At se din AI-agent udvikle en persona på sociale medier, der resonerer med rigtige mennesker på måder, du ikke kan forklare. Infrastruktur betyder mere end prompts.
auxten
twitter
Opus er den bedst præsterende model på dette punkt. Dens diskussion er mest naturlig, og den følger virkelig med dig i samtalen.
ArchMeta1868
reddit
Opus 4.5 rammer de mindste nuancer. Det er den eneste model, der succesfuldt inkluderede en inline-trailer-mekanisme i første forsøg.
Matt Berman
youtube
SWE-bench-scoren på 80,9 % er sikkert reel, men også lidt misvisende. Det kræver et klart miljø-setup at ramme de tal konsekvent.
testingcatalog
twitter
SWE-bench Verified: 80,9 % (Opus 4.5) mod 71,3 % (Claude 3-Opus). Dette er et massivt spring for pålidelighed i den virkelige verden.
Daniel Garcia
medium

Videoer om Claude Opus 4.5

Se vejledninger, anmeldelser og diskussioner om Claude Opus 4.5

Opus 4.5 rammer selv de mindste nuancer

Det var den eneste model, der succesfuldt inkluderede en inline-trailer-mekanisme i første forsøg

En agent-drevet kodeevaluering bekræfter denne subjektive følelse og giver Opus 7/10 for feature-komplethed

Deres reasoning er langt mere logisk end tidligere versioner, når det kommer til edge cases

Den opretholder konsistens i kodebasen over 30-minutters sessioner

Prisen er nu tre gange lavere. Det kommer kun til at koste $5 for en million input-tokens

Input er $5 og output er $25 for en million tokens

Opus 4.5 scorede højere, end nogen menneskelig kandidat nogensinde har gjort til Anthropics egen hjemmeopgave

Dette er den første model, der bryder 80-procentsbarrieren på SWE-bench

Den håndterer autonome 30-minutters kodningssessioner uden menneskelig indgriben

Tænk på Claude Opus 4.5 som et overtalelseslag og et absolut agentic monster

Det er et absolut agentic monster til kodning

Ingeniører ender med at foretrække at arbejde med Claude Opus 4.5, fordi de får de stramme feedback-loops

Reasoning effort-parameteren er den funktion, der skiller sig mest ud for udviklere

Den føles mere som en samarbejdspartner end et værktøj i lange diskussioner

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til Claude Opus 4.5

Eksperttips til at hjælpe dig med at få mest muligt ud af Claude Opus 4.5 og opnå bedre resultater.

Juster reasoning-indsatsen

Brug effort-parameteren til at vælge 'high' til kompleks logik eller kodningsopgaver, og 'medium' til almindelig kreativ skrivning.

Vision-native design

Upload screenshots i høj opløsning af UI-fejl, da modellen er fintunet til at identificere visuelle uoverensstemmelser, som tekstbeskrivelser overser.

Strukturerede system prompts

Definer klare agentic roller og effort-niveauer i dine system prompts for at forhindre, at modellen overanalyserer enklere procedureopgaver.

Komprimering af kontekst

Opsummer historikken i langvarige sessioner for at holde dit 200k context window fokuseret på den mest relevante information.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Ofte stillede spørgsmål om Claude Opus 4.5

Find svar på almindelige spørgsmål om Claude Opus 4.5