anthropic

Claude Opus 4.5

Claude Opus 4.5 ist das leistungsstärkste frontier model von Anthropic mit einer rekordverdächtigen 80,9 % SWE-bench-Performance und fortschrittlicher...

anthropic logoanthropicClaude 424. November 2025
Kontext
200KToken
Max. Ausgabe
64KToken
Eingabepreis
$5.00/ 1M
Ausgabepreis
$25.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
87%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Claude Opus 4.5 erreichte 87% bei diesem Benchmark.
MMLU
90.8%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Claude Opus 4.5 erreichte 90.8% bei diesem Benchmark.
MMLU Pro
80%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Claude Opus 4.5 erreichte 80% bei diesem Benchmark.
IFEval
90%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Claude Opus 4.5 erreichte 90% bei diesem Benchmark.
AIME 2025
37%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Claude Opus 4.5 erreichte 37% bei diesem Benchmark.
MATH
85%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Claude Opus 4.5 erreichte 85% bei diesem Benchmark.
GSM8k
95%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Claude Opus 4.5 erreichte 95% bei diesem Benchmark.
MGSM
92%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Claude Opus 4.5 erreichte 92% bei diesem Benchmark.
MathVista
72%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Claude Opus 4.5 erreichte 72% bei diesem Benchmark.
SWE-Bench
80.9%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Claude Opus 4.5 erreichte 80.9% bei diesem Benchmark.
HumanEval
90%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Claude Opus 4.5 erreichte 90% bei diesem Benchmark.
LiveCodeBench
75%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Claude Opus 4.5 erreichte 75% bei diesem Benchmark.
MMMU
80.7%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Claude Opus 4.5 erreichte 80.7% bei diesem Benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Claude Opus 4.5 erreichte 60% bei diesem Benchmark.
ChartQA
90%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Claude Opus 4.5 erreichte 90% bei diesem Benchmark.
DocVQA
94%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Claude Opus 4.5 erreichte 94% bei diesem Benchmark.
Terminal-Bench
59.3%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Claude Opus 4.5 erreichte 59.3% bei diesem Benchmark.
ARC-AGI
37.6%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Claude Opus 4.5 erreichte 37.6% bei diesem Benchmark.

Über Claude Opus 4.5

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Claude Opus 4.5.

Claude Opus 4.5 ist das flagship Modell von Anthropic, das Ende 2025 veröffentlicht wurde. Es wurde speziell für komplexes Software Engineering und reasoning mit hohem Anspruch entwickelt. Das Modell erreichte rekordverdächtige 80,9 % beim SWE-bench Verified Benchmark und ist damit eine erstklassige Wahl für autonomes Debugging und System-Refactoring. Es führt eine kultivierte Persona ein, die diplomatische Ehrlichkeit und nuancierte Hilfsbereitschaft betont.

Multimodal und Agentic Optimierung

Die Architektur unterstützt ein 200.000 tokens context window und ein 64.000 tokens output-Limit. Entwickler können einen speziellen effort-parameter verwenden, um die reasoning-Tiefe im Verhältnis zu den Rechenkosten zu skalieren. Diese Flexibilität ermöglicht hochintensive Logikaufgaben oder schnellere, ökonomischere kreative Entwürfe. Das Modell ist multimodal und zeichnet sich durch die Interpretation architektonischer Diagramme und dichter UI-Layouts aus.

Engineering und Tool-Nutzung

Optimiert für agentic Workflows, navigiert es über Claude Code durch Terminalumgebungen, um systemweite Audits durchzuführen. Es senkt die Input- und Output-Preise im Vergleich zu früheren flagship Iterationen erheblich. Seine Fähigkeit, Kohärenz über langfristige Aufgaben hinweg zu wahren, macht es zu einem zuverlässigen Partner für professionelle Ingenieurteams und komplexe Datenanalysen.

Claude Opus 4.5

Anwendungsfälle für Claude Opus 4.5

Entdecken Sie die verschiedenen Möglichkeiten, Claude Opus 4.5 für großartige Ergebnisse zu nutzen.

Autonomes Software Engineering

Automatisierung von End-to-End-Debugging und systemweitem Refactoring mit einem rekordverdächtigen SWE-bench-Ergebnis von 80,9 %.

Agentic Research Workflows

Synthetisierung riesiger Mengen technischer Daten in umsetzbare Geschäftsstrategien unter Nutzung des 200k context window.

High-Fidelity UI/UX Vision

Umwandlung komplexer Figma-Designs und architektonischer Diagramme in produktionsfertigen Frontend-Code mit pixelgenauer Präzision.

Multi-Agent Orchestrierung

Dient als zentrales Gehirn für Teams von Sub-Agents, um langfristige Projekte über verschiedene Codebases hinweg zu verwalten.

Erweiterte Datenanalyse

Automatisierung komplexer Finanzmodellierungen und Excel-Workflows mit hoher Präzision und reasoning-Tiefe.

Literarisches und kreatives Entwerfen

Erstellung nuancierter Texte, die spezifischen Schreibstilen und komplexen, menschzentrierten Designprinzipien entsprechen.

Stärken

Einschränkungen

Elite Coding-Performance: Das erste Modell, das die 80%-Hürde bei SWE-bench Verified (80,9 %) durchbricht und alle anderen frontier models übertrifft.
Lücken bei Mathe-Benchmarks: Obwohl das Modell exzellent im Coding ist, liegt es bei mathematischen Aufgaben auf PhD-Niveau leicht hinter spezialisierten Modellen zurück.
Flexible Reasoning-Steuerung: Der effort-parameter gibt Entwicklern eine granulare Kontrolle über Rechenkosten und reasoning-Tiefe für spezifische Workflows.
Planning Latency: Das Einstellen des effort-parameters auf 'high' kann vor der Ausgabe des ersten token zu deutlich längeren Denkphasen führen.
Natürliche Gesprächsnuancen: Bekannt für eine kultivierte Persona, die mit Ambiguität umgeht und komplexen Hintergrundvorgaben folgt, ohne roboterhaft zu wirken.
Context token-Limits: System prompts und Tool-Definitionen können einen großen Teil des context window beanspruchen, bevor die Verarbeitung beginnt.
Signifikante Kosteneffizienz: Die Preisgestaltung von 5 $/25 $ macht Intelligenz auf Opus-Niveau für großvolumige Unternehmensproduktionen zugänglich.
Lücken beim faktischen Abruf: Bei spezialisierten Genauigkeitstests wie SimpleQA kann es im Vergleich zu suchintensiven Konkurrenzmodellen gelegentlich Details erfinden.

API-Schnellstart

anthropic/claude-opus-4.5

Dokumentation anzeigen
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Analysieren Sie diese Systemarchitektur auf Race Conditions.' }],
});

console.log(msg.content[0].text);

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Claude Opus 4.5 sagen

Sehen Sie, was die Community über Claude Opus 4.5 denkt

Claude Opus 4.5 fühlt sich weniger wie ein zustandsloser Assistent und mehr wie ein beständiger Teamkollege an. Es kann Annahmen über mehrere Dateien hinweg nachverfolgen, was sich eindeutig stärker anfühlt.
Federal-Piano8695
reddit
Man sieht, wie Ihr AI agent eine Social-Media-Persona entwickelt, die bei echten Menschen auf eine Weise Anklang findet, die man nicht erklären kann. Infrastruktur ist wichtiger als prompts.
auxten
twitter
Opus ist das leistungsfähigste Modell in diesem Aspekt. Seine Diskussion ist am natürlichsten und es folgt einem wirklich in der Diskussion.
ArchMeta1868
reddit
Opus 4.5 erfasst die kleinsten Nuancen. Es ist das einzige Modell, das erfolgreich einen Inline-Trailer-Mechanismus beim ersten Durchgang einfügt.
Matt Berman
youtube
Der SWE-bench-Score von 80,9 % ist wahrscheinlich echt, aber auch etwas irreführend. Es erfordert eine klare Umgebungseinrichtung, um diese Zahlen konsistent zu erreichen.
testingcatalog
twitter
SWE-bench Verified: 80,9 % (Opus 4.5) vs. 71,3 % (Claude 3-Opus). Dies ist ein massiver Sprung für die Zuverlässigkeit in der realen Welt.
Daniel Garcia
medium

Videos über Claude Opus 4.5

Schauen Sie Tutorials, Rezensionen und Diskussionen über Claude Opus 4.5

Opus 4.5 erfasst die kleinsten Nuancen

Es war das einzige Modell, das beim ersten Versuch erfolgreich einen Inline-Trailer-Mechanismus einfügte

Eine agent-gesteuerte Code-Bewertung bestätigt dieses subjektive Gefühl und bewertet Opus mit 7/10 für Feature-Vollständigkeit

Das reasoning ist bei der Handhabung von Edge Cases wesentlich logischer als bei früheren Versionen

Es behält die Konsistenz der Codebase über 30-minütige Sitzungen hinweg bei

Der Preis ist jetzt dreimal günstiger. Er liegt bei nur 5 $ für eine Million input tokens

Der Input kostet 5 $ und der Output 25 $ pro Million tokens

Opus 4.5 erzielte ein höheres Ergebnis als jeder menschliche Kandidat jemals bei der Take-Home-Prüfung von Anthropic

Dies ist das erste Modell, das die 80-Prozent-Hürde bei SWE-bench knackt

Es bewältigt autonome 30-minütige Coding-Sitzungen ohne menschliches Eingreifen

Stellen Sie sich Claude Opus 4.5 als eine Überzeugungsebene und ein absolutes agentic Monster vor

Es ist ein absolutes agentic und Coding-Monster

Ingenieure bevorzugen am Ende die Arbeit mit Claude Opus 4.5, weil sie diese engen Feedbackschleifen erhalten

Der reasoning effort-parameter ist das herausragende Feature für Entwickler

In Langzeitdiskussionen fühlt es sich mehr wie ein Mitarbeiter als wie ein Werkzeug an

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Claude Opus 4.5

Expertentipps, um das Beste aus Claude Opus 4.5 herauszuholen.

Reasoning-Aufwand umschalten

Verwenden Sie den effort-parameter: auf 'high' für komplexe Logik- oder Coding-Aufgaben und auf 'medium' für standardmäßiges kreatives Schreiben.

Vision-natives Design

Laden Sie hochauflösende Screenshots von UI-Bugs hoch, da das Modell darauf trainiert ist, visuelle Diskrepanzen zu erkennen, die in Textbeschreibungen übersehen werden.

Strukturierte System Prompts

Definieren Sie klare agentic Rollen und Aufwandsebenen in Ihren System Prompts, um zu verhindern, dass das Modell bei einfacheren prozeduralen Aufgaben zu stark ins Detail geht.

Kontext-Kompaktierung

Fassen Sie den Verlauf in lang laufenden Sitzungen zusammen, damit das 200k context window auf die relevantesten Informationen fokussiert bleibt.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Häufig gestellte Fragen zu Claude Opus 4.5

Finden Sie Antworten auf häufige Fragen zu Claude Opus 4.5