anthropic

Claude Sonnet 4.5

Anthropic's Claude Sonnet 4.5 bietet weltweit führende Coding-Leistung (77,2% SWE-bench) und ein 200K context window, optimiert für die nächste Generation...

AI CodingAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude29. September 2025
Kontext
200KToken
Max. Ausgabe
64KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImageAudioVideo
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
83%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Claude Sonnet 4.5 erreichte 83% bei diesem Benchmark.
HLE
34%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Claude Sonnet 4.5 erreichte 34% bei diesem Benchmark.
MMLU
89%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Claude Sonnet 4.5 erreichte 89% bei diesem Benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Claude Sonnet 4.5 erreichte 78% bei diesem Benchmark.
SimpleQA
52%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Claude Sonnet 4.5 erreichte 52% bei diesem Benchmark.
IFEval
88%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Claude Sonnet 4.5 erreichte 88% bei diesem Benchmark.
AIME 2025
87%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Claude Sonnet 4.5 erreichte 87% bei diesem Benchmark.
MATH
87%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Claude Sonnet 4.5 erreichte 87% bei diesem Benchmark.
GSM8k
98%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Claude Sonnet 4.5 erreichte 98% bei diesem Benchmark.
MGSM
92%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Claude Sonnet 4.5 erreichte 92% bei diesem Benchmark.
MathVista
72%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Claude Sonnet 4.5 erreichte 72% bei diesem Benchmark.
SWE-Bench
77%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Claude Sonnet 4.5 erreichte 77% bei diesem Benchmark.
HumanEval
94%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Claude Sonnet 4.5 erreichte 94% bei diesem Benchmark.
LiveCodeBench
68%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Claude Sonnet 4.5 erreichte 68% bei diesem Benchmark.
MMMU
78%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Claude Sonnet 4.5 erreichte 78% bei diesem Benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Claude Sonnet 4.5 erreichte 55% bei diesem Benchmark.
ChartQA
89%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Claude Sonnet 4.5 erreichte 89% bei diesem Benchmark.
DocVQA
92%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Claude Sonnet 4.5 erreichte 92% bei diesem Benchmark.
Terminal-Bench
50%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Claude Sonnet 4.5 erreichte 50% bei diesem Benchmark.
ARC-AGI
14%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Claude Sonnet 4.5 erreichte 14% bei diesem Benchmark.

Über Claude Sonnet 4.5

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Claude Sonnet 4.5.

**Die Grenze der Agentic Intelligence**

Claude 4.5 Sonnet stellt einen bedeutenden Fortschritt in der frontier intelligence dar, optimiert für das Zeitalter der autonomen KI-Agenten. Es wurde Ende 2025 veröffentlicht und ist ein hybrid reasoning model, das es Entwicklern ermöglicht, zwischen Hochgeschwindigkeitsausführung für Routineaufgaben und Extended Thinking für komplexe logische Herausforderungen zu wählen. Es führt die benchmarks bei Computer Use und Tool-Orchestrierung an, was es zu einer bevorzugten Engine für terminalbasierte Agenten und softwaretechnische Aufgaben mit vielen Dateien macht.

**Präzision und reduzierte Halluzinationen**

Die Architektur des Modells priorisiert Logik und Präzision und reduziert die Unterwürfigkeit und Halluzinationen, die bei früheren Serien beobachtet wurden. Mit einem 64.000-token Output-Limit und einem 200.000-token Input-Fenster kann es ganze Repositories verarbeiten und in einem einzigen Durchgang vollständige Anwendungsdateien generieren. Es führt native Checkpoints für agentic Workflows ein, die es Systemen ermöglichen, Fehler autonom rückgängig zu machen und zu korrigieren, ohne dass ein Mensch eingreifen muss.

**Multimodale und Reasoning-Fähigkeiten**

Neben der Softwareentwicklung überzeugt Sonnet 4.5 bei der multimodalen Dokumentenanalyse und Finanzmodellierung. Seine interne Logik priorisiert den architektonischen Kontext, wodurch es in der Lage ist, groß angelegte Systeme effektiver abzubilden als seine Vorgänger. Ob bei der Verarbeitung handgeschriebener Notizen oder der Implementierung von API-Integrationen – das Modell behält eine hohe faktische Genauigkeit bei und befolgt strikte Anweisungen bei Aufgaben über lange Zeiträume hinweg.

Claude Sonnet 4.5

Anwendungsfälle für Claude Sonnet 4.5

Entdecken Sie die verschiedenen Möglichkeiten, Claude Sonnet 4.5 für großartige Ergebnisse zu nutzen.

Autonome Softwareentwicklung

Steuerung der gesamten Entwicklung von den ersten Anforderungen bis zu automatisierten Commits über terminal interfaces.

GUI-basierte Automatisierung

Automatisierung von Web-Browsing und Dateneingabe in Legacy-Anwendungen mittels nativer Computer-Use-Fähigkeiten.

Multi-Agenten-Orchestrierung

Delegierung spezialisierter Aufgaben an Unter-Agents wie Reviewer oder Builder innerhalb einer zentralen Planungsschleife.

Komplexes Code-Refactoring

Re-Architektur von Codebases mit mehreren Dateien unter Wahrung der Konsistenz über 200.000 tokens aktiven contexts hinweg.

Nuancierte Finanzanalyse

Analyse von Quartalsberichten und Tabellenkalkulationen mittels Vision, um Diskrepanzen und Anlagestrategien zu identifizieren.

Interaktive Datenvisualisierung

Generierung dynamischer Diagramme aus komplexen Datensätzen durch eingebettete Code-Ausführung und Echtzeit-Erstellung.

Stärken

Einschränkungen

Natives Computer Use: Das Modell interagiert über Cursor-Bewegungen und GUI-Manipulation mit Betriebssystemen bei einer Genauigkeit von 61,4 Prozent.
Keine native Audio-Eingabe: Das Modell kann Audiodateien nicht direkt als native Modalität verarbeiten und benötigt externe Transkriptions-Tools.
Erstklassige Coding-Leistung: Es erreicht 77,2 Prozent beim SWE-bench Verified und führt damit alle anderen Modelle bei der Lösung von GitHub-Issues an.
Kosten für Reasoning-tokens: Tokens, die während des internen Extended Thinkings verwendet werden, werden als Output-tokens berechnet, was die Kosten für komplexe Anfragen erhöht.
30-Stunden-Aufgabenhorizont: Die Architektur ermöglicht 30 Stunden kontinuierliche autonome Arbeit unter Beibehaltung von Status und Fokus.
Latenz im Thinking-Modus: Wenn Extended Thinking aktiviert ist, kann das Modell mehrere Minuten benötigen, um komplexe architektonische Pläne zu verarbeiten.
64K Output-Limit: Die enorme Output-Kapazität erlaubt die Generierung vollständiger Anwendungsarchitekturen in einem einzigen API-Aufruf.
Varianz bei Wettbewerbsmathematik: Obwohl es beim Coding führend ist, liegt es bei spezifischen Benchmarks für Wettbewerbsprogrammierung gelegentlich hinter spezialisierten Reasoning-Modellen.

API-Schnellstart

anthropic/claude-4-5-sonnet

Dokumentation anzeigen
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-4-5-sonnet-20250929",
  max_tokens: 1024,
  messages: [
    { role: "user", content: "Analysiere diese Codebase auf Sicherheitslücken." }
  ],
});

console.log(response.content[0].text);

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Claude Sonnet 4.5 sagen

Sehen Sie, was die Community über Claude Sonnet 4.5 denkt

Claude 4.5 Sonnet ist heute überall verfügbar, das beste Coding-Modell der Welt.
ClaudeOfficial
reddit
Das behebt eines der schmerzhaftesten Skalierungsprobleme bei MCP-Setups. Ich habe gesehen, wie der Kontext verdampfte, bevor die eigentliche Arbeit begann.
Simon Willison
twitter
Claude Code-Sonnet 4.5 ist Gemini 3.0 Pro bei komplexen Dockerized Refactoring-Aufgaben weit voraus.
Comfortable-Friend96
reddit
Das Muster: Fehler werden zur Dokumentation. Du fügst eine Regel zu CLAUDE.md hinzu und sie passiert nie wieder.
Boris Cherny
twitter
Der Hybrid Reasoning-Modus ist ein Lebensretter für das Debugging komplexer asynchroner Logik, bei der normale Modelle einfach nur in Schleifen laufen.
AsyncDev
hackernews
Die Preisparität mit 3.5 Sonnet macht dies zu einem einfachen Upgrade für all unsere produktiven Agenten-Pipelines.
StartupFounder2025
reddit

Videos über Claude Sonnet 4.5

Schauen Sie Tutorials, Rezensionen und Diskussionen über Claude Sonnet 4.5

Dieses neue 4.5 Sonnet Modell übertrifft sogar Opus 4.1 im Swaybench Verified Test

Es konnte bei komplexen mehrstufigen Aufgaben über 30 Stunden lang den Fokus halten

Es führt das OS World Computer Use Benchmark mit einer Punktzahl von 61,4 Prozent an

Die interne reasoning-Engine handhabt Python-Umgebungen weitaus stabiler als 3.5

Die Terminal-Integration fühlt sich deutlich präziser an, fast ohne halluzinierte Shell-Befehle

Sonnet 4.5 ist jetzt führend bei der Nutzung von agentic tools... ein Sprung von 20 Prozent, was wirklich aufregend ist

Claude Code mit Sonnet 4.5 hat die gesamte Stripe-Implementierung in 15 Minuten abgeschlossen

Claude Sonnet 4.5 war deutlich schneller und ein gutes Stück besser

Der Thinking-Schalter erlaubt es, mehr Rechenleistung auf spezifische Code-Blöcke zu verteilen

Es behält den Kontext perfekt bei, selbst wenn man 150.000 tokens tief in einem riesigen Projekt steckt

Es ist das leistungsfähigste Modell überhaupt, wenn es Ihren Computer steuert

Die Fehlerraten beim Programmieren sind von 9 Prozent auf praktisch Null gesunken

Claude Imagine ist vielleicht das coolste Feature... ein App-Entwicklungserlebnis in Echtzeit

Die MCP-Integration erlaubt es, Tools zu durchsuchen, ohne den prompt-context aufzubrauchen

Die Latenz bei der Vision-Analyse ist bei komplexen UI-Layouts deutlich reduziert

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Claude Sonnet 4.5

Expertentipps, um das Beste aus Claude Sonnet 4.5 herauszuholen.

MCP Tool-Suche aktivieren

Nutzen Sie die Model Context Protocol Tool-Suche, um die context-Nutzung um 85 Prozent zu reduzieren und Platz für aktive Dateien zu schaffen.

Agentic Checkpoints nutzen

Verwenden Sie den Befehl /checkpoint in terminal interfaces, um vor größeren Refactorings den Fortschritt für ein sofortiges Rollback zu speichern.

Context Budgeting

Löschen Sie den Verlauf zwischen nicht zusammenhängenden Aufgaben, um Context-Fehler zu vermeiden und eine hohe logische Genauigkeit beizubehalten.

System Prompt Hierarchie

Definieren Sie die Modell-Persona und strikte Output-Vorgaben in einer eigenen Konfigurationsdatei für konsistente Ergebnisse über mehrere Agents hinweg.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Häufig gestellte Fragen zu Claude Sonnet 4.5

Finden Sie Antworten auf häufige Fragen zu Claude Sonnet 4.5