anthropic

Claude Sonnet 4.6

Claude Sonnet 4.6 bietet frontier performance für coding und Computer Use mit einem gewaltigen 1M token context window für nur $3/1M tokens.

Agentic AIMultimodalCodingComputer UseLanger Context
anthropic logoanthropicClaude17. Februar 2026
Kontext
1.0MToken
Max. Ausgabe
64KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImageAudioVideo
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
89.9%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Claude Sonnet 4.6 erreichte 89.9% bei diesem Benchmark.
HLE
49%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Claude Sonnet 4.6 erreichte 49% bei diesem Benchmark.
MMLU
89.3%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Claude Sonnet 4.6 erreichte 89.3% bei diesem Benchmark.
MMLU Pro
79.2%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Claude Sonnet 4.6 erreichte 79.2% bei diesem Benchmark.
SimpleQA
48.5%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Claude Sonnet 4.6 erreichte 48.5% bei diesem Benchmark.
IFEval
89.5%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Claude Sonnet 4.6 erreichte 89.5% bei diesem Benchmark.
AIME 2025
83%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Claude Sonnet 4.6 erreichte 83% bei diesem Benchmark.
MATH
85.3%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Claude Sonnet 4.6 erreichte 85.3% bei diesem Benchmark.
GSM8k
96.4%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Claude Sonnet 4.6 erreichte 96.4% bei diesem Benchmark.
MGSM
92.8%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Claude Sonnet 4.6 erreichte 92.8% bei diesem Benchmark.
MathVista
68.7%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Claude Sonnet 4.6 erreichte 68.7% bei diesem Benchmark.
SWE-Bench
79.6%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Claude Sonnet 4.6 erreichte 79.6% bei diesem Benchmark.
HumanEval
92.1%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Claude Sonnet 4.6 erreichte 92.1% bei diesem Benchmark.
LiveCodeBench
72.4%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Claude Sonnet 4.6 erreichte 72.4% bei diesem Benchmark.
MMMU
74.2%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Claude Sonnet 4.6 erreichte 74.2% bei diesem Benchmark.
MMMU Pro
75.6%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Claude Sonnet 4.6 erreichte 75.6% bei diesem Benchmark.
ChartQA
88.1%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Claude Sonnet 4.6 erreichte 88.1% bei diesem Benchmark.
DocVQA
93.4%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Claude Sonnet 4.6 erreichte 93.4% bei diesem Benchmark.
Terminal-Bench
59.1%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Claude Sonnet 4.6 erreichte 59.1% bei diesem Benchmark.
ARC-AGI
58.3%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Claude Sonnet 4.6 erreichte 58.3% bei diesem Benchmark.

Über Claude Sonnet 4.6

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Claude Sonnet 4.6.

Ein Generationensprung in der Intelligenz

Claude Sonnet 4.6 ist das bisher leistungsfähigste und vielseitigste model von Anthropic, konzipiert als Hochleistungs-Arbeitstier für komplexe Enterprise- und Entwickler-Workflows. Veröffentlicht am 17. Februar 2026, stellt es einen bedeutenden Generationensprung gegenüber der 4.5-Serie dar und führt Computer Use-Fähigkeiten auf menschlichem Niveau sowie ein massives 1-Million-token context window in der Beta ein. Das model ist für agentic Aufgaben optimiert, was bedeutet, dass es nicht nur Text verarbeitet, sondern autonom mehrstufige Operationen in verschiedenen Softwareumgebungen planen und ausführen kann.

Technische Raffinesse und Multimodalität

Technisch schließt Sonnet 4.6 die Lücke zwischen der Geschwindigkeit von Modellen der Mittelklasse und dem tiefen reasoning der Opus-Klasse. Es verfügt über Adaptive Thinking, was es ihm ermöglicht, den internen Aufwand für das reasoning basierend auf der Komplexität der Aufgabe zu skalieren. Dieses model ist zum neuen Standard für Claude Free- und Pro-Nutzer geworden und bietet flagship-Intelligenz in den Bereichen coding, Finanzanalyse und Dokumentenverständnis. Es ist ein wahrhaft natives multimodal model, das text, image, audio und video inputs unterstützt, um eine Vielzahl von Medienverarbeitungsaufgaben mit state-of-the-art Genauigkeit zu bewältigen.

Der neue Industriestandard für Agenten

Mit seinem exzellenten Preis-Leistungs-Verhältnis ist Sonnet 4.6 als primäre Engine für AI-Agenten positioniert. Es erreicht branchenführende Ergebnisse bei SWE-bench Verified (79,6 %) und OSWorld-Verified (72,5 %), was seine überlegene Fähigkeit unterstreicht, reale Software-Engineering-Probleme und komplexe Betriebssystemaufgaben zu bewältigen. Durch die Bereitstellung von Intelligenz auf Opus-Niveau zu einem Bruchteil der Kosten ermöglicht es Entwicklern den Aufbau autonomer Systeme, die zuvor rechentechnisch oder finanziell untragbar waren.

Claude Sonnet 4.6

Anwendungsfälle für Claude Sonnet 4.6

Entdecken Sie die verschiedenen Möglichkeiten, Claude Sonnet 4.6 für großartige Ergebnisse zu nutzen.

Autonome Softwareentwicklung

Verwendung von Claude Code, um ganze Repositories zu refactoren und komplexe Features mit repository-weitem context zu implementieren.

Computer Use auf menschlichem Niveau

Automatisierung von Legacy-Software und Web-Workflows durch visuelle Analyse des Bildschirms und Interaktion über virtuelle Maus und Tastatur.

Verständnis von Finanzdokumenten

Analyse von tausenden Seiten an Einreichungen und Tabellen, um komplexe Investmentstrategien oder Risiken zu bewerten.

Echtzeit-Business-Simulation

Durchführung von agentic Simulationen, bei denen das model ein virtuelles Unternehmen leitet und auf Rentabilität optimiert.

Mehrsprachiges technisches Schreiben

Erstellung technischer Dokumentation in dutzenden Sprachen unter perfekter Einhaltung architektonischer Spezifikationen.

Frontend-UI/UX-Generierung

Erstellung moderner Dashboard-Interfaces mit Fokus auf Typografie, Farblehre und responsivem Layout.

Stärken

Einschränkungen

Branchenführendes Coding: Erreicht state-of-the-art 79,6 % auf SWE-bench Verified und übertrifft Wettbewerber bei der Lösung realer GitHub-Issues.
Latenz im Thinking-Modus: Hohe Budgets für thinking tokens erhöhen die Zeit bis zum ersten token, was es für sofortige Echtzeit-Chats weniger ideal macht.
Herausragendes Preis-Leistungs-Verhältnis: Bietet ein Intelligenzniveau nahe an Opus bei 5-mal geringeren Kosten, was es zur wirtschaftlichsten Wahl für umfangreiche Automatisierung macht.
Einschränkungen durch Rate Limiting: Free- und Pro-Nutzer stoßen bei intensiven Sessions auf aggressive Nachrichtenlimits, was einen Wechsel zur API erforderlich macht.
Computernavigation auf menschlichem Niveau: Erreicht 72,5 % auf OSWorld-Verified und zeigt massive Verbesserungen bei der Navigation in komplexer software ohne APIs.
Context Decay ab 150k: Trotz des 1M-Fensters kann das model gelegentlich spezifische Details aus der Mitte sehr großer prompts verlieren.
Adaptive Reasoning-Power: Verfügt über einen skalierbaren Thinking-Modus, der es Entwicklern ermöglicht, den reasoning-Aufwand für schwierige Logikprobleme zu erhöhen.
Anfälligkeit für Prompt Injection: Das Computer Use Feature birgt Risiken, bei denen bösartige Websites versuchen könnten, die virtuelle Browser-Session des models zu kapern.

API-Schnellstart

anthropic/claude-sonnet-4-6

Dokumentation anzeigen
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-sonnet-4-6',
  max_tokens: 1024,
  messages: [
    { role: 'user', content: 'Analyze this codebase for security vulnerabilities.' }
  ],
});

console.log(msg.content);

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Claude Sonnet 4.6 sagen

Sehen Sie, was die Community über Claude Sonnet 4.6 denkt

Claude Sonnet 4.6 erreichte 94 % in unserem Versicherungs-benchmark und ist damit das leistungsstärkste model für Computer Use, das wir getestet haben.
Swami Sivasubramanian
twitter
Der Hype ist echt, das ist ohne Zweifel das beste (und unterhaltsamste) LLM, das ich je benutzt habe! Meilenweit über allem, was ich bisher gesehen habe.
WolframRavenwolf
reddit
Claude Sonnet 4.6 ist extrem witzig, nicht nur 'gelegentlich lustig'. Insgesamt herzlich, ehrlich und prosozial.
Anton P.
twitter
Sonnet 4.6 ist beim coding so viel besser als Cline. Ich öffne Dateien nicht einmal mehr manuell.
semibaron
hackernews
Das 1M context window ist ein Gamechanger für die Migration von codebases. Ich habe einfach meinen gesamten Legacy-Stack hochgeladen.
DevOpsDan
reddit
Es verarbeitet komplexe Tabellenkalkulationen und Webformulare mit fast schon unheimlicher Präzision. Die Computer Use Beta ist endlich bereit.
AI_Insights_Daily
youtube

Videos über Claude Sonnet 4.6

Schauen Sie Tutorials, Rezensionen und Diskussionen über Claude Sonnet 4.6

Sonnet 4.6 hat eine höhere Punktzahl beim GDP val erreicht, das reale, bedeutungsvolle Aufgaben misst.

Es wird immer schwieriger, überhaupt zu wissen, ob diese Modelle zu CBRN-Dingen fähig sind.

Das Verhältnis von Geschwindigkeit zu Intelligenz ist hier im Grunde von keinem anderen model auf dem Markt unerreicht.

Anthropic konzentriert sich mit diesem Release eindeutig auf die agentic Seite des Hauses.

Die Kostenstruktur macht dies zum neuen Standard für jeden API-Entwickler mit hohem Volumen.

Dieses model ist etwa doppelt so schnell wie das Opus-model aus dem letzten Monat.

Zusammenfassend lässt sich sagen, Leute, dieses model bietet das beste Preis-Leistungs-Verhältnis für Enterprise-coding.

Die Vision-Fähigkeiten zur Interpretation komplexer Architekturdiagramme wurden erheblich verbessert.

Ich konnte ihm 50 Dateien geben, und es hat die gesamte Routing-Logik perfekt refactored.

Es fühlt sich in seinem Kommunikationsstil viel menschlicher an als GPT-4o.

In einigen Bereichen schlägt es tatsächlich Opus 4.6, während es gleichzeitig 40 % günstiger ist.

Wenn wir das context window füllen, neigt die Effektivität dazu zu sinken, sobald wir etwa 150.000 tokens erreichen.

Das Feature für adaptive reasoning ermöglicht es im Grunde, zwischen Geschwindigkeit und tiefer Logik zu wechseln.

Dieses Release fühlt sich wie das erste echte 'agent-first' model von Anthropic an.

Ich würde es für alles verwenden, außer vielleicht für absolut hochkarätiges kreatives Schreiben.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Claude Sonnet 4.6

Expertentipps, um das Beste aus Claude Sonnet 4.6 herauszuholen.

Context Compaction nutzen

Aktivieren Sie die Compaction-Funktion in der API, um den älteren Gesprächsverlauf bei langen Sessions automatisch zusammenzufassen.

Thinking tokens strategisch einsetzen

Legen Sie für Mathematik oder komplexe Logik ein höheres Budget für thinking tokens fest, damit das model verschiedene reasoning-Pfade untersuchen kann.

Auf SPEC-Compliance hin prompten

Bitten Sie das model explizit darum, moderne architektonische Best Practices einzuhalten, da es von Natur aus auf aktualisierte Tools zurückgreift.

Artifacts für UI nutzen

Ermutigen Sie das model, UI-Artifacts zu verwenden, um Code-Generierungen vom Chat-Thread zu trennen und so Echtzeit-Iterationen zu ermöglichen.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

200K context
$5.00/$25.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.60/$3.60/1M
deepseek

DeepSeek-V3.2-Speciale

DeepSeek

DeepSeek-V3.2-Speciale is a reasoning-first LLM featuring gold-medal math performance, DeepSeek Sparse Attention, and a 131K context window. Rivaling GPT-5...

131K context
$0.28/$0.42/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

262K context
$0.60/$2.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Häufig gestellte Fragen zu Claude Sonnet 4.6

Finden Sie Antworten auf häufige Fragen zu Claude Sonnet 4.6