anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet ist das erste hybride Reasoning-model von Anthropic und bietet erstklassige Coding-Fähigkeiten, ein 200k context window und sichtbares...

anthropic logoanthropicClaude 324. Februar 2025
Kontext
200KToken
Max. Ausgabe
128KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
84.8%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Claude 3.7 Sonnet erreichte 84.8% bei diesem Benchmark.
HLE
34%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Claude 3.7 Sonnet erreichte 34% bei diesem Benchmark.
MMLU
89%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Claude 3.7 Sonnet erreichte 89% bei diesem Benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Claude 3.7 Sonnet erreichte 74% bei diesem Benchmark.
SimpleQA
42%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Claude 3.7 Sonnet erreichte 42% bei diesem Benchmark.
IFEval
93.2%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Claude 3.7 Sonnet erreichte 93.2% bei diesem Benchmark.
AIME 2025
54.8%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Claude 3.7 Sonnet erreichte 54.8% bei diesem Benchmark.
MATH
96.2%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Claude 3.7 Sonnet erreichte 96.2% bei diesem Benchmark.
GSM8k
97%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Claude 3.7 Sonnet erreichte 97% bei diesem Benchmark.
MGSM
92%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Claude 3.7 Sonnet erreichte 92% bei diesem Benchmark.
MathVista
70%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Claude 3.7 Sonnet erreichte 70% bei diesem Benchmark.
SWE-Bench
70.3%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Claude 3.7 Sonnet erreichte 70.3% bei diesem Benchmark.
HumanEval
94%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Claude 3.7 Sonnet erreichte 94% bei diesem Benchmark.
LiveCodeBench
65%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Claude 3.7 Sonnet erreichte 65% bei diesem Benchmark.
MMMU
75%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Claude 3.7 Sonnet erreichte 75% bei diesem Benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Claude 3.7 Sonnet erreichte 55% bei diesem Benchmark.
ChartQA
89%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Claude 3.7 Sonnet erreichte 89% bei diesem Benchmark.
DocVQA
94%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Claude 3.7 Sonnet erreichte 94% bei diesem Benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Claude 3.7 Sonnet erreichte 35.2% bei diesem Benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Claude 3.7 Sonnet erreichte 12% bei diesem Benchmark.

Über Claude 3.7 Sonnet

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Claude 3.7 Sonnet.

Hybrides Reasoning-Design

Claude 3.7 Sonnet nutzt eine neue Architektur, mit der Benutzer zwischen Geschwindigkeit und Tiefe wählen können. Es ist das erste model, das einen Schalter für Extended Thinking bietet, wodurch das System komplexe Logik durcharbeiten kann, bevor es eine Antwort gibt. Diese Transparenz ermöglicht es Entwicklern, genau zu sehen, wie das model zu einer Schlussfolgerung gelangt, was das Risiko versteckter Fehler bei technischer Arbeit reduziert.

Technische Problemlösung

Dieses model wurde für anspruchsvolles Software Engineering entwickelt. Es erzielt 62,1 % im SWE-bench Verified Benchmark und beweist eine starke Fähigkeit zur Lösung echter GitHub-Issues. In Verbindung mit Tools wie Claude Code verwaltet es Dateibearbeitungen und Befehlsausführungen in großen Repositories. Es bewältigt mathematische und Programmieraufgaben mit einer Präzision, die mit aktuellen Reasoning-models der Spitzenklasse mithalten kann oder diese sogar übertrifft.

Massive Kontext-Kapazität

Mit einem 200.000-token context window verarbeitet das model umfangreiche Dokumentationen oder Codebases auf einmal. Es unterstützt bis zu 128.000 tokens bei der Ausgabe, wenn der Thinking-Modus aktiv ist, was es nützlich für die Generierung langer Skripte oder detaillierter Berichte macht. Das model ist zudem multimodal, was bedeutet, dass es neben Text auch Diagramme und Schaubilder interpretieren kann.

Claude 3.7 Sonnet

Anwendungsfälle für Claude 3.7 Sonnet

Entdecken Sie die verschiedenen Möglichkeiten, Claude 3.7 Sonnet für großartige Ergebnisse zu nutzen.

Agentic Software Engineering

Verwendung des Terminal-Tools zum Beheben von Fehlern und Refactoring von Code über umfangreiche Dateistrukturen hinweg.

Überprüfung mathematischer Beweise

Lösung schwieriger mathematischer Probleme, indem das model die logischen Schritte selbst durchdenkt.

Repository-Analyse

Extrahieren von Daten und Identifizieren von Mustern aus gesamten technischen Codebases in einem einzigen prompt.

Visuelle Datenverarbeitung

Umwandlung komplexer Diagramme, Flussdiagramme und technischer Skizzen in strukturierte JSON-Daten.

Systemarchitektur-Planung

Entwurf von Softwaresystemen mit detaillierten Logikprüfungen unter Verwendung des erweiterten Thinking-Modus.

Automatisierte Git-Workflows

Verwaltung von Commit-Nachrichten, Code-Reviews und Testausführungen durch den Einsatz agentic Tools.

Stärken

Einschränkungen

Optionen für hybrides Reasoning: Das erste model, das es Benutzern ermöglicht, zwischen schnellen Standardantworten und tiefgehenden Reasoning-Modi zu wechseln.
Reasoning-Latency: Das Aktivieren des Thinking-Modus erhöht die Zeit bis zur Antwort des models erheblich.
Erstklassiger Coding-Agent: Spitzenleistung bei SWE-bench Verified mit einem Score von 62,1 % bei der Lösung von produktionskritischen Problemen.
Thinking-Kosten: Interne Reasoning-tokens werden mit 15 $ pro Million Ausgabe-tokens berechnet, was bei langen Aufgaben ins Gewicht fällt.
Extreme Ausgabekapazität: Generiert bis zu 128.000 tokens in einer einzigen Antwort, was die Erstellung massiver Code-Blöcke und Dokumente erleichtert.
Keine Video-Unterstützung: Im Gegensatz zu einigen Wettbewerbern können keine nativen Videodateien über die API eingelesen oder analysiert werden.
Transparente Logik: Der externe chain-of-thought ermöglicht es Benutzern, den internen Reasoning-Prozess des models zu prüfen und zu debuggen.
Knowledge Cutoff: Die Trainingsdaten reichen nur bis Oktober 2024, wodurch neuere Entwicklungen in der Branche fehlen.

API-Schnellstart

anthropic/claude-3-7-sonnet

Dokumentation anzeigen
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic();

const message = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 4096,
  thinking: {
    type: "enabled",
    budget_tokens: 2048
  },
  messages: [{ role: "user", content: "Analysiere diesen architektonischen Fehler..." }],
});

console.log(message.content);

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Claude 3.7 Sonnet sagen

Sehen Sie, was die Community über Claude 3.7 Sonnet denkt

Claude Code plus 3.7 Sonnet ist im Grunde ein Junior-Entwickler auf Steroiden in meinem Terminal. Das erste Mal, dass sich agentic AI wirklich echt anfühlt.
dev_guru_99
reddit
Das hybride Reasoning ist ein wichtiges Update. Ich brauche nicht immer 30 Sekunden Bedenkzeit, aber beim Debugging ist es unglaublich.
TechLead_X
twitter
Anthropic hat es geschafft, ein model zu entwickeln, das bei Mathematik mit o1 konkurriert und gleichzeitig für tägliche Chats nützlich bleibt.
logic_fanatic
hackernews
Claude liefert umfassende, hervorragend formatierte Berichte mit Quellenangaben in unter fünf Minuten.
ThinkingDeeplyAI_mod
reddit
Das 128k-Ausgabelimit ist eine unterschätzte Funktion. Endlich ein model, das nicht mitten in einem langen Skript abbricht.
code_monk_42
reddit
Claude 3.7 + MCP ist dem, was Jarvis am nächsten kommt. Es nutzt meine lokalen Tools tatsächlich korrekt.
julie_codes_it
twitter

Videos über Claude 3.7 Sonnet

Schauen Sie Tutorials, Rezensionen und Diskussionen über Claude 3.7 Sonnet

Claude 3.7 ist absolut beeindruckend. Das neue Basis-model hat sich selbst übertroffen und ist noch besser beim Programmieren geworden.

Das neue 3.7 model hat alle anderen models, einschließlich OpenAI o3 mini, in den Schatten gestellt.

Es ist in der Lage, 70 % aller GitHub-Issues zu lösen.

Extended thinking erlaubt es dem model, über ein Problem nachzudenken, bevor es Code ausgibt.

Das ist ein riesiger Gewinn für die Entwickler-Experience.

Chatbots geben dir Ratschläge, aber Claude Code handelt aktiv. Es kann Dateien erstellen, Webseiten bauen und Pakete installieren.

Extended thinking bedeutet, dass Claude nachdenkt, bevor es tatsächlich Aktionen ausführt.

Das Tool ist für die Terminal-Umgebung optimiert.

Die MCP-Konnektivität ist das, was es wirklich vom Standard-ChatGPT unterscheidet.

Das model versteht die Absicht hinter vagen Terminal-Befehlen.

Die Integration mit dem Terminal über Claude Code bietet ein Maß an Agency, das wir bisher noch nicht gesehen haben.

Die Fähigkeit von Claude 3.7 Sonnet, seinen Denkprozess offenzulegen, ist wesentlich transparenter als bei Wettbewerbern.

Bei SWE-bench Verified erreicht es beachtliche 62 %.

Hybrides Reasoning bedeutet, dass man die Latenz nicht in Kauf nehmen muss, wenn man sie nicht braucht.

Es behält den hochwertigen Schreibstil früherer Claude-models bei.

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows

Pro-Tipps für Claude 3.7 Sonnet

Expertentipps, um das Beste aus Claude 3.7 Sonnet herauszuholen.

Reasoning-Budgets festlegen

Verwenden Sie den API-Thinking-Parameter, um die Anzahl der Reasoning-tokens zu begrenzen und die Kosten zu steuern.

Thought-Blöcke prüfen

Überprüfen Sie den internen chain-of-thought in den Antworten, um die Logik komplexer Problemlösungen zu verifizieren.

MCP-Connectors nutzen

Verbinden Sie das model mit lokalen Datenbanken und Cloud-Speichern, um Projekt-Kontext in Echtzeit bereitzustellen.

Kontext-Aktualisierung

Verwenden Sie Zusammenfassungsbefehle in langen agentic Loops, damit sich das context window auf die relevanten Daten konzentriert.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Häufig gestellte Fragen zu Claude 3.7 Sonnet

Finden Sie Antworten auf häufige Fragen zu Claude 3.7 Sonnet