anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet ist das erste hybrid reasoning model von Anthropic. Es bietet state-of-the-art Coding-Fähigkeiten, ein 200k context window und sichtbare...

anthropic logoanthropicClaude 3February 24, 2025
Kontext
200KToken
Max. Ausgabe
128KToken
Eingabepreis
$3.00/ 1M
Ausgabepreis
$15.00/ 1M
Modalität:TextImage
Fähigkeiten:VisionToolsStreamingLogik
Benchmarks
GPQA
84.8%
GPQA: Wissenschafts-Q&A auf Hochschulniveau. Ein anspruchsvoller Benchmark mit 448 Multiple-Choice-Fragen in Biologie, Physik und Chemie, erstellt von Fachexperten. Doktoranden erreichen nur 65-74% Genauigkeit, während Laien selbst mit unbegrenztem Webzugang nur 34% schaffen (daher 'Google-sicher'). Claude 3.7 Sonnet erreichte 84.8% bei diesem Benchmark.
HLE
34%
HLE: Expertenwissen-Reasoning. Testet die Fähigkeit eines Modells, Expertenwissen in spezialisierten Bereichen zu demonstrieren. Bewertet tiefes Verständnis komplexer Themen, die professionelles Wissen erfordern. Claude 3.7 Sonnet erreichte 34% bei diesem Benchmark.
MMLU
89%
MMLU: Massives Multitask-Sprachverständnis. Ein umfassender Benchmark mit 16.000 Multiple-Choice-Fragen zu 57 akademischen Fächern wie Mathematik, Philosophie, Jura und Medizin. Testet breites Wissen und Reasoning-Fähigkeiten. Claude 3.7 Sonnet erreichte 89% bei diesem Benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Professional Edition. Eine erweiterte Version von MMLU mit 12.032 Fragen im schwereren 10-Optionen-Format. Umfasst Mathematik, Physik, Chemie, Jura, Ingenieurwesen, Wirtschaft, Gesundheit, Psychologie, Business, Biologie, Philosophie und Informatik. Claude 3.7 Sonnet erreichte 74% bei diesem Benchmark.
SimpleQA
42%
SimpleQA: Faktische Genauigkeits-Benchmark. Testet die Fähigkeit eines Modells, akkurate, faktische Antworten auf einfache Fragen zu geben. Misst Zuverlässigkeit und reduziert Halluzinationen bei Wissensabruf. Claude 3.7 Sonnet erreichte 42% bei diesem Benchmark.
IFEval
93.2%
IFEval: Anweisungsbefolgungs-Evaluation. Misst, wie gut ein Modell spezifische Anweisungen und Einschränkungen befolgt. Testet die Fähigkeit, Formatierungsregeln, Längenbegrenzungen und andere explizite Anforderungen einzuhalten. Claude 3.7 Sonnet erreichte 93.2% bei diesem Benchmark.
AIME 2025
54.8%
AIME 2025: Amerikanische Mathematik-Olympiade. Wettbewerbsmathematik-Aufgaben aus der renommierten AIME-Prüfung für talentierte Oberstufenschüler. Testet fortgeschrittenes mathematisches Problemlösen, das abstraktes Denken erfordert. Claude 3.7 Sonnet erreichte 54.8% bei diesem Benchmark.
MATH
96.2%
MATH: Mathematisches Problemlösen. Ein umfassender Mathematik-Benchmark für Problemlösung in Algebra, Geometrie, Analysis und anderen mathematischen Bereichen. Erfordert mehrstufiges Reasoning und formales mathematisches Wissen. Claude 3.7 Sonnet erreichte 96.2% bei diesem Benchmark.
GSM8k
97%
GSM8k: Grundschul-Mathematik 8K. 8.500 Mathematik-Textaufgaben auf Grundschulniveau, die mehrstufiges Reasoning erfordern. Testet grundlegende Arithmetik und logisches Denken durch Alltagsszenarien. Claude 3.7 Sonnet erreichte 97% bei diesem Benchmark.
MGSM
92%
MGSM: Mehrsprachige Grundschul-Mathematik. Der GSM8k-Benchmark übersetzt in 10 Sprachen inkl. Spanisch, Französisch, Deutsch, Russisch, Chinesisch und Japanisch. Testet mathematisches Reasoning in verschiedenen Sprachen. Claude 3.7 Sonnet erreichte 92% bei diesem Benchmark.
MathVista
70%
MathVista: Mathematisches visuelles Reasoning. Testet die Fähigkeit, mathematische Probleme mit visuellen Elementen wie Diagrammen, Graphen, Geometriefiguren und wissenschaftlichen Abbildungen zu lösen. Claude 3.7 Sonnet erreichte 70% bei diesem Benchmark.
SWE-Bench
70.3%
SWE-Bench: Software-Engineering-Benchmark. KI-Modelle versuchen, echte GitHub-Issues in Open-Source-Python-Projekten zu lösen, mit menschlicher Verifizierung. Testet praktische Software-Engineering-Fähigkeiten. Top-Modelle stiegen von 4,4% (2023) auf über 70% (2024). Claude 3.7 Sonnet erreichte 70.3% bei diesem Benchmark.
HumanEval
94%
HumanEval: Python-Programmieraufgaben. 164 handgeschriebene Programmieraufgaben, bei denen Modelle korrekte Python-Funktionsimplementierungen generieren müssen. Jede Lösung wird durch Unit-Tests verifiziert. Top-Modelle erreichen heute 90%+. Claude 3.7 Sonnet erreichte 94% bei diesem Benchmark.
LiveCodeBench
65%
LiveCodeBench: Live-Coding-Benchmark. Testet Programmierfähigkeiten mit kontinuierlich aktualisierten, realen Programmieraufgaben. Anders als statische Benchmarks verwendet er frische Aufgaben, um Datenkontamination zu verhindern. Claude 3.7 Sonnet erreichte 65% bei diesem Benchmark.
MMMU
75%
MMMU: Multimodales Verständnis. Massive Multi-Disziplin Multimodales Verständnis Benchmark, der Vision-Sprach-Modelle bei Hochschulaufgaben in 30 Fächern testet, die sowohl Bildverständnis als auch Expertenwissen erfordern. Claude 3.7 Sonnet erreichte 75% bei diesem Benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Professional Edition. Erweiterte Version von MMMU mit anspruchsvolleren Fragen und strengerer Bewertung. Testet fortgeschrittenes multimodales Reasoning auf professionellem und Expertenniveau. Claude 3.7 Sonnet erreichte 55% bei diesem Benchmark.
ChartQA
89%
ChartQA: Diagramm-Fragebeantwortung. Testet die Fähigkeit, Informationen in Diagrammen und Graphen zu verstehen und zu analysieren. Erfordert Datenextraktion, Wertevergleiche und Berechnungen aus visuellen Darstellungen. Claude 3.7 Sonnet erreichte 89% bei diesem Benchmark.
DocVQA
94%
DocVQA: Dokument-Visuelle Q&A. Dokument Visual Question Answering Benchmark, der die Fähigkeit testet, Informationen aus Dokumentbildern inkl. Formularen, Berichten und gescanntem Text zu extrahieren und zu analysieren. Claude 3.7 Sonnet erreichte 94% bei diesem Benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Terminal/CLI-Aufgaben. Testet die Fähigkeit, Kommandozeilen-Operationen auszuführen, Shell-Skripte zu schreiben und in Terminal-Umgebungen zu navigieren. Misst praktische Systemadministrations- und Entwickler-Workflow-Fähigkeiten. Claude 3.7 Sonnet erreichte 35.2% bei diesem Benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion & Reasoning. Abstraction and Reasoning Corpus für AGI - testet fluide Intelligenz durch neuartige Mustererkennungs-Puzzles. Jede Aufgabe erfordert das Entdecken der zugrundeliegenden Regel aus Beispielen und misst allgemeine Reasoning-Fähigkeit statt Auswendiglernen. Claude 3.7 Sonnet erreichte 12% bei diesem Benchmark.

Teste Claude 3.7 Sonnet Kostenlos

Chatte kostenlos mit Claude 3.7 Sonnet. Teste die Fähigkeiten, stelle Fragen und erkunde, was dieses KI-Modell kann.

Prompt
Antwort
anthropic/claude-3-7-sonnet-20250219

Ihre KI-Antwort wird hier erscheinen

Über Claude 3.7 Sonnet

Erfahren Sie mehr über die Fähigkeiten, Funktionen und Einsatzmöglichkeiten von Claude 3.7 Sonnet.

Hybrid Reasoning und Transparenz

Claude 3.7 Sonnet stellt einen Meilenstein in der LLM-Architektur dar und ist das erste „hybrid reasoning“-model von Anthropic. Es erlaubt Nutzern, zwischen Standard-Antworten mit niedriger Latenz und einem „extended thinking“-Modus zu wechseln, der die interne chain-of-thought anzeigt. Diese Transparenz bietet Anwendern einen klaren Einblick in die Logik des models, was es besonders effektiv für komplexe Fehlersuche und kritische Denkaufgaben macht.

Meisterschaft im Software-Engineering

Mit einem starken Fokus auf Software-Engineering und produktionsreife Ergebnisse entwickelt, hat das model neue Branchenstandards in Benchmarks wie SWE-Bench Verified gesetzt. Es brilliert beim „Vibe Coding“, bei dem Entwickler grobe Absichten beschreiben und das model die Implementierung über mehrere Dateien hinweg übernimmt. Es bewältigt komplexe Refactorings und Architektur-Entscheidungen mit einer Präzision, die bisherige frontier models übertrifft.

Riesiger Context und agentic Tools

Mit einem massiven context window von 200.000 tokens und einem agentic Toolset namens Claude Code verwandelt es sich von einem einfachen Chatbot in einen kollaborativen technischen Partner. Es ist in der Lage, ganze Projektlebenszyklen zu verwalten – von der ersten Prüfung der Dokumentation bis hin zu automatisierten Git-Workflows und Testausführungen – und sorgt so für eine schnelle und fehlerfreie Entwicklung.

Claude 3.7 Sonnet

Anwendungsfälle für Claude 3.7 Sonnet

Entdecken Sie die verschiedenen Möglichkeiten, Claude 3.7 Sonnet für großartige Ergebnisse zu nutzen.

Vibe Coding

Erstellen funktionaler Software von Grund auf durch die Beschreibung der Absicht in natürlicher Sprache.

Advanced Debugging

Nutzung von extended thinking zur Analyse komplexer Logs und Bereitstellung präziser One-Shot-Fixes.

Large Context Analysis

Überprüfung und Refactoring ganzer Codebasen oder umfangreicher technischer Dokumentationen in einem einzigen prompt.

Agentic Development

Unterstützung von Terminal-basierten Tools wie Claude Code zur Automatisierung von Git-Workflows und Testausführungen.

Frontend UI Generation

Erstellung eleganter, wartbarer React- und Svelte-Komponenten mit intuitivem Designgespür.

Factual Research

Analyse massiver PDF-Dokumente und Datensätze mit hoher Genauigkeit und niedrigen Halluzinationsraten.

Stärken

Einschränkungen

Branchenführendes Coding: Erreichte einen state-of-the-art Wert von 70,3 % bei SWE-bench Verified und löst reale GitHub-Issues mit beispielloser Präzision.
Antwort-Latenz: Die Aktivierung des 'extended thinking'-Modus erhöht die Zeit bis zum ersten token im Vergleich zu Standard-Antworten des models erheblich.
Sichtbares Reasoning: Das erste model, das sichtbares, benutzersteuerbares 'extended thinking' für komplexe, kritische Problemlösungen bietet.
Premium-Preise: Die Kosten für output tokens liegen mit 15 $ pro 1 Mio. tokens deutlich über den meisten 'mini'- oder Open-Weights-Alternativen.
Agentic Integration: Speziell optimiert für Tool-Use und CLI-Interaktionen über das Claude Code Agent-Framework für End-to-End-Automatisierung von Aufgaben.
Kein natives Audio/Video: Im Gegensatz zu GPT-4o oder Gemini 2.0 fehlen native Funktionen zur Verarbeitung von Audio- und Video-Inputs.
Herausragendes Design-Gefühl: Generiert im Vergleich zu anderen frontier models konsistent eleganteren, barrierefreieren und wartbareren UI-Code.
Rechenaufwand: Deep reasoning Sessions können bei umfangreichen Refactorings von Codebasen schnell das token-Budget und die context-Limits erschöpfen.

API-Schnellstart

anthropic/claude-3-7-sonnet-20250219

Dokumentation anzeigen
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 1024,
  thinking: { type: "enabled", budget_tokens: 1024 },
  messages: [{ role: "user", content: "Write a high-performance Rust function for matrix multiplication." }],
});

console.log(msg.content);

Installieren Sie das SDK und beginnen Sie in wenigen Minuten mit API-Aufrufen.

Was die Leute über Claude 3.7 Sonnet sagen

Sehen Sie, was die Community über Claude 3.7 Sonnet denkt

"Claude 3.7 Sonnet ist das beste Coding-AI-model der Welt; es hat mich bei anspruchsvollen Aufgaben völlig überzeugt."
rawcell4772
reddit
"Mit einem einzigen prompt hat es bei einem komplexen TypeScript-Projekt alles perfekt hinbekommen."
rawcell4772
reddit
"Claude Code mit Sonnet 3.7 ist viel besser als Cline und derzeit das beste Tool."
peterkrueck
reddit
"Der Qualitätssprung bei Top-Modellen wie 3.7 hat meine Sichtweise grundlegend verändert."
lurking_horrors
reddit
"Claude 3.7 ist einfach krass, fühlt sich anders an... absolut goated, ohne Witz"
Fireship
youtube
"Der reasoning-Modus von Claude 3.7 ist ein kompletter Paradigmenwechsel für das Debugging von Logik."
DevLead99
x

Videos über Claude 3.7 Sonnet

Schauen Sie Tutorials, Rezensionen und Diskussionen über Claude 3.7 Sonnet

Das neue 3.7 model hat alle anderen Modelle absolut deklassiert... es kann jetzt 70,3 % der GitHub-Issues lösen

Die Verwendung einer streng typisierten Sprache zusammen mit TDD sind Wege für die AI, zu validieren, dass der geschriebene Code tatsächlich gültig ist

Das model ist unglaublich intelligent bei der Befolgung von Anweisungen

Die Performance im SWE-bench ist wirklich wahnsinnig

Sichtbares reasoning ist ein Gamechanger für die Transparenz

Claude 3.7 Sonnet... es ist wahrscheinlich das beste LLM für Code-Generierung

Wenn man die API nutzt, kann man 128.000 tokens in einem Rutsch ausgeben

Das Limit von 128k output tokens ist ein massives Upgrade

Sein Design-Gespür für Frontend-Komponenten ist unerreicht

Tool-Use und agentic Fähigkeiten sind der Kern dieses models

Reasoning sollte eine integrierte Fähigkeit von frontier models sein und nicht ein völlig separates Modell

Claude 3.7 schafft es, diese Modelle [DeepSeek, o3] um ein beachtliches Stück zu übertreffen

Die Latenz ist im reasoning-Modus etwas höher

Es schlägt DeepSeek R1 bei mehreren Aufgaben zur Befolgung von Anweisungen

Anthropic hat sich wirklich auf produktionsreife Ergebnisse konzentriert

Mehr als nur Prompts

Optimieren Sie Ihren Workflow mit KI-Automatisierung

Automatio kombiniert die Kraft von KI-Agenten, Web-Automatisierung und intelligenten Integrationen, um Ihnen zu helfen, mehr in weniger Zeit zu erreichen.

KI-Agenten
Web-Automatisierung
Intelligente Workflows
Demo-Video ansehen

Profi-Tipps

Expertentipps, um das Beste aus diesem Modell herauszuholen.

Thinking Budget

Nutzen Sie den 'extended thinking'-Modus gezielt für komplexe Logik oder Architekturplanung, um qualitativ hochwertigere Ergebnisse zu erzielen.

Context Control

Nutzen Sie regelmäßig /clear oder starten Sie Chats neu, um context-Kosten zu sparen und zu verhindern, dass das model träge wird.

Verification

Lassen Sie Claude mit dem Claude Code Tool Tests für den eigenen Code schreiben und ausführen, um die Stabilität in der Produktion zu gewährleisten.

Markdown Specs

Stellen Sie Feature-Anforderungen in strukturierten Markdown-Dateien bereit, um eine bessere Befolgung von Anweisungen bei großen Projekten zu erreichen.

Erfahrungsberichte

Was Unsere Nutzer Sagen

Schliessen Sie sich Tausenden zufriedener Nutzer an, die ihren Workflow transformiert haben

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Verwandte AI Models

xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Häufig gestellte Fragen

Finden Sie Antworten auf häufige Fragen zu diesem Modell