anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet er Anthropics første hybrid reasoning-model, der leverer state-of-the-art kodningsfærdigheder, et 200k context window og synlig reasoning.

anthropic logoanthropicClaude 324. februar 2025
Kontekst
200Ktokens
Maks output
128Ktokens
Input-pris
$3.00/ 1M
Output-pris
$15.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
84.8%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Claude 3.7 Sonnet scorede 84.8% på denne benchmark.
HLE
34%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Claude 3.7 Sonnet scorede 34% på denne benchmark.
MMLU
89%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Claude 3.7 Sonnet scorede 89% på denne benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Claude 3.7 Sonnet scorede 74% på denne benchmark.
SimpleQA
42%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Claude 3.7 Sonnet scorede 42% på denne benchmark.
IFEval
93.2%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Claude 3.7 Sonnet scorede 93.2% på denne benchmark.
AIME 2025
54.8%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Claude 3.7 Sonnet scorede 54.8% på denne benchmark.
MATH
96.2%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Claude 3.7 Sonnet scorede 96.2% på denne benchmark.
GSM8k
97%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Claude 3.7 Sonnet scorede 97% på denne benchmark.
MGSM
92%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Claude 3.7 Sonnet scorede 92% på denne benchmark.
MathVista
70%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Claude 3.7 Sonnet scorede 70% på denne benchmark.
SWE-Bench
70.3%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Claude 3.7 Sonnet scorede 70.3% på denne benchmark.
HumanEval
94%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Claude 3.7 Sonnet scorede 94% på denne benchmark.
LiveCodeBench
65%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Claude 3.7 Sonnet scorede 65% på denne benchmark.
MMMU
75%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Claude 3.7 Sonnet scorede 75% på denne benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Claude 3.7 Sonnet scorede 55% på denne benchmark.
ChartQA
89%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Claude 3.7 Sonnet scorede 89% på denne benchmark.
DocVQA
94%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Claude 3.7 Sonnet scorede 94% på denne benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Claude 3.7 Sonnet scorede 35.2% på denne benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Claude 3.7 Sonnet scorede 12% på denne benchmark.

Prøv Claude 3.7 Sonnet gratis

Chat med Claude 3.7 Sonnet gratis. Test dens muligheder, stil spørgsmål og udforsk, hvad denne AI-model kan.

Prompt
Svar
anthropic/claude-3-7-sonnet-20250219

Dit AI-svar vil vises her

Om Claude 3.7 Sonnet

Lær om Claude 3.7 Sonnets muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Hybrid reasoning og gennemsigtighed

Claude 3.7 Sonnet repræsenterer et markant skift i LLM-arkitektur som Anthropic's første 'hybrid reasoning'-model. Den gør det unikt muligt for brugere at skifte mellem standard responser med lav latens og en 'extended thinking'-tilstand, der viser dens interne chain-of-thought. Denne gennemsigtighed giver brugerne et klart indblik i modellens logik, hvilket gør den særligt effektiv til kompleks fejlfinding og kritiske reasoning-opgaver.

Ekspertise i softwareudvikling

Designet med et stærkt fokus på softwareudvikling og produktionsklare outputs, har modellen sat nye branchestandarder på benchmarks som SWE-bench Verified. Den udmærker sig ved 'vibe coding', hvor udviklere beskriver overordnede intentioner, og modellen håndterer implementeringen på tværs af flere filer. Den håndterer komplekse refaktoreringer og arkitektoniske beslutninger med en præcision, der overgår tidligere frontier models.

Massiv kontekst og agentic-værktøjer

Med et massivt 200.000-token context window og et agentic-værktøjssæt kaldet Claude Code, forvandles den fra en simpel chatbot til en kollaborativ teknisk partner. Den er i stand til at styre hele projektlivscyklusser, fra indledende dokumentationsgennemgang til automatiserede git-workflows og testafvikling, hvilket sikrer, at udviklingen forbliver hurtig og fejlfri.

Claude 3.7 Sonnet

Anvendelser for Claude 3.7 Sonnet

Opdag de forskellige måder, du kan bruge Claude 3.7 Sonnet til at opnå gode resultater.

Vibe Coding

Opbygning af funktionel software fra bunden ved at beskrive intentionen i naturligt sprog.

Avanceret fejlfinding

Udnyttelse af extended thinking til at analysere komplekse logs og levere præcise one-shot-rettelser.

Large context-analyse

Gennemgang og refaktorering af hele kodebaser eller lang teknisk dokumentation i et enkelt prompt.

Agentic-udvikling

Understøttelse af terminalbaserede værktøjer som Claude Code til at automatisere git-workflows og testafvikling.

Frontend UI-generering

Oprettelse af elegante og vedligeholdelsesvenlige React- og Svelte-komponenter med indbygget designforståelse.

Faktuel research

Analyse af massive PDF-dokumenter og datasæt med høj nøjagtighed og lav fejlrate (hallucinationer).

Styrker

Begrænsninger

Brancheførende kodning: Opnåede state-of-the-art 70,3 % på SWE-bench Verified og løste reelle GitHub-issues med hidtil uset nøjagtighed.
Responslatens: Aktivering af 'extended thinking'-tilstand øger tiden til det første token betydeligt sammenlignet med standard-responser.
Synlig reasoning: Den første model, der tilbyder synlig 'extended thinking', som brugeren kan kontrollere, til kompleks og kritisk problemløsning.
Premium-prissætning: Output-omkostninger på $15 pr. 1M tokens er stadig væsentligt højere end de fleste 'mini'- eller open-weights-alternativer.
Agentic-integration: Specifikt optimeret til tool-use og CLI-interaktion via Claude Code-agent-frameworket til end-to-end-automatisering af opgaver.
Ingen medfødt lyd/video: I modsætning til GPT-4o eller Gemini 2.0 mangler den funktioner til direkte behandling af lyd- og video-input.
Overlegen designforståelse: Genererer konsekvent mere elegant, tilgængelig og vedligeholdelsesvenlig UI-kode sammenlignet med andre frontier models.
Beregningsmæssige omkostninger: Dybe reasoning-sessioner kan hurtigt forbruge token-budgetter og context-grænser under omfattende refaktorering af kodebaser.

API hurtig start

anthropic/claude-3-7-sonnet-20250219

Se dokumentation
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 1024,
  thinking: { type: "enabled", budget_tokens: 1024 },
  messages: [{ role: "user", content: "Write a high-performance Rust function for matrix multiplication." }],
});

console.log(msg.content);

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Claude 3.7 Sonnet

Se hvad fællesskabet mener om Claude 3.7 Sonnet

"Claude 3.7 Sonnet er den bedste kodnings-AI-model i verden; den imponerede mig virkelig ved udfordrende opgaver."
rawcell4772
reddit
"Med et enkelt prompt sad alt lige i skabet på et komplekst TypeScript-projekt."
rawcell4772
reddit
"Claude Code med Sonnet 3.7 er meget bedre end Cline og i øjeblikket det bedste værktøj."
peterkrueck
reddit
"Springet i kvalitet med top-tier-modeller som 3.7 har været transformativt for mit perspektiv."
lurking_horrors
reddit
"Claude 3.7 er for vild, den rammer bare anderledes... seriøst goated, no cap"
Fireship
youtube
"Claude 3.7's reasoning-tilstand er et komplet paradigmeskift for debugging af logik."
DevLead99
x

Videoer om Claude 3.7 Sonnet

Se vejledninger, anmeldelser og diskussioner om Claude 3.7 Sonnet

Den nye 3.7-model bankede absolut alle de andre modeller... nu i stand til at løse 70,3 % af GitHub-issues

Brug af et stærkt typet sprog sammen med TDD er måder for AI'en at validere, at den kode, den skriver, faktisk er gyldig

Modellen er utrolig dygtig til at følge instruktioner

Ydeevnen på SWE-bench er helt vild

Synlig reasoning er en game changer for gennemsigtighed

Claude 3.7 Sonnet... er sandsynligvis den bedste LLM til kodegenerering

Hvis du bruger API'en, kan du få 128.000 tokens i ét output

Grænsen på 128k output er en massiv opgradering

Dens designforståelse for frontend-komponenter er uovertruffen

Tool-use og agentic-kapabiliteter er kernen i denne model

Reasoning bør være en integreret egenskab i frontier models frem for en helt separat model

Claude 3.7 formår at overgå de modeller [DeepSeek, o3] med en ret betydelig margin

Latens er en smule højere i reasoning-tilstand

Den slår DeepSeek R1 i flere opgaver inden for instruktionsfølgning

Anthropic har virkelig fokuseret på produktionsklare outputs

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange
Se demovideo

Pro-tips

Eksperttips til at hjælpe dig med at få mest muligt ud af denne model og opnå bedre resultater.

Thinking-budget

Brug 'extended thinking'-tilstanden specifikt til kompleks logik eller arkitekturplanlægning for at få resultater af højere kvalitet.

Kontekststyring

Brug regelmæssigt /clear eller genstart chats for at spare på context-omkostninger og forhindre, at modellen bliver træg.

Verificering

Bed Claude om at skrive og køre test af sin egen kode ved hjælp af Claude Code-værktøjet for at sikre produktionsstabilitet.

Markdown-specifikationer

Angiv funktionskrav i strukturerede Markdown-filer for bedre instruktionsfølge under store projekter.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Ofte stillede spørgsmål

Find svar på almindelige spørgsmål om denne model