anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet er Anthropic's første hybrid reasoning model, der leverer state-of-the-art kodningskapaciteter, et 200k context window og synlig tænkning.

anthropic logoanthropicClaude 324. februar 2025
Kontekst
200Ktokens
Maks output
128Ktokens
Input-pris
$3.00/ 1M
Output-pris
$15.00/ 1M
Modalitet:TextImage
Funktioner:VisionVærktøjerStreamingRæsonnering
Benchmarks
GPQA
84.8%
GPQA: Spørgsmål og svar på kandidatniveau. En streng benchmark med 448 multiple choice-spørgsmål inden for biologi, fysik og kemi skabt af domæneeksperter. PhD-eksperter opnår kun 65-74% nøjagtighed, mens ikke-eksperter scorer kun 34% selv med ubegrænset webadgang (derfor 'Google-proof'). Claude 3.7 Sonnet scorede 84.8% på denne benchmark.
HLE
34%
HLE: Ekspertniveau-ræsonnering. Tester en models evne til at demonstrere ekspertniveau-ræsonnering på tværs af specialiserede domæner. Evaluerer dyb forståelse af komplekse emner, der kræver professionel viden. Claude 3.7 Sonnet scorede 34% på denne benchmark.
MMLU
89%
MMLU: Massiv flerfaglig sprogforståelse. En omfattende benchmark med 16.000 multiple choice-spørgsmål på tværs af 57 akademiske fag, herunder matematik, filosofi, jura og medicin. Tester bred viden og ræsonneringsevner. Claude 3.7 Sonnet scorede 89% på denne benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Professionel udgave. En forbedret version af MMLU med 12.032 spørgsmål i et sværere format med 10 svarmuligheder. Dækker matematik, fysik, kemi, jura, ingeniørvidenskab, økonomi, sundhed, psykologi, business, biologi, filosofi og datalogi. Claude 3.7 Sonnet scorede 74% på denne benchmark.
SimpleQA
42%
SimpleQA: Faktuel nøjagtighedsbenchmark. Tester en models evne til at give nøjagtige, faktuelle svar på ligetil spørgsmål. Måler pålidelighed og reducerer hallucinationer i vidensindhentningstasks. Claude 3.7 Sonnet scorede 42% på denne benchmark.
IFEval
93.2%
IFEval: Instruktionsfølgningsevaluering. Måler, hvor godt en model følger specifikke instruktioner og begrænsninger. Tester evnen til at overholde formateringsregler, længdegrænser og andre eksplicitte krav. Claude 3.7 Sonnet scorede 93.2% på denne benchmark.
AIME 2025
54.8%
AIME 2025: American Invitational Math Exam. Konkurrence-niveau matematikopgaver fra den prestigefyldte AIME-eksamen designet til talentfulde gymnasieelever. Tester avanceret matematisk problemløsning, der kræver abstrakt tænkning, ikke kun mønstergenkendelse. Claude 3.7 Sonnet scorede 54.8% på denne benchmark.
MATH
96.2%
MATH: Matematisk problemløsning. En omfattende matematikbenchmark, der tester problemløsning inden for algebra, geometri, calculus og andre matematiske domæner. Kræver flertrinssværsonnering og formel matematisk viden. Claude 3.7 Sonnet scorede 96.2% på denne benchmark.
GSM8k
97%
GSM8k: Folkeskole matematik 8K. 8.500 folkeskole-niveau matematiske tekstopgaver, der kræver flertrinssræsonnering. Tester grundlæggende aritmetik og logisk tænkning gennem virkelige scenarier som shopping eller tidsberegninger. Claude 3.7 Sonnet scorede 97% på denne benchmark.
MGSM
92%
MGSM: Flersproget folkeskolematematik. GSM8k-benchmarken oversat til 10 sprog, herunder spansk, fransk, tysk, russisk, kinesisk og japansk. Tester matematisk ræsonnering på tværs af forskellige sprog. Claude 3.7 Sonnet scorede 92% på denne benchmark.
MathVista
70%
MathVista: Matematisk visuel ræsonnering. Tester evnen til at løse matematikopgaver, der involverer visuelle elementer som diagrammer, grafer, geometriske figurer og videnskabelige illustrationer. Kombinerer visuel forståelse med matematisk ræsonnering. Claude 3.7 Sonnet scorede 70% på denne benchmark.
SWE-Bench
70.3%
SWE-Bench: Softwareingeniør-benchmark. AI-modeller forsøger at løse rigtige GitHub-issues i open source Python-projekter med menneskelig verifikation. Tester praktiske softwareingeniørfærdigheder på produktionskodebaser. Topmodeller gik fra 4,4% i 2023 til over 70% i 2024. Claude 3.7 Sonnet scorede 70.3% på denne benchmark.
HumanEval
94%
HumanEval: Python-programmeringsopgaver. 164 håndskrevne programmeringsopgaver, hvor modeller skal generere korrekte Python-funktionsimplementeringer. Hver løsning verificeres mod unit tests. Topmodeller opnår nu 90%+ nøjagtighed. Claude 3.7 Sonnet scorede 94% på denne benchmark.
LiveCodeBench
65%
LiveCodeBench: Live kodningsbenchmark. Tester kodningsevner på løbende opdaterede, virkelige programmeringsudfordringer. I modsætning til statiske benchmarks bruger den friske problemer for at forhindre dataforurening og måle ægte kodningsevner. Claude 3.7 Sonnet scorede 65% på denne benchmark.
MMMU
75%
MMMU: Multimodal forståelse. Massiv multi-disciplin multimodal forståelsesbenchmark, der tester vision-sprogmodeller på universitetsniveau-problemer på tværs af 30 fag, der kræver både billedforståelse og ekspertviden. Claude 3.7 Sonnet scorede 75% på denne benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Professionel udgave. Forbedret version af MMMU med mere udfordrende spørgsmål og strengere evaluering. Tester avanceret multimodal ræsonnering på professionelt og ekspertniveau. Claude 3.7 Sonnet scorede 55% på denne benchmark.
ChartQA
89%
ChartQA: Diagram-spørgsmål og svar. Tester evnen til at forstå og ræsonnere om information præsenteret i diagrammer og grafer. Kræver udtrækning af data, sammenligning af værdier og udførelse af beregninger fra visuelle datarepræsentationer. Claude 3.7 Sonnet scorede 89% på denne benchmark.
DocVQA
94%
DocVQA: Dokument visuel Q&A. Document Visual Question Answering benchmark, der tester evnen til at udtrække og ræsonnere om information fra dokumentbilleder, herunder formularer, rapporter og scannet tekst. Claude 3.7 Sonnet scorede 94% på denne benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Terminal/CLI-opgaver. Tester evnen til at udføre kommandolinjeopgaver, skrive shell-scripts og navigere i terminalmiljøer. Måler praktiske systemadministrations- og udviklingsworkflow-færdigheder. Claude 3.7 Sonnet scorede 35.2% på denne benchmark.
ARC-AGI
12%
ARC-AGI: Abstraktion og ræsonnering. Abstraction and Reasoning Corpus for AGI - tester flydende intelligens gennem nye mønstergenkendelsespuslespil. Hver opgave kræver opdagelse af den underliggende regel fra eksempler, der måler generel ræsonneringsevne snarere end memorering. Claude 3.7 Sonnet scorede 12% på denne benchmark.

Om Claude 3.7 Sonnet

Lær om Claude 3.7 Sonnets muligheder, funktioner og hvordan den kan hjælpe dig med at opnå bedre resultater.

Design med Hybrid Reasoning

Claude 3.7 Sonnet bruger en ny arkitektur, der lader brugerne vælge mellem hastighed og dybde. Det er den første model, der tilbyder et skift til extended thinking, hvilket giver systemet mulighed for at arbejde sig igennem kompleks logik, før et svar gives. Denne transparens lader udviklere se præcis, hvordan modellen når frem til en konklusion, hvilket reducerer risikoen for skjulte fejl i teknisk arbejde.

Teknisk problemløsning

Denne model er bygget til software engineering på højt niveau. Den scorer 62,1% på SWE-bench Verified benchmarken, hvilket viser en stærk evne til at løse reelle GitHub-issues. Når den bruges sammen med værktøjer som Claude Code, styrer den filredigering og kommandoafvikling på tværs af store repositories. Den håndterer matematik- og kodningsopgaver med en præcision, der matcher eller overgår nuværende topmodeller.

Massiv kontekstkapacitet

Med et context window på 200.000 tokens behandler modellen store mængder dokumentation eller kodebaser på én gang. Den understøtter op til 128.000 tokens output, når thinking-tilstanden er aktiv, hvilket gør den anvendelig til generering af lange scripts eller detaljerede rapporter. Modellen er også multimodal, hvilket betyder, at den kan tolke grafer og diagrammer sammen med tekst.

Claude 3.7 Sonnet

Anvendelser for Claude 3.7 Sonnet

Opdag de forskellige måder, du kan bruge Claude 3.7 Sonnet til at opnå gode resultater.

Agentic Software Engineering

Brug af terminal-værktøjet til at rette bugs og refaktorere kode på tværs af massive filstrukturer.

Verificering af matematiske beviser

Løsning af svære matematiske problemer ved at lade modellen gennemtænke logiske trin.

Repository-analyse

Udvinding af data og identifikation af mønstre fra hele tekniske kodebaser i én prompt.

Parsing af visuelle data

Konvertering af komplekse grafer, flowcharts og tekniske diagrammer til struktureret JSON-data.

Planlægning af systemarkitektur

Design af softwaresystemer med detaljerede logik-tjek ved hjælp af extended thinking mode.

Automatiserede Git-workflows

Håndtering af commit-beskeder, kodegennemgang og testafvikling via agentic tool use.

Styrker

Begrænsninger

Muligheder for Hybrid Thinking: Den første model, der lader brugeren skifte mellem hurtige standard-svar og dybdegående reasoning-tilstande.
Reasoning Latency: Aktivering af thinking-tilstand øger svartiden for modellen markant.
Førende kodnings-agent: Top-performance på SWE-bench Verified med en score på 62,1% for løsning af produktionsproblemer.
Thinking-omkostninger: Interne reasoning tokens afregnes til taksten på $15 pr. million output, hvilket kan løbe op ved lange opgaver.
Ekstrem output-kapacitet: Genererer op til 128.000 tokens i et enkelt svar, hvilket letter generering af massive mængder kode og dokumentation.
Ingen video-understøttelse: I modsætning til visse konkurrenter kan den ikke native indlæse eller analysere rå videofiler via API'en.
Transparent logik: Eksternaliseret chain-of-thought gør det muligt for brugere at auditere og debugge modellens interne reasoning-proces.
Knowledge Cutoff: Træningsdata går kun frem til oktober 2024, hvilket betyder, at nylige brancheudviklinger mangler.

API hurtig start

anthropic/claude-3-7-sonnet

Se dokumentation
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic();

const message = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 4096,
  thinking: {
    type: "enabled",
    budget_tokens: 2048
  },
  messages: [{ role: "user", content: "Analyze this architectural flaw..." }],
});

console.log(message.content);

Installér SDK'et og begynd at foretage API-kald på få minutter.

Hvad folk siger om Claude 3.7 Sonnet

Se hvad fællesskabet mener om Claude 3.7 Sonnet

Claude Code plus 3.7 Sonnet er basalt set en juniorudvikler på steroider i min terminal. Det er første gang, agentic AI føles virkeligt.
dev_guru_99
reddit
Hybrid reasoning er en vigtig opdatering. Jeg har ikke altid brug for, at den tænker i 30 sekunder, men når jeg debugger, er det utroligt.
TechLead_X
twitter
Anthropic formåede at lave en model, der konkurrerer med o1 på matematik, samtidig med at den forbliver brugbar til daglig chat.
logic_fanatic
hackernews
Claude leverer omfattende, flot formaterede rapporter med kildehenvisninger på under fem minutter.
ThinkingDeeplyAI_mod
reddit
Output-begrænsningen på 128k er en overset feature. Endelig en model, der ikke stopper midt i et langt script.
code_monk_42
reddit
Claude 3.7 + MCP er det tætteste, vi kommer på Jarvis lige nu. Den bruger rent faktisk mine lokale værktøjer korrekt.
julie_codes_it
twitter

Videoer om Claude 3.7 Sonnet

Se vejledninger, anmeldelser og diskussioner om Claude 3.7 Sonnet

Claude 3.7 er for vild. Den nye basismodel har slået sig selv og er blevet endnu bedre til programmering.

Den nye 3.7-model knuste fuldstændigt alle andre modeller, inklusive OpenAI o3 mini.

Den er i stand til at løse 70% af alle GitHub-issues.

Extended thinking giver modellen mulighed for at overveje et problem, før den spytter kode ud.

Dette er en massiv gevinst for udvikleroplevelsen.

Chatbots giver dig råd, men Claude Code tager handling. Den kan oprette filer, bygge websites og installere pakker.

Extended thinking er Claude, der ræsonnerer, før den rent faktisk udfører nogen handlinger.

Værktøjet er optimeret til terminalmiljøet.

MCP-konnektivitet er det, der virkelig adskiller dette fra standard ChatGPT.

Modellen forstår hensigten bag uklare terminalkommandoer.

Integrationen med terminalen via Claude Code er et niveau af agens, vi ikke har set før.

Claude 3.7 Sonnets evne til at vise sin tankeproces er langt mere transparent end hos konkurrenterne.

På SWE-bench Verified rammer den imponerende 62%.

Hybrid reasoning betyder, at du ikke betaler en latency-pris, når du ikke har brug for det.

Den fastholder den høje skrivestil fra tidligere Claude-modeller.

Mere end bare prompts

Supercharg din arbejdsgang med AI-automatisering

Automatio kombinerer kraften fra AI-agenter, webautomatisering og smarte integrationer for at hjælpe dig med at udrette mere på kortere tid.

AI-agenter
Webautomatisering
Smarte arbejdsgange

Pro-tips til Claude 3.7 Sonnet

Eksperttips til at hjælpe dig med at få mest muligt ud af Claude 3.7 Sonnet og opnå bedre resultater.

Indstil Reasoning Budgets

Brug API'ens thinking-parameter til at begrænse antallet af reasoning tokens for at styre omkostningerne.

Gennemse Thought Blocks

Tjek den interne chain-of-thought i svarene for at verificere logikken i komplekse besvarelser.

Brug MCP Connectors

Forbind modellen til lokale databaser og cloud-lagring for real-time projektkontekst.

Context Refreshing

Brug opsummeringskommandoer i lange agentic loops for at holde context window fokuseret på relevante data.

Anmeldelser

Hvad vores brugere siger

Slut dig til tusindvis af tilfredse brugere, der har transformeret deres arbejdsgang

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Relateret AI Models

moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M

Ofte stillede spørgsmål om Claude 3.7 Sonnet

Find svar på almindelige spørgsmål om Claude 3.7 Sonnet