anthropic

Claude Sonnet 4.5

Claude Sonnet 4.5 iz Anthropic-a donosi vodeće svjetske rezultate u programiranju (77,2% SWE-bench) i 200K context window, optimiziran za sljedeću generaciju...

AI kodiranjeAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude29. rujna 2025.
Kontekst
200Ktokena
Maks. izlaz
64Ktokena
Ulazna cijena
$3.00/ 1M
Izlazna cijena
$15.00/ 1M
Modalitet:TextImageAudioVideo
Mogućnosti:VidAlatiStreamingZaključivanje
Benchmarks
GPQA
83%
GPQA: Znanstvena pitanja i odgovori na razini doktorata. Rigorozan benchmark s 448 pitanja višestrukog izbora iz biologije, fizike i kemije koje su kreirali stručnjaci. Doktori znanosti postižu samo 65-74% točnosti, dok nestručnjaci postižu samo 34% čak i s neograničenim pristupom internetu (otuda naziv 'otporan na Google'). Claude Sonnet 4.5 je postigao 83% na ovom benchmarku.
HLE
34%
HLE: Rasuđivanje visoke razine stručnosti. Testira sposobnost modela da demonstrira rasuđivanje na razini stručnjaka u specijaliziranim domenama. Procjenjuje duboko razumijevanje složenih tema koje zahtijevaju znanje na profesionalnoj razini. Claude Sonnet 4.5 je postigao 34% na ovom benchmarku.
MMLU
89%
MMLU: Masovno višezadaćno jezično razumijevanje. Sveobuhvatan benchmark s 16.000 pitanja višestrukog izbora iz 57 akademskih predmeta uključujući matematiku, filozofiju, pravo i medicinu. Testira široko znanje i sposobnosti rasuđivanja. Claude Sonnet 4.5 je postigao 89% na ovom benchmarku.
MMLU Pro
78%
MMLU Pro: MMLU profesionalno izdanje. Poboljšana verzija MMLU-a s 12.032 pitanja koristeći teži format s 10 opcija. Pokriva matematiku, fiziku, kemiju, pravo, inženjerstvo, ekonomiju, zdravstvo, psihologiju, poslovanje, biologiju, filozofiju i informatiku. Claude Sonnet 4.5 je postigao 78% na ovom benchmarku.
SimpleQA
52%
SimpleQA: Benchmark činjenične točnosti. Testira sposobnost modela da pruži točne, činjenične odgovore na jednostavna pitanja. Mjeri pouzdanost i smanjuje halucinacije u zadacima dohvaćanja znanja. Claude Sonnet 4.5 je postigao 52% na ovom benchmarku.
IFEval
88%
IFEval: Evaluacija praćenja uputa. Mjeri koliko dobro model slijedi specifične upute i ograničenja. Testira sposobnost pridržavanja pravila formatiranja, ograničenja duljine i drugih eksplicitnih zahtjeva. Claude Sonnet 4.5 je postigao 88% na ovom benchmarku.
AIME 2025
87%
AIME 2025: Američki pozivni matematički ispit. Matematički problemi natjecateljske razine s prestižnog AIME ispita dizajniranog za talentirane srednjoškolce. Testira naprednu matematičku sposobnost rješavanja problema koja zahtijeva apstraktno rasuđivanje, a ne samo prepoznavanje obrazaca. Claude Sonnet 4.5 je postigao 87% na ovom benchmarku.
MATH
87%
MATH: Rješavanje matematičkih problema. Sveobuhvatan matematički benchmark koji testira rješavanje problema iz algebre, geometrije, računa i drugih matematičkih domena. Zahtijeva rasuđivanje u više koraka i formalno matematičko znanje. Claude Sonnet 4.5 je postigao 87% na ovom benchmarku.
GSM8k
98%
GSM8k: Matematika osnovne škole 8K. 8.500 matematičkih zadataka osnovnoškolske razine koji zahtijevaju rasuđivanje u više koraka. Testira osnovnu aritmetiku i logičko razmišljanje kroz scenarije iz stvarnog života poput kupovine ili izračuna vremena. Claude Sonnet 4.5 je postigao 98% na ovom benchmarku.
MGSM
92%
MGSM: Višejezična matematika osnovne škole. GSM8k benchmark preveden na 10 jezika uključujući španjolski, francuski, njemački, ruski, kineski i japanski. Testira matematičko rasuđivanje na različitim jezicima. Claude Sonnet 4.5 je postigao 92% na ovom benchmarku.
MathVista
72%
MathVista: Matematičko vizualno rasuđivanje. Testira sposobnost rješavanja matematičkih problema koji uključuju vizualne elemente poput grafikona, geometrijskih dijagrama i znanstvenih figura. Kombinira vizualno razumijevanje s matematičkim rasuđivanjem. Claude Sonnet 4.5 je postigao 72% na ovom benchmarku.
SWE-Bench
77%
SWE-Bench: Benchmark softverskog inženjerstva. AI modeli pokušavaju riješiti stvarne GitHub probleme u Python projektima otvorenog koda s ljudskom verifikacijom. Testira praktične vještine softverskog inženjerstva na produkcijskim kodnim bazama. Najbolji modeli su napredovali s 4,4% u 2023. na preko 70% u 2024. Claude Sonnet 4.5 je postigao 77% na ovom benchmarku.
HumanEval
94%
HumanEval: Python programerski problemi. 164 ručno napisana programerska problema gdje modeli moraju generirati ispravne implementacije Python funkcija. Svako rješenje se verificira jediničnim testovima. Najbolji modeli sada postižu preko 90% točnosti. Claude Sonnet 4.5 je postigao 94% na ovom benchmarku.
LiveCodeBench
68%
LiveCodeBench: Benchmark živog kodiranja. Testira sposobnosti kodiranja na kontinuirano ažuriranim izazovima programiranja iz stvarnog svijeta. Za razliku od statičnih benchmarka, koristi svježe probleme za sprečavanje kontaminacije podataka i mjerenje pravih vještina kodiranja. Claude Sonnet 4.5 je postigao 68% na ovom benchmarku.
MMMU
78%
MMMU: Multimodalno razumijevanje. Masivni višedisciplinarni multimodalni benchmark razumijevanja koji testira modele vida i jezika na problemima sveučilišne razine iz 30 predmeta koji zahtijevaju razumijevanje slika i stručno znanje. Claude Sonnet 4.5 je postigao 78% na ovom benchmarku.
MMMU Pro
55%
MMMU Pro: MMMU profesionalno izdanje. Poboljšana verzija MMMU-a s težim pitanjima i strožom evaluacijom. Testira napredno multimodalno rasuđivanje na profesionalnoj i stručnoj razini. Claude Sonnet 4.5 je postigao 55% na ovom benchmarku.
ChartQA
89%
ChartQA: Pitanja i odgovori o grafikonima. Testira sposobnost razumijevanja i rasuđivanja o informacijama prikazanim u grafikonima i dijagramima. Zahtijeva ekstrakciju podataka, usporedbu vrijednosti i izvođenje izračuna iz vizualnih prikaza podataka. Claude Sonnet 4.5 je postigao 89% na ovom benchmarku.
DocVQA
92%
DocVQA: Vizualna Q&A o dokumentima. Benchmark vizualnih pitanja i odgovora o dokumentima koji testira sposobnost ekstrakcije i rasuđivanja o informacijama iz slika dokumenata uključujući obrasce, izvješća i skenirani tekst. Claude Sonnet 4.5 je postigao 92% na ovom benchmarku.
Terminal-Bench
50%
Terminal-Bench: Terminal/CLI zadaci. Testira sposobnost izvođenja operacija naredbenog retka, pisanja shell skripti i navigacije u terminalskim okruženjima. Mjeri praktične vještine administracije sustava i razvojnih radnih tokova. Claude Sonnet 4.5 je postigao 50% na ovom benchmarku.
ARC-AGI
14%
ARC-AGI: Apstrakcija i rasuđivanje. Korpus apstrakcije i rasuđivanja za AGI - testira fluidnu inteligenciju kroz nove zagonetke prepoznavanja obrazaca. Svaki zadatak zahtijeva otkrivanje temeljnog pravila iz primjera, mjereći opću sposobnost rasuđivanja umjesto memoriranja. Claude Sonnet 4.5 je postigao 14% na ovom benchmarku.

O modelu Claude Sonnet 4.5

Saznajte o mogućnostima, značajkama i načinima korištenja modela Claude Sonnet 4.5.

**Granica agentne inteligencije**

Claude 4.5 Sonnet predstavlja veliki napredak u inteligenciji frontier modela, optimiziran za eru autonomnih AI agenata. Objavljen krajem 2025., to je model s hybrid reasoningom koji razvojnim inženjerima omogućuje prebacivanje između brzog izvršavanja rutinskih zadataka i Extended Thinkinga za složene logičke izazove. Predvodi u benchmarkovima computer use-a i orkestracije alata, što ga čini preferiranim motorom za terminalne agente i softversko inženjerstvo na više datoteka.

**Preciznost i smanjene halucinacije**

Arhitektura modela daje prednost logici i preciznosti, smanjujući dodvoravanje (sycophancy) i halucinacije primijećene u ranijim serijama. S ograničenjem izlaza od 64 000 tokena i ulaznim prozorom od 200 000 tokena, može obraditi cijele repozitorije dok generira potpune aplikacijske datoteke u jednom prolazu. Uvodi izvorne kontrolne točke (checkpoints) za agentne tijekove rada, dopuštajući sustavima da se autonomno vrate na staro i isprave pogreške bez ljudske intervencije.

**Multimodalna i logička moć**

Osim razvoja softvera, Sonnet 4.5 ističe se u multimodalnoj analizi dokumenata i financijskom modeliranju. Njegova interna logika daje prednost arhitektonskom kontekstu, omogućujući mu da učinkovitije mapira sustave velikih razmjera od svojih prethodnika. Bilo da obrađuje rukom pisane bilješke ili implementira API integracije, model održava visoku činjeničnu točnost i strogo praćenje uputa kroz dugoročne zadatke.

Claude Sonnet 4.5

Slučajevi korištenja za Claude Sonnet 4.5

Otkrijte različite načine korištenja modela Claude Sonnet 4.5 za postizanje izvrsnih rezultata.

Autonomni softverski inženjering

Upravljanje razvojem od početnih zahtjeva do automatiziranih commita koristeći terminalska sučelja.

Automatizacija temeljena na GUI-ju

Automatiziranje pregledavanja weba i unosa podataka u naslijeđene aplikacije koristeći izvorne mogućnosti za Computer Use.

Orkestracija više agenata

Delegiranje specijaliziranih zadataka pod-agentima kao što su recenzenti i builder-i unutar središnje petlje planiranja.

Složeni refactoring koda

Ponovno arhitektiranje repozitorija s više datoteka uz održavanje konzistentnosti kroz 200 000 tokena aktivnog konteksta.

Nijansirana financijska analiza

Analiza tromjesečnih izvješća i proračunskih tablica uz pomoć vida za prepoznavanje odstupanja i investicijskih uvida.

Interaktivna vizualizacija podataka

Generiranje dinamičkih grafikona iz složenih skupova podataka pomoću ugrađenog izvršavanja koda i izgradnje u stvarnom vremenu.

Prednosti

Ograničenja

Izvorni Computer Use: Model komunicira s operativnim sustavima putem pomicanja kursora i manipulacije GUI-jem s točnošću od 61,4 posto.
Nema izvornog unosa zvuka: Model ne može izravno obrađivati audio datoteke kao izvorni modalitet i zahtijeva vanjske alate za transkripciju.
Vrhunske performanse u programiranju: Postiže 77,2 posto na SWE-bench Verified, predvodeći sve ostale modele u rješavanju GitHub problema.
Trošak tokena za reasoning: Tokeni korišteni tijekom internog Extended Thinkinga naplaćuju se kao izlazni tokeni, što povećava trošak složenih upita.
30-satni horizont zadataka: Arhitektura omogućuje 30 sati kontinuiranog autonomnog rada uz održavanje stanja i fokusa.
Latencija u Thinking modu: Kada je Extended Thinking omogućen, modelu može trebati nekoliko minuta za obradu složenih arhitektonskih planova.
Ograničenje izlaza od 64K: Golemi izlazni kapacitet omogućuje generiranje cijelih aplikacijskih arhitektura u jednom API pozivu.
Varijacije u natjecateljskoj matematici: Iako predvodi u kodiranju, povremeno zaostaje za specijaliziranim modelima za reasoning u specifičnim benchmarkovima natjecateljskog programiranja.

API brzi početak

anthropic/claude-4-5-sonnet

Pogledaj dokumentaciju
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const response = await anthropic.messages.create({
  model: "claude-4-5-sonnet-20250929",
  max_tokens: 1024,
  messages: [
    { role: "user", content: "Analyze this codebase for security flaws." }
  ],
});

console.log(response.content[0].text);

Instalirajte SDK i počnite s API pozivima za nekoliko minuta.

Što ljudi kažu o modelu Claude Sonnet 4.5

Pogledajte što zajednica misli o modelu Claude Sonnet 4.5

Claude 4.5 Sonnet je dostupan svugdje danas, najbolji model za programiranje na svijetu.
ClaudeOfficial
reddit
Ovo rješava jedan od najbolnijih problema skaliranja kod MCP postavki. Gledao sam kako kontekst isparava prije nego što je pravi posao uopće počeo.
Simon Willison
twitter
Claude Code-Sonnet 4.5 je daleko ispred Gemini 3.0 Pro za složene Dockerizirane refactoring zadatke.
Comfortable-Friend96
reddit
Obrazac: Greške postaju dokumentacija. Dodate pravilo u CLAUDE.md i to se više nikada ne ponovi.
Boris Cherny
twitter
Hybrid reasoning mod spašava život pri ispravljanju složene async logike gdje se obični modeli samo vrte u krug.
AsyncDev
hackernews
Cjenovna paritetnost s 3.5 Sonnet čini ovo jednostavnom nadogradnjom za sve naše produkcijske agent cjevovode.
StartupFounder2025
reddit

Videozapisi o modelu Claude Sonnet 4.5

Gledajte tutorijale, recenzije i diskusije o modelu Claude Sonnet 4.5

Ovaj novi 4.5 Sonnet model nadmašuje čak i Opus 4.1 na Swaybench verified testu

Uspio je održati fokus preko 30 sati na složenim zadacima s više koraka

Vodi na OS world computer use benchmarku s rezultatom od 61,4 posto

Interni reasoning engine upravlja Python okruženjima s puno većom stabilnošću nego 3.5

Integracija terminala djeluje puno čvršće uz gotovo nula haluciniranih shell naredbi

Sonnet 4.5 sada vodi u agentic tool use-u... skok od 20 posto, što je stvarno uzbudljivo

Claude code sa Sonnetom 4.5 završio je cijelu Stripe implementaciju u 15 minuta

Claude Sonnet 4.5 bio je puno brži i osjetno bolji

Thinking toggle vam omogućuje da dodijelite više računalnih resursa određenim blokovima koda

Savršeno zadržava kontekst čak i kada ste 150 000 tokena duboko u ogromnom projektu

To je najbolji model ikada kada kontrolira vaše računalo

Pad stope grešaka kod programiranja s 9 posto na gotovo nulu

Claude imagine bi mogao biti najbolja značajka... iskustvo izgradnje aplikacija u stvarnom vremenu

MCP integracija mu omogućuje pretraživanje alata bez trošenja vašeg prompt konteksta

Latencija vida značajno je smanjena pri analizi složenih UI izgleda

Vise od samo promptova

Poboljšajte svoj radni tijek sa AI Automatizacijom

Automatio kombinira moc AI agenata, web automatizacije i pametnih integracija kako bi vam pomogao postici vise za manje vremena.

AI Agenti
Web Automatizacija
Pametni Tokovi

Pro Savjeti za Claude Sonnet 4.5

Stručni savjeti za maksimalno iskorištavanje Claude Sonnet 4.5.

Omogućite MCP Tool Search

Koristite Model Context Protocol Tool Search kako biste smanjili korištenje konteksta za 85 posto i ostavili prostora za aktivne datoteke.

Iskoristite Agentic Checkpoints

Koristite naredbu /checkpoint u terminalu kako biste spremili napredak prije velikih refaktoringa za trenutni povratak na staro.

Budžetiranje konteksta

Očistite povijest između nepovezanih zadataka kako biste spriječili degradaciju konteksta i održali visoku točnost logike.

Hijerarhija System Prompta

Definirajte personu modela i stroga ograničenja izlaza u zasebnoj konfiguracijskoj datoteci radi konzistentnosti među agentima.

Svjedočanstva

Sto Kazu Nasi Korisnici

Pridruzite se tisucama zadovoljnih korisnika koji su transformirali svoj radni tijek

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Povezani AI Models

openai

GPT-5.4

OpenAI

GPT-5.4 is OpenAI's frontier model featuring a 1.05M context window and Extreme Reasoning. It excels at autonomous UI interaction and long-form data analysis.

1M context
$2.50/$15.00/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M
openai

GPT-5.3 Codex

OpenAI

GPT-5.3 Codex is OpenAI's 2026 frontier coding agent, featuring a 400K context window, 77.3% Terminal-Bench score, and superior logic for complex software...

400K context
$1.75/$14.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M

Često Postavljana Pitanja o Claude Sonnet 4.5

Pronađite odgovore na česta pitanja o Claude Sonnet 4.5