anthropic

Claude Opus 4.5

Claude Opus 4.5 è il frontier model più potente di Anthropic, che offre prestazioni record dell'80,9% su SWE-bench e un'avanzata autonomia agentic per la...

anthropic logoanthropicClaude 424 novembre 2025
Contesto
200Ktoken
Output max
64Ktoken
Prezzo input
$5.00/ 1M
Prezzo output
$25.00/ 1M
Modalita:TextImage
Capacita:VisioneStrumentiStreamingRagionamento
Benchmark
GPQA
87%
GPQA: Domande scientifiche livello laurea. Un benchmark rigoroso con 448 domande su biologia, fisica e chimica. Gli esperti PhD raggiungono solo il 65-74% di accuratezza. Claude Opus 4.5 ha ottenuto 87% in questo benchmark.
MMLU
90.8%
MMLU: Comprensione linguistica multitask massiva. Un benchmark completo con 16.000 domande su 57 materie accademiche. Claude Opus 4.5 ha ottenuto 90.8% in questo benchmark.
MMLU Pro
80%
MMLU Pro: MMLU Edizione Professionale. Una versione migliorata di MMLU con 12.032 domande e un formato piu difficile a 10 opzioni. Claude Opus 4.5 ha ottenuto 80% in questo benchmark.
IFEval
90%
IFEval: Valutazione del seguire istruzioni. Misura quanto bene un modello segue istruzioni e vincoli specifici. Claude Opus 4.5 ha ottenuto 90% in questo benchmark.
AIME 2025
37%
AIME 2025: Esame di matematica invitazionale americano. Problemi matematici a livello competitivo dal prestigioso esame AIME. Claude Opus 4.5 ha ottenuto 37% in questo benchmark.
MATH
85%
MATH: Risoluzione di problemi matematici. Un benchmark matematico completo che testa la risoluzione di problemi in algebra, geometria, calcolo. Claude Opus 4.5 ha ottenuto 85% in questo benchmark.
GSM8k
95%
GSM8k: Matematica scuola elementare 8K. 8.500 problemi matematici a parole di livello scuola elementare. Claude Opus 4.5 ha ottenuto 95% in questo benchmark.
MGSM
92%
MGSM: Matematica multilingue scuola elementare. Il benchmark GSM8k tradotto in 10 lingue. Claude Opus 4.5 ha ottenuto 92% in questo benchmark.
MathVista
72%
MathVista: Ragionamento visivo matematico. Testa la capacita di risolvere problemi matematici con elementi visivi. Claude Opus 4.5 ha ottenuto 72% in questo benchmark.
SWE-Bench
80.9%
SWE-Bench: Benchmark ingegneria software. I modelli AI tentano di risolvere veri problemi GitHub in progetti Python. Claude Opus 4.5 ha ottenuto 80.9% in questo benchmark.
HumanEval
90%
HumanEval: Problemi di programmazione Python. 164 problemi di programmazione dove i modelli devono generare implementazioni corrette di funzioni Python. Claude Opus 4.5 ha ottenuto 90% in questo benchmark.
LiveCodeBench
75%
LiveCodeBench: Benchmark di codifica live. Testa le capacita di codifica su sfide di programmazione reali continuamente aggiornate. Claude Opus 4.5 ha ottenuto 75% in questo benchmark.
MMMU
80.7%
MMMU: Comprensione multimodale. Benchmark di comprensione multimodale su 30 materie universitarie. Claude Opus 4.5 ha ottenuto 80.7% in questo benchmark.
MMMU Pro
60%
MMMU Pro: MMMU Edizione Professionale. Versione migliorata di MMMU con domande piu impegnative. Claude Opus 4.5 ha ottenuto 60% in questo benchmark.
ChartQA
90%
ChartQA: Domande e risposte su grafici. Testa la capacita di comprendere e analizzare informazioni da grafici e diagrammi. Claude Opus 4.5 ha ottenuto 90% in questo benchmark.
DocVQA
94%
DocVQA: Domande visive su documenti. Testa la capacita di estrarre informazioni da immagini di documenti. Claude Opus 4.5 ha ottenuto 94% in questo benchmark.
Terminal-Bench
59.3%
Terminal-Bench: Attivita terminale/CLI. Testa la capacita di eseguire operazioni da linea di comando. Claude Opus 4.5 ha ottenuto 59.3% in questo benchmark.
ARC-AGI
37.6%
ARC-AGI: Astrazione e ragionamento. Testa l'intelligenza fluida attraverso nuovi puzzle di riconoscimento di pattern. Claude Opus 4.5 ha ottenuto 37.6% in questo benchmark.

Informazioni su Claude Opus 4.5

Scopri le capacita di Claude Opus 4.5, le funzionalita e come puo aiutarti a ottenere risultati migliori.

Claude Opus 4.5 è il modello di punta di Anthropic, rilasciato alla fine del 2025. È progettato specificamente per l'ingegneria del software complessa e il reasoning ad alto rischio. Il modello ha ottenuto un punteggio record dell'80,9% sul benchmark SWE-bench Verified, rendendolo la scelta primaria per il debugging autonomo e il refactoring di sistema. Introduce una personalità raffinata che enfatizza l'onestà diplomatica e una disponibilità ricca di sfumature.

Ottimizzazione Multimodal e Agentic

L'architettura supporta una context window di 200.000 token e un limite di output di 64.000 token. Gli sviluppatori possono utilizzare un parametro effort specializzato per scalare la profondità di reasoning in base ai costi computazionali. Questa flessibilità consente task di logica ad alta intensità o una stesura creativa più rapida ed economica. Il modello è multimodal, eccellendo nell'interpretazione di diagrammi architetturali e layout di UI densi.

Ingegneria e uso dei Tool

Ottimizzato per flussi di lavoro agentic, naviga negli ambienti terminale tramite Claude Code per eseguire audit a livello di sistema. Riduce significativamente i prezzi di input e output rispetto alle iterazioni di punta precedenti. La sua capacità di mantenere la coerenza su task a lungo termine lo posiziona come un partner affidabile per team di ingegneria professionisti e analisi dati complesse.

Claude Opus 4.5

Casi d'uso per Claude Opus 4.5

Scopri i diversi modi in cui puoi usare Claude Opus 4.5 per ottenere ottimi risultati.

Ingegneria del Software Autonoma

Automazione del debugging end-to-end e refactoring a livello di sistema con un punteggio record dell'80,9% su SWE-bench.

Flussi di lavoro di ricerca Agentic

Sintesi di grandi quantità di dati tecnici in strategie aziendali attuabili utilizzando la context window di 200k.

Visione UI/UX ad alta fedeltà

Conversione di complessi design Figma e diagrammi architetturali in codice frontend pronto per la produzione con una precisione pixel-perfect.

Orchestrazione Multi-Agent

Agire come cervello centrale per team di sub-agent al fine di gestire progetti a lungo termine su basi di codice disparate.

Analisi dati avanzata

Automazione di complessi modelli finanziari e flussi di lavoro Excel con elevata precisione e profondità di reasoning.

Stesura letteraria e creativa

Produzione di testi sfumati che aderiscono a gusti stilistici specifici e complessi principi di design incentrati sull'uomo.

Punti di forza

Limitazioni

Prestazioni di programmazione d'élite: Il primo modello a superare la barriera dell'80% su SWE-bench Verified (80,9%), superando tutti gli altri frontier model.
Lacune nei benchmark matematici: Sebbene d'élite nella programmazione, rimane leggermente indietro rispetto ai modelli specializzati nella matematica di livello PhD.
Controllo flessibile del reasoning: Il parametro effort fornisce agli sviluppatori un controllo granulare sul costo computazionale e sulla profondità di reasoning per specifici flussi di lavoro.
Latenza di pianificazione: Impostare il parametro effort su 'high' può comportare fasi di riflessione significativamente più lunghe prima dell'emissione del primo token.
Sfumature conversazionali naturali: Riconosciuto per una personalità raffinata che gestisce l'ambiguità e segue contesti complessi senza un approccio robotico.
Limiti sui token di contesto: I system prompt e le definizioni dei tool possono consumare una gran parte della finestra prima che inizi l'elaborazione.
Significativa efficienza dei costi: Il tariffario 5$/25$ rende l'intelligenza di livello Opus accessibile per la produzione aziendale ad alto volume.
Lacune nel richiamo fattuale: Nei test di accuratezza specializzati come SimpleQA, può ancora occasionalmente fabbricare dettagli rispetto ai concorrenti più orientati alla ricerca.

Avvio rapido API

anthropic/claude-opus-4.5

Visualizza documentazione
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: 'claude-opus-4-5-20251101',
  max_tokens: 4096,
  effort: 'high',
  messages: [{ role: 'user', content: 'Analizza questa architettura di sistema per race condition.' }],
});

console.log(msg.content[0].text);

Installa l'SDK e inizia a fare chiamate API in pochi minuti.

Cosa dice la gente su Claude Opus 4.5

Guarda cosa pensa la community di Claude Opus 4.5

Claude Opus 4.5 sembra meno un assistente stateless e più un compagno persistente. Riesce a tracciare le ipotesi attraverso file multipli in un modo che appare chiaramente più solido.
Federal-Piano8695
reddit
Guardare il tuo AI agent sviluppare una personalità sui social media che risuona con le persone reali in modi che non puoi spiegare. L'infrastruttura conta più dei prompt.
auxten
twitter
Opus è il modello con le migliori prestazioni sotto questo aspetto. La sua discussione è la più naturale e segue davvero il filo del discorso insieme a te.
ArchMeta1868
reddit
Opus 4.5 coglie le sfumature più sottili. È l'unico modello a includere con successo un meccanismo di trailer inline al primo passaggio.
Matt Berman
youtube
Il punteggio dell'80,9% su SWE-bench è probabilmente reale ma anche un po' fuorviante. Richiede una chiara configurazione dell'ambiente per raggiungere costantemente quei numeri.
testingcatalog
twitter
SWE-bench Verified: 80,9% (Opus 4.5) vs 71,3% (Claude 3-Opus). Questo è un salto enorme per l'affidabilità nel mondo reale.
Daniel Garcia
medium

Video su Claude Opus 4.5

Guarda tutorial, recensioni e discussioni su Claude Opus 4.5

Opus 4.5 coglie le sfumature più sottili

È stato l'unico modello a includere con successo un meccanismo di trailer inline al primo tentativo

Una valutazione del codice guidata da un agent conferma questa sensazione soggettiva, assegnando a Opus un 7/10 per completezza delle funzionalità

Il reasoning è molto più logico rispetto alle versioni precedenti nella gestione dei casi limite

Mantiene la coerenza della codebase su sessioni di 30 minuti

Il prezzo è ora tre volte più economico. Saranno solo 5$ per un milione di token di input

L'input costa 5$ e l'output 25$ per un milione di token

Opus 4.5 ha ottenuto un punteggio superiore a quello di qualsiasi candidato umano all'esame a casa di Anthropic

Questo è il primo modello a superare la barriera dell'80 percento su SWE-bench

Gestisce sessioni di programmazione autonome di 30 minuti senza intervento umano

Pensa a Claude Opus 4.5 come a uno strato di persuasione e un mostro agentic assoluto

È un mostro assoluto nel campo agentic e della programmazione

Gli ingegneri finiscono per preferire lavorare con Claude Opus 4.5 perché ottengono quei cicli di feedback stretti

Il parametro effort di reasoning è la funzionalità distintiva per gli sviluppatori

Sembra più un collaboratore che uno strumento nelle discussioni di lunga durata

Piu di semplici prompt

Potenzia il tuo workflow con l'automazione AI

Automatio combina la potenza degli agenti AI, dell'automazione web e delle integrazioni intelligenti per aiutarti a fare di piu in meno tempo.

Agenti AI
Automazione web
Workflow intelligenti

Consigli Pro per Claude Opus 4.5

Consigli esperti per aiutarti a ottenere il massimo da Claude Opus 4.5 e raggiungere risultati migliori.

Regolazione del Reasoning Effort

Usa il parametro effort su 'high' per logica complessa o task di programmazione, e su 'medium' per la scrittura creativa standard.

Design Vision-Native

Carica screenshot ad alta risoluzione di bug dell'UI, poiché il modello è ottimizzato per identificare discrepanze visive che le descrizioni testuali possono tralasciare.

System Prompt Strutturati

Definisci ruoli agentic chiari e livelli di effort nei tuoi system prompt per evitare che il modello analizzi eccessivamente task procedurali più semplici.

Compattazione del Context

Riassumi la cronologia nelle sessioni prolungate per mantenere la context window di 200k focalizzata sulle informazioni più rilevanti.

Testimonianze

Cosa dicono i nostri utenti

Unisciti a migliaia di utenti soddisfatti che hanno trasformato il loro workflow

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Correlati AI Models

google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
openai

GPT-5.1

OpenAI

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
openai

GPT-5.2

OpenAI

GPT-5.2 is OpenAI's flagship model for professional tasks, featuring a 400K context window, elite coding, and deep multi-step reasoning capabilities.

400K context
$1.75/$14.00/1M
alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2 Thinking

Moonshot

Kimi K2 Thinking is Moonshot AI's trillion-parameter reasoning model. It outperforms GPT-5 on HLE and supports 300 sequential tool calls autonomously for...

256K context
$0.60/$2.50/1M

Domande frequenti su Claude Opus 4.5

Trova risposte alle domande comuni su Claude Opus 4.5