anthropic

Claude Sonnet 4.5

Le Claude 4.5 Sonnet d'Anthropic offre des performances de codage de classe mondiale (77,2 % au SWE-bench) et un context window de 200K, optimisé pour la...

Codage par IAAgentic AIHybrid ReasoningAnthropicMultimodal
anthropic logoanthropicClaude 429 septembre 2025
Contexte
200Ktokens
Sortie max.
64Ktokens
Prix entrée
$3.00/ 1M
Prix sortie
$15.00/ 1M
Modalité:TextImageAudioVideo
Capacités:VisionOutilsStreamingRaisonnement
Benchmarks
GPQA
83%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). Claude Sonnet 4.5 a obtenu 83% sur ce benchmark.
HLE
34%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. Claude Sonnet 4.5 a obtenu 34% sur ce benchmark.
MMLU
89%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. Claude Sonnet 4.5 a obtenu 89% sur ce benchmark.
MMLU Pro
78%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. Claude Sonnet 4.5 a obtenu 78% sur ce benchmark.
SimpleQA
52%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. Claude Sonnet 4.5 a obtenu 52% sur ce benchmark.
IFEval
88%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. Claude Sonnet 4.5 a obtenu 88% sur ce benchmark.
AIME 2025
87%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. Claude Sonnet 4.5 a obtenu 87% sur ce benchmark.
MATH
87%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. Claude Sonnet 4.5 a obtenu 87% sur ce benchmark.
GSM8k
98%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. Claude Sonnet 4.5 a obtenu 98% sur ce benchmark.
MGSM
92%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. Claude Sonnet 4.5 a obtenu 92% sur ce benchmark.
MathVista
72%
MathVista: Raisonnement Mathématique Visuel. Teste la capacité à résoudre des problèmes mathématiques impliquant des éléments visuels comme les graphiques, les diagrammes de géométrie et les figures scientifiques. Combine la compréhension visuelle avec le raisonnement mathématique. Claude Sonnet 4.5 a obtenu 72% sur ce benchmark.
SWE-Bench
77%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. Claude Sonnet 4.5 a obtenu 77% sur ce benchmark.
HumanEval
94%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. Claude Sonnet 4.5 a obtenu 94% sur ce benchmark.
LiveCodeBench
68%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. Claude Sonnet 4.5 a obtenu 68% sur ce benchmark.
MMMU
78%
MMMU: Compréhension Multimodale. Benchmark de Compréhension Multimodale Multi-discipline Massive testant les modèles vision-langage sur des problèmes universitaires dans 30 matières nécessitant à la fois la compréhension d'images et des connaissances expertes. Claude Sonnet 4.5 a obtenu 78% sur ce benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Édition Professionnelle. Version améliorée du MMMU avec des questions plus difficiles et une évaluation plus stricte. Teste le raisonnement multimodal avancé aux niveaux professionnel et expert. Claude Sonnet 4.5 a obtenu 55% sur ce benchmark.
ChartQA
89%
ChartQA: Questions-Réponses sur Graphiques. Teste la capacité à comprendre et raisonner sur les informations présentées dans les graphiques. Nécessite l'extraction de données, la comparaison de valeurs et l'exécution de calculs à partir de représentations visuelles de données. Claude Sonnet 4.5 a obtenu 89% sur ce benchmark.
DocVQA
92%
DocVQA: Q&R Visuelle sur Documents. Benchmark de Questions-Réponses Visuelles sur Documents testant la capacité à extraire et raisonner sur les informations des images de documents incluant les formulaires, rapports et textes numérisés. Claude Sonnet 4.5 a obtenu 92% sur ce benchmark.
Terminal-Bench
50%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. Claude Sonnet 4.5 a obtenu 50% sur ce benchmark.
ARC-AGI
14%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. Claude Sonnet 4.5 a obtenu 14% sur ce benchmark.

Essayez Claude Sonnet 4.5 Gratuitement

Discutez avec Claude Sonnet 4.5 gratuitement. Testez ses capacités, posez des questions et explorez ce que ce modèle d'IA peut faire.

Prompt
Réponse
Claude Sonnet 4.5

Votre réponse IA apparaîtra ici

À propos de Claude Sonnet 4.5

Découvrez les capacités, fonctionnalités et façons d'utiliser Claude Sonnet 4.5.

**La Frontière de l'Intelligence Agentic**

Claude Sonnet 4.5 représente le bond le plus significatif d'Anthropic en matière de "frontier intelligence", spécifiquement optimisé pour l'ère des agents IA autonomes. Sorti fin 2025, c'est le premier véritable model de "hybrid reasoning" de l'industrie, permettant aux développeurs de basculer entre une exécution ultra-rapide pour les tâches routinières et un extended thinking pour les défis logiques complexes. Il a notamment éclipsé les benchmarks précédents en computer use et en orchestration d'outils, ce qui en fait le moteur de prédilection pour les agents en terminal et l'ingénierie logicielle multi-fichiers.

**Précision et Réduction des Hallucinations**

Le model repose sur une architecture qui privilégie une logique de réflexion approfondie avant l'action, réduisant considérablement la sycophancy et les hallucinations observées dans la série 3.5. Avec une limite massive de 64 000 output tokens et un context window de 200 000 tokens, il peut ingérer des dépôts entiers tout en générant des fichiers d'application complets en un seul passage. Il introduit également des "checkpoints" natifs pour les workflows agentic, permettant aux agents de revenir en arrière et de corriger leurs propres erreurs de manière autonome.

**Prouesses en Multimodal et Reasoning**

Au-delà du codage, Sonnet 4.5 domine dans l'analyse de documents multimodal et la modélisation financière complexe. Sa logique interne est entraînée pour prioriser le contexte architectural, lui permettant de cartographier des codebases à grande échelle mieux que n'importe quel prédécesseur. Qu'il s'agisse de traiter des notes manuscrites ou d'implémenter une intégration Stripe complète, Sonnet 4.5 maintient un haut niveau d'exactitude factuelle et de suivi des instructions.

Claude Sonnet 4.5

Cas d'utilisation de Claude Sonnet 4.5

Découvrez les différentes façons d'utiliser Claude Sonnet 4.5 pour obtenir d'excellents résultats.

Génie logiciel autonome

utilisez Claude Sonnet 4.5 pour naviguer dans des codebases complexes, implémenter des fonctionnalités sur plusieurs fichiers et exécuter des tests de manière indépendante.

Agents Computer-Use

déployez le model pour contrôler des ordinateurs de bureau et des navigateurs web pour l'extraction de données, la navigation dans des systèmes hérités ou des tâches administratives répétitives.

Recherche Agentic d'entreprise

orchestrez des requêtes de recherche en plusieurs étapes et synthétisez des informations disparates provenant de la documentation interne et du web en direct.

Modélisation financière complexe

exploitez son score de 87 % à l'AIME pour effectuer des déductions logiques approfondies sur des rapports financiers et des données de marché.

Raffinement de contenu technique

convertissez des exigences de haut niveau en PRD professionnels, en spécifications techniques et en codebases prêts à l'emploi.

Analyse de documents Multimodal

traitez des milliers de pages de graphiques, de notes manuscrites et de diagrammes techniques avec des capacités de vision state-of-the-art.

Points forts

Limitations

Puissance de codage Agentic: actuellement détenteur du record mondial sur SWE-bench Verified avec un taux de réussite de 77,2 % sur des problèmes GitHub réels.
Plafonds d'utilisation: les utilisateurs professionnels signalent souvent atteindre rapidement les limites d'utilisation hebdomadaires sur le forfait Pro à 20 $/mois.
Vitesse incroyable: fonctionne à 40-60 tokens par seconde, ce qui le rend nettement plus rapide que les précédents frontier models pour une utilisation interactive.
Latency de recherche: la navigation web par agent (BrowseComp) reste un point faible par rapport aux models de recherche spécialisés.
Flexibilité Hybrid Reasoning: le premier model à équilibrer efficacement le mode 'chat rapide' avec le 'extended thinking' pour des chaînes logiques complexes.
Lacunes de connaissances spécifiques: éprouve des difficultés avec des tâches visuelles très spécialisées, comme l'identification de figures de skateboard spécifiques (précision de 29 % sur SkateBench).
Fenêtre de sortie massive: une limite de 64K output tokens permet la génération de fonctionnalités complètes multi-fichiers en un seul appel API.
Coûts Agentic: faire fonctionner le model de manière autonome en mode terminal peut consommer entre 50 $ et 100 $ en tokens pour une seule session complexe de création d'application.

Démarrage rapide API

anthropic/claude-sonnet-4.5

Voir la documentation
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-sonnet-4.5-20250929",
  max_tokens: 1024,
  messages: [{ role: "user", content: "Implement a rate limiter in Node.js" }],
});

console.log(msg.content[0].text);

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Claude Sonnet 4.5

Voyez ce que la communauté pense de Claude Sonnet 4.5

"Claude Sonnet 4.5 est le nouveau roi du codage par IA... c'est vraiment très, très prometteur"
James Montemagno
youtube
"Sonnet 4.5 fait un excellent travail... il est beaucoup plus rapide et nettement meilleur"
Cole Medin
youtube
"Je suis bluffé par Sonnet 4.5... celui-ci conçoit des pages absolument superbes"
Savage Reviews
youtube
"L'agent basé sur le terminal est un 'développeur vivant dans votre console'... il peut lire les codebases et lancer des tests en autonomie"
DevUser_99
reddit
"Les prix restent les mêmes que pour la 3.5, mais la fonction 'Checkpoints' le rend 10 fois plus précieux pour les workflows professionnels"
AgentArchitect
x
"À 77,2 % sur SWE-bench, c'est le premier model qui donne l'impression d'être un ingénieur senior"
HackerNewsReader
hackernews

Vidéos sur Claude Sonnet 4.5

Regardez des tutoriels, critiques et discussions sur Claude Sonnet 4.5

Anthropic affirme qu'il s'agit du 'meilleur model de code au monde' avec des gains substantiels en reasoning, en mathématiques et en computer use.

Bien que GPT-5 puisse être meilleur pour la planification de haut niveau, Claude 4.5 Sonnet est actuellement le model le plus 'agréable' à utiliser pour l'implémentation.

La vitesse est tout simplement incroyable, ce qui rend le codage interactif beaucoup plus fluide.

Il gère les modifications multi-fichiers avec un niveau de précision jamais vu auparavant.

La réduction des hallucinations en fait un partenaire fiable pour le code en production.

Claude Sonnet 4.5 s'est révélé beaucoup plus rapide et nettement meilleur que GPT-5 Codex.

Il a réalisé l'intégralité de l'implémentation Stripe en 15 minutes... plus de deux fois plus vite qu'Opus 4.1.

Sa capacité à suivre des instructions complexes de tool-calling est sa botte secrète.

Je constate moins de problèmes de 'sycophancy' où le model se contente d'approuver mes mauvaises idées.

C'est le premier model auquel je ferais réellement confiance pour faire tourner un agent en terminal sans surveillance.

C'est l'une des meilleures landing pages, sinon LA meilleure, que j'aie jamais vu être créée à partir d'un prompt.

C'est un monstre absolu... il conçoit des pages vraiment magnifiques avec un code de très grande qualité.

Les capacités de vision pour interpréter le design d'interface utilisateur sont considérablement améliorées.

On a l'impression qu'il comprend les exigences esthétiques, pas seulement techniques.

Sonnet 4.5 est officiellement le nouveau benchmark pour l'ingénierie front-end créative.

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents
Voir la video demo

Conseils Pro

Conseils d'experts pour tirer le meilleur parti de ce modèle.

Exploitez le fichier CLAUDE.md

utilisez un fichier CLAUDE.md à la racine de votre dépôt pour donner au model des résumés courts et des indications ; cela réduit le gaspillage de tokens de 30 %.

Bascule Hybrid Reasoning

utilisez le paramètre 'thinking' dans vos appels API uniquement pour les tâches exigeantes en logique afin d'économiser sur la latency et les coûts lors des opérations de routine.

Le dossier .claude/context

créez un fichier .claude/context.md pour stocker les décisions d'architecture ; le model est spécifiquement entraîné pour prioriser ce chemin pour la cartographie de la codebase.

Prompt Caching

activez le prompt caching pour la documentation statique ou les bases de code volumineuses afin d'économiser jusqu'à 90 % sur les coûts d'entrée pour les requêtes répétées.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
anthropic

Claude 3.7 Sonnet

anthropic

Claude 3.7 Sonnet is Anthropic's first hybrid reasoning model, delivering state-of-the-art coding capabilities, a 200k context window, and visible thinking.

200K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Questions Fréquentes

Trouvez des réponses aux questions courantes sur ce modèle