anthropic

Claude 3.7 Sonnet

Claude 3.7 Sonnet est le premier model de raisonnement hybride d'Anthropic, offrant des capacités de codage de pointe, un context window de 200k et une...

anthropic logoanthropicClaude 324 février 2025
Contexte
200Ktokens
Sortie max.
128Ktokens
Prix entrée
$3.00/ 1M
Prix sortie
$15.00/ 1M
Modalité:TextImage
Capacités:VisionOutilsStreamingRaisonnement
Benchmarks
GPQA
84.8%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). Claude 3.7 Sonnet a obtenu 84.8% sur ce benchmark.
HLE
34%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. Claude 3.7 Sonnet a obtenu 34% sur ce benchmark.
MMLU
89%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. Claude 3.7 Sonnet a obtenu 89% sur ce benchmark.
MMLU Pro
74%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. Claude 3.7 Sonnet a obtenu 74% sur ce benchmark.
SimpleQA
42%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. Claude 3.7 Sonnet a obtenu 42% sur ce benchmark.
IFEval
93.2%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. Claude 3.7 Sonnet a obtenu 93.2% sur ce benchmark.
AIME 2025
54.8%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. Claude 3.7 Sonnet a obtenu 54.8% sur ce benchmark.
MATH
96.2%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. Claude 3.7 Sonnet a obtenu 96.2% sur ce benchmark.
GSM8k
97%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. Claude 3.7 Sonnet a obtenu 97% sur ce benchmark.
MGSM
92%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. Claude 3.7 Sonnet a obtenu 92% sur ce benchmark.
MathVista
70%
MathVista: Raisonnement Mathématique Visuel. Teste la capacité à résoudre des problèmes mathématiques impliquant des éléments visuels comme les graphiques, les diagrammes de géométrie et les figures scientifiques. Combine la compréhension visuelle avec le raisonnement mathématique. Claude 3.7 Sonnet a obtenu 70% sur ce benchmark.
SWE-Bench
70.3%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. Claude 3.7 Sonnet a obtenu 70.3% sur ce benchmark.
HumanEval
94%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. Claude 3.7 Sonnet a obtenu 94% sur ce benchmark.
LiveCodeBench
65%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. Claude 3.7 Sonnet a obtenu 65% sur ce benchmark.
MMMU
75%
MMMU: Compréhension Multimodale. Benchmark de Compréhension Multimodale Multi-discipline Massive testant les modèles vision-langage sur des problèmes universitaires dans 30 matières nécessitant à la fois la compréhension d'images et des connaissances expertes. Claude 3.7 Sonnet a obtenu 75% sur ce benchmark.
MMMU Pro
55%
MMMU Pro: MMMU Édition Professionnelle. Version améliorée du MMMU avec des questions plus difficiles et une évaluation plus stricte. Teste le raisonnement multimodal avancé aux niveaux professionnel et expert. Claude 3.7 Sonnet a obtenu 55% sur ce benchmark.
ChartQA
89%
ChartQA: Questions-Réponses sur Graphiques. Teste la capacité à comprendre et raisonner sur les informations présentées dans les graphiques. Nécessite l'extraction de données, la comparaison de valeurs et l'exécution de calculs à partir de représentations visuelles de données. Claude 3.7 Sonnet a obtenu 89% sur ce benchmark.
DocVQA
94%
DocVQA: Q&R Visuelle sur Documents. Benchmark de Questions-Réponses Visuelles sur Documents testant la capacité à extraire et raisonner sur les informations des images de documents incluant les formulaires, rapports et textes numérisés. Claude 3.7 Sonnet a obtenu 94% sur ce benchmark.
Terminal-Bench
35.2%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. Claude 3.7 Sonnet a obtenu 35.2% sur ce benchmark.
ARC-AGI
12%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. Claude 3.7 Sonnet a obtenu 12% sur ce benchmark.

Essayez Claude 3.7 Sonnet Gratuitement

Discutez avec Claude 3.7 Sonnet gratuitement. Testez ses capacités, posez des questions et explorez ce que ce modèle d'IA peut faire.

Prompt
Réponse
anthropic/claude-3-7-sonnet-20250219

Votre réponse IA apparaîtra ici

À propos de Claude 3.7 Sonnet

Découvrez les capacités, fonctionnalités et façons d'utiliser Claude 3.7 Sonnet.

Hybrid Reasoning et Transparence

Claude 3.7 Sonnet représente une étape majeure dans l'architecture des LLM en tant que premier model de 'hybrid reasoning' d'Anthropic. Il permet aux utilisateurs de basculer entre des réponses standard à faible latency et un mode 'extended thinking' qui affiche sa chain-of-thought interne. Cette transparence offre aux utilisateurs une vision claire de la logique du model, le rendant particulièrement efficace pour le dépannage complexe et les tâches de reasoning à enjeux élevés.

Maîtrise de l'ingénierie logicielle

Conçu avec un accent mis sur l'ingénierie logicielle et des résultats prêts pour la production, le model a établi de nouveaux standards industriels sur des benchmarks comme SWE-Bench Verified. Il excelle dans le 'vibe coding', où les développeurs décrivent une intention de haut niveau et le model gère l'implémentation sur plusieurs fichiers. Il traite les refactorisations complexes et les décisions architecturales avec une précision qui surpasse les précédents frontier models.

Context window massif et outils agentic

Avec un context window massif de 200 000 tokens et un ensemble d'outils agentic nommé Claude Code, il se transforme d'un simple chatbot en un partenaire technique collaboratif. Il est capable de gérer des cycles de vie complets de projets, de la révision initiale de la documentation aux workflows git automatisés et à l'exécution des tests, garantissant un développement rapide et sans bug.

Claude 3.7 Sonnet

Cas d'utilisation de Claude 3.7 Sonnet

Découvrez les différentes façons d'utiliser Claude 3.7 Sonnet pour obtenir d'excellents résultats.

Vibe Coding

Création de logiciels fonctionnels à partir de zéro en décrivant l'intention en langage naturel.

Debugging avancé

Utilisation du 'extended thinking' pour analyser des logs complexes et fournir des correctifs précis en un coup d'œil.

Analyse de large contexte

Révision et refactorisation de bases de code entières ou de documentations techniques volumineuses dans un seul prompt.

Développement agentic

Alimentation d'outils en terminal comme Claude Code pour automatiser les workflows git et l'exécution des tests.

Génération d'UI Frontend

Création de composants React et Svelte élégants et maintenables avec une sensibilité au design intégrée.

Recherche factuelle

Analyse de documents PDF massifs et de jeux de données avec une grande précision et de faibles taux d'hallucination.

Points forts

Limitations

Codage de pointe: A obtenu un score state-of-the-art de 70,3 % sur SWE-bench Verified, résolvant des problèmes GitHub réels avec une précision sans précédent.
Latency de réponse: L'activation du mode 'extended thinking' augmente considérablement le temps de génération du premier token par rapport aux réponses standard du model.
Reasoning visible: Le premier model à offrir un 'extended thinking' visible et contrôlable par l'utilisateur pour la résolution de problèmes complexes à enjeux élevés.
Tarification Premium: Les coûts de sortie de 15 $ par million de tokens restent considérablement plus élevés que la plupart des alternatives 'mini' ou open-weights.
Intégration agentic: Spécifiquement optimisé pour l'utilisation d'outils et l'interaction CLI via le framework d'agent Claude Code pour l'automatisation de tâches de bout en bout.
Pas d'Audio/Vidéo natif: Contrairement à GPT-4o ou Gemini 2.0, il ne dispose pas de capacités de traitement d'entrées audio et vidéo natives.
Sensibilité supérieure au design: Génère systématiquement un code UI plus élégant, accessible et maintenable par rapport aux autres frontier models.
Coût de calcul: Les sessions de deep reasoning peuvent rapidement consommer les budgets de tokens et les limites de contexte lors de refactorisations de code à grande échelle.

Démarrage rapide API

anthropic/claude-3-7-sonnet-20250219

Voir la documentation
anthropic SDK
import Anthropic from '@anthropic-ai/sdk';

const anthropic = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

const msg = await anthropic.messages.create({
  model: "claude-3-7-sonnet-20250219",
  max_tokens: 1024,
  thinking: { type: "enabled", budget_tokens: 1024 },
  messages: [{ role: "user", content: "Write a high-performance Rust function for matrix multiplication." }],
});

console.log(msg.content);

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Claude 3.7 Sonnet

Voyez ce que la communauté pense de Claude 3.7 Sonnet

"Claude 3.7 Sonnet est le meilleur model d'IA de codage au monde ; il m'a bluffé sur des tâches difficiles."
rawcell4772
reddit
"Avec un seul prompt, il a tout réussi parfaitement sur un projet TypeScript complexe."
rawcell4772
reddit
"Claude Code avec Sonnet 3.7 est bien meilleur que Cline et actuellement le meilleur outil."
peterkrueck
reddit
"Le saut qualitatif avec des models de premier plan comme le 3.7 a transformé ma vision des choses."
lurking_horrors
reddit
"Claude 3.7 c'est du lourd, ça frappe différemment... clairement le GOAT, sérieux"
Fireship
youtube
"Le mode reasoning de Claude 3.7 est un changement de paradigme complet pour le debugging logique."
DevLead99
x

Vidéos sur Claude 3.7 Sonnet

Regardez des tutoriels, critiques et discussions sur Claude 3.7 Sonnet

Le nouveau model 3.7 a absolument écrasé tous les autres models... désormais capable de résoudre 70,3 % des problèmes GitHub

L'utilisation d'un langage fortement typé ainsi que le TDD sont des moyens pour l'IA de valider que le code qu'elle écrit est réellement valide

Le model est incroyablement intelligent pour suivre les instructions

Les performances sur SWE-bench sont tout simplement incroyables

Le reasoning visible change la donne pour la transparence

Claude 3.7 Sonnet... c'est probablement le meilleur LLM pour la génération de code

Si vous utilisez l'API, vous pouvez générer 128 000 tokens d'un coup

La limite de sortie de 128k est une mise à jour massive

Sa sensibilité au design pour les composants frontend est inégalée

L'utilisation d'outils et les capacités agentic sont au cœur de ce model

Le reasoning devrait être une capacité intégrée des frontier models plutôt qu'un model entièrement séparé

Claude 3.7 parvient à surpasser ces models [DeepSeek, o3] de manière assez significative

La latency est légèrement plus élevée en mode reasoning

Il bat DeepSeek R1 sur plusieurs tâches de suivi d'instructions

Anthropic s'est vraiment concentré sur des résultats prêts pour la production

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents
Voir la video demo

Conseils Pro

Conseils d'experts pour tirer le meilleur parti de ce modèle.

Budget de réflexion

Utilisez le mode 'extended thinking' spécifiquement pour la logique complexe ou la planification d'architecture afin d'obtenir des résultats de meilleure qualité.

Contrôle du contexte

Utilisez régulièrement /clear ou redémarrez les chats pour économiser sur les coûts de contexte et éviter que le model ne devienne lent.

Vérification

Demandez à Claude d'écrire et d'exécuter des tests pour son propre code en utilisant l'outil Claude Code pour garantir la stabilité en production.

Spécifications Markdown

Fournissez les exigences des fonctionnalités dans des fichiers Markdown structurés pour un meilleur suivi des instructions lors de projets d'envergure.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

xai

Grok-3

xai

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

128K context
$3.00/$15.00/1M
zhipu

GLM-4.7

zhipu

GLM-4.7 by Zhipu AI is a flagship 358B MoE model featuring a 200K context window, elite 73.8% SWE-bench performance, and native Deep Thinking for agentic...

200K context
$0.60/$2.20/1M
anthropic

Claude Sonnet 4.5

anthropic

Anthropic's Claude Sonnet 4.5 delivers world-leading coding (77.2% SWE-bench) and a 200K context window, optimized for the next generation of autonomous agents.

200K context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
xai

Grok-4

xai

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
openai

GPT-5.1

openai

GPT-5.1 is OpenAI’s advanced reasoning flagship featuring adaptive thinking, native multimodality, and state-of-the-art performance in math and technical...

400K context
$1.25/$10.00/1M
google

Gemini 3 Flash

google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M
google

Gemini 3 Pro

google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M

Questions Fréquentes

Trouvez des réponses aux questions courantes sur ce modèle