openai

GPT-5.1

GPT-5.1 est le flagship d'OpenAI basé sur un raisonnement avancé, incluant une réflexion adaptative, une multimodalité native et des performances...

openai logoopenaiGPT-512 novembre 2025
Contexte
400Ktokens
Sortie max.
128Ktokens
Prix entrée
$1.25/ 1M
Prix sortie
$10.00/ 1M
Modalité:TextImage
Capacités:VisionOutilsStreamingRaisonnement
Benchmarks
GPQA
88.1%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). GPT-5.1 a obtenu 88.1% sur ce benchmark.
HLE
32.5%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. GPT-5.1 a obtenu 32.5% sur ce benchmark.
MMLU
90.2%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. GPT-5.1 a obtenu 90.2% sur ce benchmark.
MMLU Pro
81%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. GPT-5.1 a obtenu 81% sur ce benchmark.
SimpleQA
52%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. GPT-5.1 a obtenu 52% sur ce benchmark.
IFEval
91%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. GPT-5.1 a obtenu 91% sur ce benchmark.
AIME 2025
94%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. GPT-5.1 a obtenu 94% sur ce benchmark.
MATH
91%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. GPT-5.1 a obtenu 91% sur ce benchmark.
GSM8k
98.5%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. GPT-5.1 a obtenu 98.5% sur ce benchmark.
MGSM
95%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. GPT-5.1 a obtenu 95% sur ce benchmark.
MathVista
75%
MathVista: Raisonnement Mathématique Visuel. Teste la capacité à résoudre des problèmes mathématiques impliquant des éléments visuels comme les graphiques, les diagrammes de géométrie et les figures scientifiques. Combine la compréhension visuelle avec le raisonnement mathématique. GPT-5.1 a obtenu 75% sur ce benchmark.
SWE-Bench
76.3%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. GPT-5.1 a obtenu 76.3% sur ce benchmark.
HumanEval
92.5%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. GPT-5.1 a obtenu 92.5% sur ce benchmark.
LiveCodeBench
74%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. GPT-5.1 a obtenu 74% sur ce benchmark.
MMMU
85.4%
MMMU: Compréhension Multimodale. Benchmark de Compréhension Multimodale Multi-discipline Massive testant les modèles vision-langage sur des problèmes universitaires dans 30 matières nécessitant à la fois la compréhension d'images et des connaissances expertes. GPT-5.1 a obtenu 85.4% sur ce benchmark.
MMMU Pro
62%
MMMU Pro: MMMU Édition Professionnelle. Version améliorée du MMMU avec des questions plus difficiles et une évaluation plus stricte. Teste le raisonnement multimodal avancé aux niveaux professionnel et expert. GPT-5.1 a obtenu 62% sur ce benchmark.
ChartQA
89%
ChartQA: Questions-Réponses sur Graphiques. Teste la capacité à comprendre et raisonner sur les informations présentées dans les graphiques. Nécessite l'extraction de données, la comparaison de valeurs et l'exécution de calculs à partir de représentations visuelles de données. GPT-5.1 a obtenu 89% sur ce benchmark.
DocVQA
93%
DocVQA: Q&R Visuelle sur Documents. Benchmark de Questions-Réponses Visuelles sur Documents testant la capacité à extraire et raisonner sur les informations des images de documents incluant les formulaires, rapports et textes numérisés. GPT-5.1 a obtenu 93% sur ce benchmark.
Terminal-Bench
58%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. GPT-5.1 a obtenu 58% sur ce benchmark.
ARC-AGI
12%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. GPT-5.1 a obtenu 12% sur ce benchmark.

À propos de GPT-5.1

Découvrez les capacités, fonctionnalités et façons d'utiliser GPT-5.1.

Architecture de raisonnement

GPT-5.1 dispose d'une architecture de réflexion de « Système 2 ». Cela permet au model d'ajuster son temps de traitement en fonction de la complexité de la requête. Pour les preuves mathématiques, il applique des déductions logiques profondes, tandis que les tâches conversationnelles simples maintiennent une faible latency. Le système de raisonnement adaptatif garantit que les ressources de calcul sont allouées là où elles apportent le plus de valeur.

Performances multimodales

Le model utilise un framework multimodal omni pour les entrées texte et vision. Il offre une latency réduite de 84 % sur les tâches d'extraction de documents d'entreprise par rapport à son prédécesseur. Une rétention de mémoire améliorée garantit que le contexte est maintenu tout au long des workflows agentic à long terme, ce qui le rend adapté aux projets d'ingénierie logicielle à grande échelle.

Systèmes de personnalisation

Un nouveau moteur permet l'ajustement du ton et des traits. Les utilisateurs peuvent configurer le model pour qu'il soit professionnel, décontracté ou expressif grâce à des instructions système explicites. Ces traits permettent aux développeurs de déployer des bots qui correspondent mieux aux identités de marque spécifiques et aux préférences des utilisateurs sans avoir recours à un few-shot prompting extensif.

GPT-5.1

Cas d'utilisation de GPT-5.1

Découvrez les différentes façons d'utiliser GPT-5.1 pour obtenir d'excellents résultats.

Ingénierie logicielle agentic

Le model automatise des refontes complexes sur de larges bases de code en utilisant un raisonnement de haute précision.

Recherche de niveau doctorat

Il résout des problèmes complexes en biologie et en physique nécessitant des déductions vérifiées en plusieurs étapes.

Analyse de documents d'entreprise

Le système extrait des données structurées à partir de masses de documents tabulaires avec une haute précision visuelle.

Support client personnalisé

Les développeurs déploient des bots avec des traits de marque spécifiques, comme excentrique ou professionnel, pour correspondre au sentiment de l'utilisateur.

Résolution de problèmes mathématiques

Le model utilise ses scores de 99,6 % à l'AIME pour vérifier des preuves et tutorer des étudiants en mathématiques avancées.

Business Intelligence basée sur la vision

Il analyse des graphiques complexes et des rapports financiers pour générer des résumés exécutifs avec un contexte visuel.

Points forts

Limitations

Raisonnement mathématique d'élite: Le model a atteint un score de 99,6 % à l'AIME 2025, surpassant presque tous les modèles concurrents précédents.
Latence de sortie élevée: Un raisonnement nécessitant beaucoup d'efforts peut prolonger les temps de réponse au-delà de 20 secondes pour des requêtes complexes.
Traitement adaptatif: La mise à l'échelle dynamique des ressources réduit la latency de 84 % sur les tâches simples de documents d'entreprise.
Pas d'audio natif: Il manque les capacités intégrées de speech-to-speech présentes chez des concurrents comme Gemini 2.0.
Contrôle amélioré de la personnalité: L'ajustement natif du ton rend les interactions plus chaleureuses et plus humaines que le GPT-5 original.
Tarification des sorties: À 10 $ par million de tokens, le coût des sorties de raisonnement long est nettement plus élevé que celui des modèles instantanés.
Context window à grande échelle: Une fenêtre de 400 000 tokens combinée à un cache de 24 heures permet des workflows agentic massifs.
Particularités stylistiques persistantes: Les utilisateurs signalent que le model peine toujours à éviter certains motifs de ponctuation malgré des instructions de mémoire explicites.

Démarrage rapide API

openai/gpt-5.1

Voir la documentation
openai SDK
import OpenAI from 'openai';

const openai = new OpenAI();

const response = await openai.chat.completions.create({
  model: "gpt-5.1",
  messages: [{ role: "user", content: "Analysez la sécurité de ce smart contract." }],
  reasoning_effort: "high",
});

console.log(response.choices[0].message.content);

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de GPT-5.1

Voyez ce que la communauté pense de GPT-5.1

GPT-5.1 etc dans Codex reste le meilleur examinateur pour les tâches de planification et de révision de code.
darrenjr
twitter
Nos évaluations ont montré que GPT-5 était jusqu'à 190 % plus performant que d'autres modèles leaders en raisonnement complexe.
CodeRabbit
twitter
GPT-5.1 est mieux calibré en fonction de la difficulté du prompt, consommant beaucoup moins de tokens sur les entrées faciles.
Tech Titans
facebook
Cette version mise tout sur la personnalité et sur le fait de rendre ChatGPT moins clinique et stérile.
Theo
youtube
La context window de 400k est une bouée de sauvetage pour l'analyse de l'ensemble de notre repo.
RedditUser99
reddit
Toujours pas d'audio natif, c'est dommage, mais les gains en raisonnement sont bien réels.
HackerNewsGuy
hackernews

Vidéos sur GPT-5.1

Regardez des tutoriels, critiques et discussions sur GPT-5.1

GPT 5.1 est arrivé. Il est plus rapide. Il est plus précis. Il est plus conversationnel.

Pour la première fois, GPT 5.1 Instant peut utiliser un raisonnement adaptatif pour décider quand réfléchir.

La logique est ici nettement meilleure que celle du model GPT 5 standard.

Il parvient à maintenir un ton plus chaleureux que ce que nous avons vu dans les versions précédentes.

Si vous êtes développeur, le prompt caching étendu va vous faire économiser beaucoup d'argent.

Il est encore plus personnalisable qu'avant.

Le ton semble beaucoup plus naturel... 5.1 est bien meilleur en termes d'énergie.

J'ai remarqué qu'il hallucine moins lors des étapes complexes de workflows.

La vitesse du mode instantané est presque équivalente à GPT 4o mini, mais avec plus d'intelligence.

Les fonctionnalités de personnalisation signifient que vous pouvez réellement lui demander d'arrêter d'être aussi formel.

C'est probablement l'une des mises à jour itératives les plus détendues pour un frontier model.

Il a produit un résultat de jeu de auto-tamponneuses réussi par rapport à la réflexion du GPT5.

Le traitement de la vision sur les documents manuscrits est nettement plus net.

Je pense que le bouton de bascule du reasoning effort est la meilleure fonctionnalité pour gérer les coûts de l'API.

On a enfin l'impression de parler à un model qui ne ressemble pas à un manuel scolaire.

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents

Conseils Pro pour GPT-5.1

Conseils d'experts pour tirer le meilleur parti de GPT-5.1.

Ajuster le reasoning effort

Utilisez le paramètre reasoning_effort pour définir le niveau de réflexion sur élevé pour les mathématiques, mais sur aucun pour une discussion simple afin d'économiser sur la latency.

Exploiter la grande context window

Utilisez la context window de 400k pour des dossiers de projet entiers, car le model conserve bien les informations dans les longs prompts.

Ajustement du ton

Activez des traits de ton dans vos instructions système pour rendre le model moins clinique et plus semblable à un coéquipier.

Prompt caching

Tirez parti du prompt caching de 24 heures pour réduire les coûts lors de l'exécution de boucles agentic répétitives sur la même base de code.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

alibaba

Qwen3.5-397B-A17B

alibaba

Qwen3.5-397B-A17B is Alibaba's flagship open-weight MoE model. It features native multimodal reasoning, a 1M context window, and a 19x decoding throughput...

1M context
$0.40/$2.40/1M
moonshot

Kimi K2.5

Moonshot

Discover Moonshot AI's Kimi K2.5, a 1T-parameter open-source agentic model featuring native multimodal capabilities, a 262K context window, and SOTA reasoning.

256K context
$0.60/$3.00/1M
xai

Grok-4

xAI

Grok-4 by xAI is a frontier model featuring a 2M token context window, real-time X platform integration, and world-record reasoning capabilities.

2M context
$3.00/$15.00/1M
anthropic

Claude Opus 4.5

Anthropic

Claude Opus 4.5 is Anthropic's most powerful frontier model, delivering record-breaking 80.9% SWE-bench performance and advanced autonomous agency for coding.

200K context
$5.00/$25.00/1M
google

Gemini 3.1 Flash-Lite

Google

Gemini 3.1 Flash-Lite is Google's fastest, most cost-efficient model. Features 1M context, native multimodality, and 363 tokens/sec speed for scale.

1M context
$0.25/$1.50/1M
anthropic

Claude Sonnet 4.6

Anthropic

Claude Sonnet 4.6 offers frontier performance for coding and computer use with a massive 1M token context window for only $3/1M tokens.

1M context
$3.00/$15.00/1M
zhipu

GLM-5

Zhipu (GLM)

GLM-5 is Zhipu AI's 744B parameter open-weight powerhouse, excelling in long-horizon agentic tasks, coding, and factual accuracy with a 200k context window.

200K context
$1.00/$3.20/1M
google

Gemini 3 Flash

Google

Gemini 3 Flash is Google's high-speed multimodal model featuring a 1M token context window, elite 90.4% GPQA reasoning, and autonomous browser automation tools.

1M context
$0.50/$3.00/1M

Questions Fréquentes sur GPT-5.1

Trouvez des réponses aux questions courantes sur GPT-5.1