alibaba

Qwen 3.7 Max

Qwen 3.7 Max est le flagship AI model d'Alibaba pour le raisonnement approfondi et les tâches d'agents autonomes, avec une context window de 256k et des...

Thinking ModelAssistant de codageAgentic AIAlibaba CloudArchitecture MoE
alibaba logoalibabaQwen320 mai 2026
Contexte
256Ktokens
Sortie max.
66Ktokens
Prix entrée
$1.20/ 1M
Prix sortie
$6.00/ 1M
Modalité:Text
Capacités:OutilsStreamingRaisonnement
Benchmarks
GPQA
92.4%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). Qwen 3.7 Max a obtenu 92.4% sur ce benchmark.
HLE
38.2%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. Qwen 3.7 Max a obtenu 38.2% sur ce benchmark.
MMLU
92.8%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. Qwen 3.7 Max a obtenu 92.8% sur ce benchmark.
MMLU Pro
82%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. Qwen 3.7 Max a obtenu 82% sur ce benchmark.
SimpleQA
45%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. Qwen 3.7 Max a obtenu 45% sur ce benchmark.
IFEval
95%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. Qwen 3.7 Max a obtenu 95% sur ce benchmark.
AIME 2025
99.7%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. Qwen 3.7 Max a obtenu 99.7% sur ce benchmark.
MATH
94.8%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. Qwen 3.7 Max a obtenu 94.8% sur ce benchmark.
GSM8k
99.2%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. Qwen 3.7 Max a obtenu 99.2% sur ce benchmark.
MGSM
98%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. Qwen 3.7 Max a obtenu 98% sur ce benchmark.
SWE-Bench
60.6%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. Qwen 3.7 Max a obtenu 60.6% sur ce benchmark.
HumanEval
94.5%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. Qwen 3.7 Max a obtenu 94.5% sur ce benchmark.
LiveCodeBench
78.2%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. Qwen 3.7 Max a obtenu 78.2% sur ce benchmark.
Terminal-Bench
69.7%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. Qwen 3.7 Max a obtenu 69.7% sur ce benchmark.
ARC-AGI
12.4%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. Qwen 3.7 Max a obtenu 12.4% sur ce benchmark.

À propos de Qwen 3.7 Max

Découvrez les capacités, fonctionnalités et façons d'utiliser Qwen 3.7 Max.

Moteur de raisonnement d'ordre supérieur

Qwen 3.7 Max est un système Mixture-of-Experts massif contenant environ 1,6 trillion de parameters. Il est conçu pour fonctionner comme un moteur orienté logique pour les tâches d'ingénierie et de recherche à haute complexité. Le model intègre un mode natif Always-On Thinking, qui force le model à vérifier la logique et à planifier les étapes avant de générer une réponse. Ce choix architectural réduit considérablement la dérive logique dans les sorties longues et fournit une base fiable pour l'architecture logicielle et les preuves mathématiques.

Conçu pour l'agence autonome

Ce model sert de base spécialisée pour la prochaine génération d'agents autonomes. Il se concentre sur la gestion des tâches à long terme et l'utilisation d'outils complexes. Lors des évaluations internes, le model a maintenu une cohérence logique sur des sessions durant plus de 30 heures, gérant des milliers d'appels d'outils séquentiels pour résoudre des problèmes d'ingénierie matérielle. Bien que le model soit optimisé pour le texte et le code afin de maintenir une densité de raisonnement élevée, il s'intègre facilement à des modules de vision ou audio externes via une orchestration multi-agents.

Efficacité dans les contextes larges

Avec une context window de 256 000 tokens, le model prend en charge l'analyse de dépôts à grande échelle et la récupération de documents complexes. Il maintient une précision de récupération élevée même lorsque la fenêtre est remplie, ce qui le rend idéal pour la découverte juridique et les workflows RAG au niveau de l'entreprise. La structure tarifaire compétitive permet aux développeurs de déployer une logique de niveau frontier model pour une fraction du coût des models comparables provenant de laboratoires occidentaux.

Qwen 3.7 Max

Cas d'utilisation de Qwen 3.7 Max

Découvrez les différentes façons d'utiliser Qwen 3.7 Max pour obtenir d'excellents résultats.

Ingénierie de noyau autonome

Le model génère et optimise des noyaux de code spécifiques au matériel pour de nouvelles puces sans documentation existante en utilisant des appels d'outils récursifs.

Refactorisation de dépôts d'entreprise

Qwen 3.7 Max analyse des répertoires de logiciels hérités entiers pour mettre à jour les frameworks et résoudre la dette technique tout en assurant une parité logique.

Planification d'agents à long terme

Il gère des flux de travail en plusieurs étapes nécessitant une prise de décision autonome et une planification sur des sessions continues de plus de 30 heures.

Vérification de la recherche scientifique

Les chercheurs utilisent le model pour vérifier des preuves mathématiques complexes et résoudre des requêtes scientifiques à plusieurs étapes avec une haute précision logique.

Modélisation avancée des risques financiers

Le model ingère des milliers de pages de données financières pour identifier des anomalies et projeter le ROI avec un raisonnement structuré.

Ingénierie UI multi-framework

Il construit des prototypes frontend fonctionnels avec une gestion d'état intégrée et une logique complexe directement à partir d'instructions en langage naturel de haut niveau.

Points forts

Limitations

Efficacité de raisonnement d'élite: Le model atteint 92,4 % sur GPQA, égalant ou dépassant les models de raisonnement les plus performants pour une fraction du coût.
Flagship axé sur le texte: La variante Max manque de support natif pour la vision et l'audio, nécessitant un changement de model pour les charges de travail multimodales.
Maîtrise de l'Agent autonome: Avec un score de 69,7 sur Terminal-Bench, il excelle dans la navigation dans des environnements de terminal réels et la gestion d'appels d'outils autonomes.
Lacunes en conception esthétique: Bien que logiquement solide, l'interface utilisateur générée et les ressources créatives manquent souvent du poli visuel observé chez des concurrents comme Claude.
Architecture MoE à grande échelle: L'architecture Mixture-of-Experts de 1,6T parameters assure une haute spécialisation pour diverses tâches sans perdre en logique générale.
Problèmes de stabilité en préversion: Les premières versions de prévisualisation ont montré des boucles logiques occasionnelles lors d'extractions de documents extrêmement longs par rapport aux versions 3.6 stables.
Précision du suivi des instructions: Un score de 95,0 % sur IFEval démontre une capacité supérieure à suivre des instructions complexes, multi-contraintes et logiques.
Biais de contexte régional: La documentation et les références culturelles par défaut peuvent occasionnellement donner la priorité aux marchés orientaux, ce qui affecte certaines tâches créatives occidentales de niche.

Démarrage rapide API

alibaba/qwen-3.7-max

Voir la documentation
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.QWEN_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function runReasoningTask() {
  const completion = await client.chat.completions.create({
    model: "qwen-3.7-max",
    messages: [
      { role: "system", content: "Tu es un architecte logiciel senior." },
      { role: "user", content: "Analyse ce noyau hérité pour détecter d'éventuelles conditions de concurrence (race conditions)." }
    ],
    temperature: 0.1,
  });
  console.log(completion.choices[0].message.content);
}

runReasoningTask();

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Qwen 3.7 Max

Voyez ce que la communauté pense de Qwen 3.7 Max

Le nouveau Qwen 3.7 chinois est dingue. Il a construit un calculateur de ROI SEO avec quatre entrées complexes en moins de 5 minutes. La Silicon Valley est nerveuse.
Julian Goldie
youtube
Qwen3.7-Max est un model de 1,6T parameters. L'amélioration de la qualité en seulement un mois depuis la version 3.6 est l'itération la plus rapide que j'aie jamais vue.
AJ
twitter
Le progrès dans le domaine NL2Repo est la vraie nouvelle. Ils prétendent avoir égalé Claude Opus en matière de codage au niveau des dépôts.
TeortaxesTex
twitter
Qwen s'éloigne enfin des boucles de sur-réflexion de la version 3.5. La préversion 3.7 Max est beaucoup plus décisive tout en conservant la profondeur logique.
LocalLLaMA
reddit
Qwen 3.7 Max vient de devenir le premier model à rivaliser sérieusement, et dans certains cas à battre, Claude Opus 4.6 sur les tâches techniques.
TechInsights
twitter
J'ai réussi à faire tourner QWEN 3.6 27B localement, mais les performances cloud du 3.7 Max sont à un autre niveau pour le raisonnement complexe.
DevArchitect
hackernews

Vidéos sur Qwen 3.7 Max

Regardez des tutoriels, critiques et discussions sur Qwen 3.7 Max

Le processus de chain-of-thought est exceptionnellement rapide par rapport aux itérations précédentes.

C'est seulement la deuxième fois que je vois un model implémenter correctement les marques d'impact de munitions sur le décor.

La cohérence logique dans le débogage de code multi-tour est sensiblement plus stable que sur la préversion 3.6.

Il gère la context window de 256k avec quasiment aucune perte d'information.

Ce model représente le pont entre la complétion statique et la véritable planification autonome.

La context window est de 256K tokens pour Max et, point important, il est uniquement textuel.

Nous observons beaucoup moins de réflexion ou de sur-réflexion par rapport au 3.5.

Les performances dans les environnements basés sur terminal suggèrent qu'il peut réellement gérer un serveur.

Qwen 3.7 Max est nettement moins cher pour les charges de travail d'entreprise qui nécessitent une logique haut de gamme.

Il ne souffre pas des mêmes problèmes d'alignement culturel observés dans certains models précédents.

La préversion de Qwen 3.7 Max s'est classée numéro 13 au global dans le Text Arena.

Le mode Thinking signifie que le model décompose les problèmes en petites étapes avant de répondre.

Il construit des calculateurs complexes en moins de cinq minutes avec une gestion d'état parfaite.

Il est spécifiquement optimisé pour l'Agentic AI, ce qui signifie qu'il agit plutôt que de simplement parler.

La tarification est une attaque directe contre la domination d'OpenAI sur le marché des développeurs.

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents

Conseils Pro pour Qwen 3.7 Max

Conseils d'experts pour tirer le meilleur parti de Qwen 3.7 Max.

Renforcer la vérification logique

Incluez 'Vérifie tes étapes de raisonnement avant de fournir le code final' pour activer le mode de raisonnement délibératif natif du model.

Utiliser le context caching

Pour les tâches impliquant la même base de code massive, utilisez le context caching pour réduire la latency et diminuer vos dépenses en tokens d'entrée.

Définir des checklists par étapes

Fournissez une liste de contrôle numérotée pour les tâches longues afin de garantir que le model n'omet pas d'étapes intermédiaires lors de générations sur le long terme.

Paramètres de conception sous contrainte

Lors de la génération d'interfaces utilisateur, fournissez des variables CSS spécifiques pour le style afin de compenser la concentration du model sur la logique plutôt que sur l'esthétique.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

google

Gemini 3 Pro

Google

Google's Gemini 3 Pro is a multimodal powerhouse featuring a 1M token context window, native video processing, and industry-leading reasoning performance.

1M context
$2.00/$12.00/1M
openai

GPT-5.2 Pro

OpenAI

GPT-5.2 Pro is OpenAI's 2025 flagship reasoning model featuring Extended Thinking for SOTA performance in mathematics, coding, and expert knowledge work.

400K context
$21.00/$168.00/1M
anthropic

Claude Opus 4.6

Anthropic

Claude Opus 4.6 is Anthropic's flagship model featuring a 1M token context window, Adaptive Thinking, and world-class coding and reasoning performance.

1M context
$5.00/$25.00/1M
openai

GPT-5.5

OpenAI

GPT-5.5 is OpenAI's flagship frontier model with a 1M context window and five reasoning effort levels, optimized for autonomous agentic workflows and coding.

1M context
$5.00/$30.00/1M
xai

Grok-3

xAI

Grok-3 is xAI's flagship reasoning model, featuring deep logic deduction, a 128k context window, and real-time integration with X for live research and coding.

1M context
$3.00/$15.00/1M
google

Gemini 3.1 Flash Live Preview

Google

Gemini 3.1 Flash Live Preview is Google's ultra-low-latency, audio-to-audio model featuring a 131K context window, high-fidelity multimodal reasoning, and...

131K context
$0.75/$4.50/1M
anthropic

Claude Opus 4.7

Anthropic

Claude Opus 4.7 is Anthropic's flagship model with a 1-million-token context, adaptive reasoning, and 3.3x vision resolution for enterprise-scale agents.

1M context
$5.00/$25.00/1M
moonshot

Kimi k2.6

Moonshot

Kimi k2.6 is Moonshot AI's 1T-parameter MoE model featuring a 256K context window, native video input, and elite performance in autonomous agentic coding.

256K context
$0.95/$4.00/1M

Questions Fréquentes sur Qwen 3.7 Max

Trouvez des réponses aux questions courantes sur Qwen 3.7 Max