alibaba

Qwen-Image-2.0

Qwen-Image-2.0 est le model 7B unifié d'Alibaba pour les infographies professionnelles, le photoréalisme et l'édition d'images précise avec une résolution...

MultimodalGénération d'imagesTypographieOpen WeightsAlibaba
alibaba logoalibabaQwenFebruary 10, 2026
Contexte
1Ktokens
Sortie max.
4Ktokens
Prix entrée
$0.07/ 1M
Prix sortie
$0.07/ 1M
Modalité:TextImage
Capacités:VisionOutilsStreaming
Benchmarks
GPQA
0%
GPQA: Questions-Réponses Scientifiques Niveau Doctorat. Un benchmark rigoureux avec 448 questions à choix multiples en biologie, physique et chimie créées par des experts du domaine. Les experts en doctorat n'atteignent que 65-74% de précision, tandis que les non-experts obtiennent seulement 34% même avec un accès web illimité (d'où le terme 'résistant à Google'). Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
HLE
0%
HLE: Raisonnement d'Expertise de Haut Niveau. Teste la capacité d'un modèle à démontrer un raisonnement de niveau expert dans des domaines spécialisés. Évalue la compréhension approfondie de sujets complexes nécessitant des connaissances de niveau professionnel. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
MMLU
0%
MMLU: Compréhension Linguistique Multitâche Massive. Un benchmark complet avec 16 000 questions à choix multiples couvrant 57 matières académiques incluant les mathématiques, la philosophie, le droit et la médecine. Teste les connaissances générales et les capacités de raisonnement. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
MMLU Pro
0%
MMLU Pro: MMLU Édition Professionnelle. Une version améliorée du MMLU avec 12 032 questions utilisant un format plus difficile à 10 options. Couvre les mathématiques, la physique, la chimie, le droit, l'ingénierie, l'économie, la santé, la psychologie, les affaires, la biologie, la philosophie et l'informatique. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
SimpleQA
0%
SimpleQA: Benchmark de Précision Factuelle. Teste la capacité d'un modèle à fournir des réponses précises et factuelles à des questions directes. Mesure la fiabilité et réduit les hallucinations dans les tâches de récupération de connaissances. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
IFEval
0%
IFEval: Évaluation du Suivi d'Instructions. Mesure la capacité d'un modèle à suivre des instructions et contraintes spécifiques. Teste la capacité à respecter les règles de formatage, les limites de longueur et autres exigences explicites. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
AIME 2025
0%
AIME 2025: Examen d'Invitation Américain en Mathématiques. Problèmes mathématiques de niveau compétition issus du prestigieux examen AIME conçu pour les lycéens talentueux. Teste la résolution de problèmes mathématiques avancés nécessitant un raisonnement abstrait, pas simplement de la correspondance de motifs. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
MATH
0%
MATH: Résolution de Problèmes Mathématiques. Un benchmark mathématique complet testant la résolution de problèmes en algèbre, géométrie, calcul et autres domaines mathématiques. Nécessite un raisonnement en plusieurs étapes et des connaissances mathématiques formelles. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
GSM8k
0%
GSM8k: Mathématiques Niveau Primaire 8K. 8 500 problèmes de mathématiques niveau primaire nécessitant un raisonnement en plusieurs étapes. Teste l'arithmétique de base et la pensée logique à travers des scénarios réels comme les achats ou les calculs de temps. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
MGSM
0%
MGSM: Mathématiques Niveau Primaire Multilingue. Le benchmark GSM8k traduit en 10 langues incluant l'espagnol, le français, l'allemand, le russe, le chinois et le japonais. Teste le raisonnement mathématique dans différentes langues. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
MathVista
72%
MathVista: Raisonnement Mathématique Visuel. Teste la capacité à résoudre des problèmes mathématiques impliquant des éléments visuels comme les graphiques, les diagrammes de géométrie et les figures scientifiques. Combine la compréhension visuelle avec le raisonnement mathématique. Qwen-Image-2.0 a obtenu 72% sur ce benchmark.
SWE-Bench
0%
SWE-Bench: Benchmark d'Ingénierie Logicielle. Les modèles d'IA tentent de résoudre de vrais problèmes GitHub dans des projets Python open-source avec vérification humaine. Teste les compétences pratiques en ingénierie logicielle sur des bases de code en production. Les meilleurs modèles sont passés de 4,4% en 2023 à plus de 70% en 2024. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
HumanEval
0%
HumanEval: Problèmes de Programmation Python. 164 problèmes de programmation écrits à la main où les modèles doivent générer des implémentations de fonctions Python correctes. Chaque solution est vérifiée par des tests unitaires. Les meilleurs modèles atteignent maintenant plus de 90% de précision. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
LiveCodeBench
0%
LiveCodeBench: Benchmark de Code en Direct. Teste les capacités de codage sur des défis de programmation réels continuellement mis à jour. Contrairement aux benchmarks statiques, utilise des problèmes frais pour éviter la contamination des données et mesurer les vraies compétences de codage. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
MMMU
77%
MMMU: Compréhension Multimodale. Benchmark de Compréhension Multimodale Multi-discipline Massive testant les modèles vision-langage sur des problèmes universitaires dans 30 matières nécessitant à la fois la compréhension d'images et des connaissances expertes. Qwen-Image-2.0 a obtenu 77% sur ce benchmark.
MMMU Pro
58%
MMMU Pro: MMMU Édition Professionnelle. Version améliorée du MMMU avec des questions plus difficiles et une évaluation plus stricte. Teste le raisonnement multimodal avancé aux niveaux professionnel et expert. Qwen-Image-2.0 a obtenu 58% sur ce benchmark.
ChartQA
86%
ChartQA: Questions-Réponses sur Graphiques. Teste la capacité à comprendre et raisonner sur les informations présentées dans les graphiques. Nécessite l'extraction de données, la comparaison de valeurs et l'exécution de calculs à partir de représentations visuelles de données. Qwen-Image-2.0 a obtenu 86% sur ce benchmark.
DocVQA
94%
DocVQA: Q&R Visuelle sur Documents. Benchmark de Questions-Réponses Visuelles sur Documents testant la capacité à extraire et raisonner sur les informations des images de documents incluant les formulaires, rapports et textes numérisés. Qwen-Image-2.0 a obtenu 94% sur ce benchmark.
Terminal-Bench
0%
Terminal-Bench: Tâches Terminal/CLI. Teste la capacité à effectuer des opérations en ligne de commande, écrire des scripts shell et naviguer dans les environnements terminal. Mesure les compétences pratiques en administration système et flux de travail de développement. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.
ARC-AGI
0%
ARC-AGI: Abstraction et Raisonnement. Corpus d'Abstraction et de Raisonnement pour l'AGI - teste l'intelligence fluide à travers des puzzles de reconnaissance de motifs nouveaux. Chaque tâche nécessite de découvrir la règle sous-jacente à partir d'exemples, mesurant la capacité de raisonnement général plutôt que la mémorisation. Qwen-Image-2.0 a obtenu 0% sur ce benchmark.

À propos de Qwen-Image-2.0

Découvrez les capacités, fonctionnalités et façons d'utiliser Qwen-Image-2.0.

Un concentré de puissance visuelle unifié

Qwen-Image-2.0 représente une avancée significative dans l'IA multimodal d'Alibaba Cloud. Contrairement aux itérations précédentes qui nécessitaient des models distincts pour la création et la modification, cette architecture unifiée de 7B parameters gère à la fois la génération d'images haute fidélité et l'édition précise au niveau du pixel au sein d'un framework unique. Cette approche rationalisée garantit une cohérence stylistique et une adhésion sémantique supérieure pour une large gamme de tâches visuelles.

Typographie et mises en page de qualité professionnelle

Le model est spécifiquement conçu pour surmonter l'un des plus grands obstacles de l'art par IA : le rendu du texte. Supportant des instructions ultra-longues allant jusqu'à 1 000 tokens, il permet aux utilisateurs de spécifier des mises en page complexes pour des infographies professionnelles, des tableaux de bord de données et des supports marketing bilingues. Avec le support de la résolution 2K native, le résultat conserve des détails microscopiques, le rendant adapté aussi bien aux affichages numériques qu'aux supports imprimés de haute qualité.

Compréhension multimodal state-of-the-art

Au-delà de la génération, Qwen-Image-2.0 excelle dans la compréhension multimodal. En intégrant un reasoning profond à la synthèse visuelle, il obtient des scores de premier plan sur des benchmark comme DocVQA (94) et ChartQA (86). Cela en fait un outil idéal pour les utilisateurs qui ont besoin de transformer des données textuelles complexes en représentations visuelles structurées ou d'effectuer des éditions itératives sur des images existantes à l'aide de commandes en langage naturel.

Qwen-Image-2.0

Cas d'utilisation de Qwen-Image-2.0

Découvrez les différentes façons d'utiliser Qwen-Image-2.0 pour obtenir d'excellents résultats.

Infographies professionnelles

Générez des rapports financiers complexes et des schémas techniques avec des étiquettes de données précises et des mises en page claires.

Supports marketing bilingues

Créez des contenus pour les réseaux sociaux avec une typographie anglaise et chinoise impeccable qui respecte l'éclairage et la perspective.

Bandes dessinées multi-cases

Produisez des designs de personnages cohérents sur des planches de BD avec des dialogues précisément placés dans les bulles.

Édition d'images de précision

Modifiez des photos existantes en ajoutant ou supprimant des objets spécifiques ou en changeant les textures via des instructions en langage naturel.

Photoréalisme haute fidélité

Produisez des portraits détaillés et des scènes architecturales en résolution 2K avec des textures de peau et des profondeurs de matériaux visibles.

Génération de présentations

Conversion directe de textes longs en diapositives de style PPT professionnelles avec icônes et graphiques intégrés.

Points forts

Limitations

Typographie professionnelle: Exceptionnel pour le rendu de textes bilingues longs et complexes et de mises en page imbriquées sans erreurs d'orthographe.
Biais linguistique: Bien que bilingue, ses nuances culturelles et calligraphiques sont plus profondément affinées pour les styles artistiques chinois.
Architecture Gen-Edit unifiée: Un seul model de 7B gère à la fois la création et la manipulation, garantissant une cohérence visuelle sur toutes les tâches.
Intensité VRAM: La génération d'images 2K natives en local nécessite nettement plus de mémoire que les models 1024x1024 standards.
Haute précision documentaire: Domine les benchmark liés aux documents avec un score de 94 sur DocVQA et 86 sur ChartQA.
Artéfacts numériques: Les tableaux numériques complexes au sein de mises en page d'infographies imbriquées peuvent encore présenter occasionnellement des problèmes d'alignement mineurs.
Fidélité 2K native: Produit des images 2048x2048 ultra-nettes avec un éclairage professionnel et des détails architecturaux microscopiques.
Optimisation régionale: Beaucoup de fonctionnalités avancées de type agentic sont actuellement mieux supportées au sein de l'écosystème Alibaba Cloud/ModelScope.

Démarrage rapide API

alibaba/qwen-image-2-0

Voir la documentation
alibaba SDK
import { QwenAI } from '@alibaba/qwen-sdk';

const qwen = new QwenAI({
  apiKey: process.env.QWEN_API_KEY
});

async function generatePoster() {
  const response = await qwen.images.generate({
    model: "qwen-image-2.0",
    prompt: "A 2K professional infographic poster about AI evolution with detailed text labels and 3D icons.",
    size: "2048x2048"
  });
  console.log('Image URL:', response.data[0].url);
}

generatePoster();

Installez le SDK et commencez à faire des appels API en quelques minutes.

Ce que les gens disent de Qwen-Image-2.0

Voyez ce que la communauté pense de Qwen-Image-2.0

"Qwen-Image-2.0 unifie la génération et l'édition d'une manière qui rend les infographies professionnelles réellement possibles avec un seul prompt."
Fahd Mirza
youtube
"Le photoréalisme des formes humaines et le rendu du texte anglais sont simplement sublimes par rapport à la version précédente."
Sudo AI
youtube
"Il a gardé le visage du model intact tout en changeant des tenues au style complexe... le glamour de la haute couture rencontre la précision industrielle."
glenegrant
x/twitter
"Ce model est incroyable pour la génération directe d'infographies professionnelles comme des PPT et des affiches avec des prompts de 1k tokens."
Alibaba_Qwen
x/twitter
"Qwen-Image-2.0 est sorti - model unifié gen+edit de 7B avec 2K natif et un vrai rendu de texte... excellente nouvelle pour la communauté."
LocalLLaMA
reddit
"La résolution 2K combinée à un contexte de 1 000 tokens en fait le meilleur model open-weight pour les visuels de documentation technique."
AIExplorer
hackernews

Vidéos sur Qwen-Image-2.0

Regardez des tutoriels, critiques et discussions sur Qwen-Image-2.0

En seulement 6 mois, l'équipe Qwen a fusionné ses deux models distincts... en un seul système unifié appelé Qwen Image 2.

La typographie bilingue est parfaite au pixel près. Les caractères chinois complexes et les titres anglais s'affichent proprement.

Le model a réussi à créer une infographie multi-sections professionnelle avec des zones distinctes... toutes correctement alignées.

Ce n'est pas seulement pour l'art ; c'est pour les documents et la visualisation de données, ce qui est un grand pas en avant pour la communauté open weight.

La taille de 7 milliards de parameters le rend accessible aux GPU grand public haut de gamme, ce qui est impressionnant compte tenu de la qualité de sortie en 2K.

Il a en fait correctement suivi le prompt et l'a proprement implémenté dans l'image... hyper-réaliste et futuriste.

Ils ont apporté une amélioration considérable à la qualité de l'image... plus de lettres déformées.

Ce model modélise avec précision l'action de monter à cheval mais rend aussi méticuleusement la musculature et les crins du cheval.

La fonction d'édition unifiée vous permet de changer des parties spécifiques d'une image en utilisant simplement une description en langage naturel.

C'est l'un des rares models capable de gérer des prompts aussi longs, jusqu'à 1000 tokens, pour des scènes incroyablement détaillées.

Rendu typographique professionnel : supporte des instructions de 1k tokens pour la génération directe d'infographies professionnelles.

Support de la résolution 2K native pour des scènes réalistes finement détaillées, incluant les personnes, la nature et l'architecture.

Notre model de génération d'images de nouvelle génération unifie le text-to-image et l'édition image-to-image dans une seule architecture.

Atteinte de performances state-of-the-art sur les benchmark multimodal comme DocVQA et ChartQA.

Le model excelle à préserver l'identité et la cohérence stylistique pour la narration complexe basée sur des personnages.

Plus que de simples prompts

Optimisez votre flux de travail avec l'Automatisation IA

Automatio combine la puissance des agents IA, de l'automatisation web et des integrations intelligentes pour vous aider a accomplir plus en moins de temps.

Agents IA
Automatisation Web
Flux Intelligents

Conseils Pro pour Qwen-Image-2.0

Conseils d'experts pour tirer le meilleur parti de Qwen-Image-2.0.

Utilisez des prompts ultra-longs

Tirez parti de la capacité de 1 000 tokens pour définir chaque zone spécifique d'une mise en page ou d'une infographie pour un contrôle maximal.

Spécifiez des styles de calligraphie

Demandez des polices spécifiques comme 'Small Regular Script' ou 'Slender Gold' pour accéder à des capacités esthétiques bilingues uniques.

Édition en une seule étape

Téléchargez une image de base et utilisez la même session de chat pour effectuer des modifications complexes sans changer de model.

Enchaînez avec Qwen-Max

Utilisez un LLM comme Qwen2.5-Max pour transformer des idées simples en descriptions hautement détaillées dont ce model raffole.

Témoignages

Ce Que Disent Nos Utilisateurs

Rejoignez des milliers d'utilisateurs satisfaits qui ont transforme leur flux de travail

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Associés AI Models

Questions Fréquentes sur Qwen-Image-2.0

Trouvez des réponses aux questions courantes sur Qwen-Image-2.0