alibaba

Qwen-Image-2.0

Qwen-Image-2.0 مدل 7B یکپارچه Alibaba برای اینفوگرافیک‌های حرفه‌ای، واقع‌گرایی (photorealism) و ویرایش دقیق تصویر با رزولوشن بومی 2K و پشتیبانی از prompt تا 1k...

multimodalتولید تصویرتایپوگرافیopen weightsAlibaba
alibaba logoalibabaQwen۱۰ فوریه ۲۰۲۶
پنجره زمینه
1Kتوکن
حداکثر خروجی
4Kتوکن
قیمت ورودی
$0.07/ 1M
قیمت خروجی
$0.07/ 1M
حالت:TextImage
قابلیت‌ها:بیناییابزارهااستریمینگ
معیارها
GPQA
0%
GPQA: سوالات علمی سطح تحصیلات تکمیلی. معیار دقیق با 448 سوال از زیست‌شناسی، فیزیک و شیمی. کارشناسان دکترا فقط 65-74% دقت دارند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
HLE
0%
HLE: استدلال سطح کارشناسی. توانایی مدل در نشان دادن استدلال سطح کارشناسی در حوزه‌های تخصصی را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MMLU
0%
MMLU: درک زبان چندوظیفه‌ای گسترده. معیار جامع با 16000 سوال در 57 موضوع دانشگاهی. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MMLU Pro
0%
MMLU Pro: نسخه حرفه‌ای MMLU. نسخه بهبود یافته MMLU با 12032 سوال و فرمت 10 گزینه‌ای سخت‌تر. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
SimpleQA
0%
SimpleQA: معیار دقت واقعی. توانایی مدل در ارائه پاسخ‌های دقیق و واقعی را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
IFEval
0%
IFEval: ارزیابی پیروی از دستورالعمل. اندازه‌گیری می‌کند مدل چقدر خوب از دستورالعمل‌ها و محدودیت‌های خاص پیروی می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
AIME 2025
0%
AIME 2025: امتحان ریاضی دعوتی آمریکا. مسائل ریاضی سطح مسابقه از امتحان معتبر AIME. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MATH
0%
MATH: حل مسئله ریاضی. معیار جامع ریاضی که حل مسئله در جبر، هندسه، حساب دیفرانسیل را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
GSM8k
0%
GSM8k: ریاضی دبستان 8K. 8500 مسئله ریاضی کلامی سطح دبستان. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MGSM
0%
MGSM: ریاضی دبستان چندزبانه. معیار GSM8k ترجمه شده به 10 زبان. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MathVista
72%
MathVista: استدلال بصری ریاضی. توانایی حل مسائل ریاضی با عناصر بصری را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 72% در این معیار کسب کرد.
SWE-Bench
0%
SWE-Bench: معیار مهندسی نرم‌افزار. مدل‌های AI سعی می‌کنند مسائل واقعی GitHub را در پروژه‌های Python حل کنند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
HumanEval
0%
HumanEval: مسائل برنامه‌نویسی Python. 164 مسئله برنامه‌نویسی که مدل‌ها باید پیاده‌سازی صحیح توابع Python تولید کنند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
LiveCodeBench
0%
LiveCodeBench: معیار کدنویسی زنده. توانایی‌های کدنویسی را در چالش‌های برنامه‌نویسی واقعی به‌روز شده آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MMMU
77%
MMMU: درک چندحالته. معیار درک چندحالته در 30 موضوع دانشگاهی. Qwen-Image-2.0 امتیاز 77% در این معیار کسب کرد.
MMMU Pro
58%
MMMU Pro: نسخه حرفه‌ای MMMU. نسخه بهبود یافته MMMU با سوالات چالش‌برانگیزتر. Qwen-Image-2.0 امتیاز 58% در این معیار کسب کرد.
ChartQA
86%
ChartQA: پرسش و پاسخ نمودار. توانایی درک و تحلیل اطلاعات از نمودارها را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 86% در این معیار کسب کرد.
DocVQA
94%
DocVQA: پرسش و پاسخ بصری سند. توانایی استخراج اطلاعات از تصاویر سند را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 94% در این معیار کسب کرد.
Terminal-Bench
0%
Terminal-Bench: وظایف ترمینال/CLI. توانایی انجام عملیات خط فرمان را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
ARC-AGI
0%
ARC-AGI: انتزاع و استدلال. هوش سیال را از طریق پازل‌های تشخیص الگوی جدید آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.

درباره Qwen-Image-2.0

درباره قابلیت‌های Qwen-Image-2.0، ویژگی‌ها و نحوه کمک به شما در دستیابی به نتایج بهتر بیاموزید.

یک نیروگاه بصری یکپارچه

Qwen-Image-2.0 نشان‌دهنده جهشی بزرگ در AI چندوجهی (multimodal) از سوی Alibaba Cloud است. برخلاف نسخه‌های قبلی که برای خلق و اصلاح به مدل‌های مجزا نیاز داشتند، این معماری یکپارچه با ۷ میلیارد parameters، هر دو بخش تولید تصویر با کیفیت بالا و ویرایش دقیق در سطح پیکسل را در یک چارچوب واحد مدیریت می‌کند. این رویکرد ساده‌سازی شده، ثبات سبک و پایبندی معنایی برتر را در طیف گسترده‌ای از وظایف بصری تضمین می‌کند.

تایپوگرافی و چیدمان‌های در سطح حرفه‌ای

این مدل به‌طور ویژه برای غلبه بر یکی از بزرگترین موانع در هنر هوش مصنوعی طراحی شده است: رندر متن. با پشتیبانی از دستورات بسیار طولانی تا ۱,۰۰۰ tokens، به کاربران اجازه می‌دهد چیدمان‌های پیچیده را برای اینفوگرافیک‌های حرفه‌ای، داشبوردهای داده و مطالب بازاریابی دو زبانه تعیین کنند. با پشتیبانی از رزولوشن بومی 2K، خروجی جزئیات میکروسکوپی را حفظ کرده و آن را برای نمایشگرهای دیجیتال و رسانه‌های چاپی با کیفیت بالا مناسب می‌سازد.

درک چندوجهی (multimodal) در سطح state-of-the-art

فراتر از تولید تصویر، Qwen-Image-2.0 در درک چندوجهی (multimodal) نیز سرآمد است. با ادغام reasoning عمیق با سنتز بصری، این مدل به امتیازات سطح بالایی در benchmarkهایی مانند DocVQA (94) و ChartQA (86) دست یافته است. این امر آن را به ابزاری ایده‌آل برای کاربرانی تبدیل می‌کند که نیاز دارند داده‌های متنی پیچیده را به نمایش‌های بصری ساختاریافته تبدیل کنند یا ویرایش‌های تکراری روی تصاویر موجود را با استفاده از دستورات زبان طبیعی انجام دهند.

Qwen-Image-2.0

موارد استفاده برای Qwen-Image-2.0

روش‌های مختلف استفاده از Qwen-Image-2.0 برای دستیابی به نتایج عالی را کشف کنید.

اینفوگرافیک‌های حرفه‌ای

تولید گزارش‌های مالی پیچیده و شماتیک‌های فنی با برچسب‌های داده دقیق و چیدمان‌های تمیز.

مطالب بازاریابی دو زبانه

خلق دارایی‌های شبکه‌های اجتماعی با تایپوگرافی بی‌نقص انگلیسی و چینی که به نورپردازی و پرسپکتیو وفادار است.

کمیک‌های چند پانلی

تولید طراحی‌های ثابت شخصیت در چیدمان‌های کمیک چندگانه با دیالوگ‌هایی که دقیقاً در حباب‌های گفتار قرار گرفته‌اند.

ویرایش دقیق تصویر

اصلاح عکس‌های موجود با افزودن یا حذف اشیاء خاص یا تغییر بافت‌ها با استفاده از دستورات زبان طبیعی.

واقع‌گرایی (photorealism) با دقت بالا

رندر پرتره‌های دقیق و صحنه‌های معماری با رزولوشن 2K با بافت‌های پوستی قابل مشاهده و عمق متریال.

تولید اسلاید

تبدیل مستقیم متن‌های طولانی به اسلایدهای حرفه‌ای به سبک PPT با آیکون‌ها و نمودارهای یکپارچه.

نقاط قوت

محدودیت‌ها

تایپوگرافی حرفه‌ای: عملکرد استثنایی در رندر متن‌های طولانی و پیچیده دو زبانه و چیدمان‌های تودرتو بدون اشکالات املایی.
سوگیری زبانی: با وجود دو زبانه بودن، ظرافت‌های فرهنگی و خوشنویسی آن بیشتر برای سبک‌های هنری چینی اصلاح شده است.
معماری یکپارچه تولید-ویرایش: یک مدل 7B واحد هر دو بخش خلق و دستکاری را مدیریت می‌کند و ثبات بصری را در تمامی وظایف تضمین می‌نماید.
شدت مصرف VRAM: تولید تصاویر بومی 2K به‌صورت محلی نسبت به مدل‌های استاندارد ۱۰۲۴x۱۰۲۴ به حافظه بسیار بیشتری نیاز دارد.
دقت بالای اسناد: برتری در benchmarkهای مرتبط با اسناد با امتیاز ۹۴ در DocVQA و ۸۶ در ChartQA.
ناهنجاری‌های عددی: جداول عددی پیچیده در چیدمان‌های اینفوگرافیک تودرتو هنوز هم ممکن است گهگاه مشکلات جزئی در تراز (alignment) نشان دهند.
دقت بومی 2K: تولید تصاویر فوق‌العاده شفاف ۲۰۴۸x۲۰۴۸ با نورپردازی حرفه‌ای و جزئیات معماری میکروسکوپی.
بهینه‌سازی منطقه‌ای: بسیاری از ویژگی‌های پیشرفته agentic در حال حاضر به بهترین شکل در اکوسیستم Alibaba Cloud/ModelScope پشتیبانی می‌شوند.

شروع سریع API

alibaba/qwen-image-2-0

مشاهده مستندات
alibaba SDK
import { QwenAI } from '@alibaba/qwen-sdk';

const qwen = new QwenAI({
  apiKey: process.env.QWEN_API_KEY
});

async function generatePoster() {
  const response = await qwen.images.generate({
    model: "qwen-image-2.0",
    prompt: "A 2K professional infographic poster about AI evolution with detailed text labels and 3D icons.",
    size: "2048x2048"
  });
  console.log('Image URL:', response.data[0].url);
}

generatePoster();

SDK را نصب کنید و در عرض چند دقیقه شروع به فراخوانی API کنید.

مردم درباره Qwen-Image-2.0 چه می‌گویند

ببینید جامعه درباره Qwen-Image-2.0 چه فکر می‌کند

"Qwen-Image-2.0 تولید و ویرایش را به‌گونه‌ای یکپارچه می‌کند که اینفوگرافیک‌های حرفه‌ای واقعاً با یک prompt امکان‌پذیر می‌شوند."
Fahd Mirza
youtube
"واقع‌گرایی در فرم‌های انسانی و رندر متن‌های انگلیسی در مقایسه با نسخه قبلی به سادگی خیره‌کننده است."
Sudo AI
youtube
"این مدل چهره شخصیت را ثابت نگه داشت در حالی که لباس‌های سبک‌دار پیچیده را عوض می‌کرد... تلاقی جذابیت دنیای مد با دقت صنعتی."
glenegrant
x/twitter
"این مدل برای تولید مستقیم اینفوگرافیک‌های حرفه‌ای مانند PPTها و پوسترها با promptهای 1k-token فوق‌العاده است."
Alibaba_Qwen
x/twitter
"Qwen-Image-2.0 منتشر شد - مدل 7B یکپارچه تولید+ویرایش با 2K بومی و رندر واقعی متن... خبر عالی برای جامعه."
LocalLLaMA
reddit
"رزولوشن 2K همراه با context window ۱,۰۰۰ تنی، این مدل را به بهترین مدل open-weight برای تصاویر مستندات فنی تبدیل کرده است."
AIExplorer
hackernews

ویدیوهای درباره Qwen-Image-2.0

آموزش‌ها، بررسی‌ها و بحث‌های درباره Qwen-Image-2.0 را تماشا کنید

تنها در ۶ ماه، تیم Qwen دو مدل مجزای خود را در یک سیستم واحد به نام Qwen Image 2 ادغام کرده است... [۰۰:۱۰]

تایپوگرافی دو زبانه در سطح پیکسل بی‌نقص است. نویسه‌های پیچیده چینی و هدرهای انگلیسی به‌صورت تمیز رندر می‌شوند. [۰۱:۴۹]

مدل با موفقیت یک اینفوگرافیک چندبخشی حرفه‌ای با مناطق متمایز ایجاد کرده است... که همگی به‌درستی تراز شده‌اند. [۰۲:۵۱]

این فقط برای هنر نیست؛ بلکه برای اسناد و بصری‌سازی داده‌هاست که گامی بزرگ رو به جلو برای جامعه open weights محسوب می‌شود. [۰۴:۱۲]

اندازه ۷ میلیارد پارامتری آن را برای GPUهای مصرفی رده‌بالا در دسترس قرار می‌دهد، که با توجه به کیفیت خروجی 2K تحسین‌برانگیز است. [۰۶:۰۵]

این مدل در واقع به‌درستی از prompt پیروی کرده و آن را درون تصویر پیاده‌سازی کرده است... فوق‌واقع‌گرایانه و آینده‌نگرانه. [۰۱:۳۶]

آن‌ها بهبود عظیمی در کیفیت تصویر ایجاد کرده‌اند... دیگر خبری از حروف به‌هم‌ریخته نیست. [۰۳:۰۱]

این مدل نه‌تنها عمل سوارکاری را به‌درستی مدل‌سازی می‌کند، بلکه با دقت عضلات و موهای اسب را نیز رندر می‌کند. [۰۵:۳۴]

ویژگی ویرایش یکپارچه به شما اجازه می‌دهد تا بخش‌های خاصی از تصویر را فقط با استفاده از توصیف زبان طبیعی تغییر دهید. [۰۷:۱۲]

این یکی از معدود مدل‌هایی است که می‌تواند چنین promptهای طولانی را، تا ۱۰۰۰ tokens، برای صحنه‌های فوق‌العاده دقیق مدیریت کند. [۰۸:۴۵]

رندر تایپوگرافی حرفه‌ای: پشتیبانی از دستورات 1k-token برای تولید مستقیم اینفوگرافیک‌های حرفه‌ای. [۰۰:۰۷]

پشتیبانی از رزولوشن بومی 2K برای صحنه‌های واقع‌گرایانه با جزئیات دقیق، شامل افراد، طبیعت و معماری. [۰۰:۲۴]

مدل نسل بعدی تولید تصویر ما، تبدیل متن به تصویر و ویرایش تصویر به تصویر را در یک معماری واحد یکپارچه می‌کند. [۰۰:۴۵]

دستیابی به عملکرد state-of-the-art در benchmarkهای چندوجهی مانند DocVQA و ChartQA. [۰۱:۱۲]

مدل در حفظ هویت و ثبات سبک برای داستان‌سرایی‌های پیچیده شخصیت‌محور عالی عمل می‌کند. [۰۱:۳۰]

بیشتر از فقط پرامپت

گردش کار خود را با اتوماسیون AI

Automatio قدرت عامل‌های AI، اتوماسیون وب و ادغام‌های هوشمند را ترکیب می‌کند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.

عامل‌های AI
اتوماسیون وب
گردش‌کارهای هوشمند

نکات حرفه‌ای برای Qwen-Image-2.0

نکات تخصصی برای کمک به شما در استفاده حداکثری از Qwen-Image-2.0 و دستیابی به نتایج بهتر.

استفاده از promptهای بسیار طولانی

از ظرفیت ۱,۰۰۰ تنی برای تعریف هر بخش خاص از یک چیدمان یا اینفوگرافیک برای حداکثر کنترل بهره ببرید.

تعیین سبک‌های خوشنویسی

سبک‌های خاصی مانند 'Small Regular Script' یا 'Slender Gold' را درخواست کنید تا به قابلیت‌های زیبایی‌شناختی منحصر‌به‌فرد دو زبانه دسترسی پیدا کنید.

ویرایش تک‌مرحله‌ای

یک تصویر پایه را آپلود کرده و از همان جلسه چت برای انجام اصلاحات پیچیده بدون تعویض مدل استفاده کنید.

زنجیره‌سازی با Qwen-Max

از یک LLM بزرگ مانند Qwen2.5-Max استفاده کنید تا ایده‌های ساده را به توصیف‌های بسیار دقیقی که این مدل در آن‌ها عملکرد عالی دارد، بسط دهید.

نظرات

کاربران ما چه می‌گویند

به هزاران کاربر راضی که گردش کار خود را متحول کرده‌اند بپیوندید

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

مرتبط AI Models

سوالات متداول درباره Qwen-Image-2.0

پاسخ سوالات رایج درباره Qwen-Image-2.0 را بیابید