alibaba

Qwen-Image-2.0

Qwen-Image-2.0 مدل 7B یکپارچه علی‌بابا برای اینفوگرافیک‌های حرفه‌ای، واقع‌گرایی و ویرایش دقیق تصویر با رزولوشن بومی 2K و Context Window هزار توکنی است.

MultimodalImage GenerationTypographyOpen WeightsAlibaba
alibaba logoalibabaQwen۱۰ فوریه ۲۰۲۶
پنجره زمینه
1Kتوکن
حداکثر خروجی
4Kتوکن
قیمت ورودی
$0.07/ 1M
قیمت خروجی
$0.07/ 1M
حالت:TextImage
قابلیت‌ها:بیناییابزارهااستریمینگ
معیارها
GPQA
0%
GPQA: سوالات علمی سطح تحصیلات تکمیلی. معیار دقیق با 448 سوال از زیست‌شناسی، فیزیک و شیمی. کارشناسان دکترا فقط 65-74% دقت دارند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
HLE
0%
HLE: استدلال سطح کارشناسی. توانایی مدل در نشان دادن استدلال سطح کارشناسی در حوزه‌های تخصصی را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MMLU
0%
MMLU: درک زبان چندوظیفه‌ای گسترده. معیار جامع با 16000 سوال در 57 موضوع دانشگاهی. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MMLU Pro
0%
MMLU Pro: نسخه حرفه‌ای MMLU. نسخه بهبود یافته MMLU با 12032 سوال و فرمت 10 گزینه‌ای سخت‌تر. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
SimpleQA
0%
SimpleQA: معیار دقت واقعی. توانایی مدل در ارائه پاسخ‌های دقیق و واقعی را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
IFEval
0%
IFEval: ارزیابی پیروی از دستورالعمل. اندازه‌گیری می‌کند مدل چقدر خوب از دستورالعمل‌ها و محدودیت‌های خاص پیروی می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
AIME 2025
0%
AIME 2025: امتحان ریاضی دعوتی آمریکا. مسائل ریاضی سطح مسابقه از امتحان معتبر AIME. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MATH
0%
MATH: حل مسئله ریاضی. معیار جامع ریاضی که حل مسئله در جبر، هندسه، حساب دیفرانسیل را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
GSM8k
0%
GSM8k: ریاضی دبستان 8K. 8500 مسئله ریاضی کلامی سطح دبستان. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MGSM
0%
MGSM: ریاضی دبستان چندزبانه. معیار GSM8k ترجمه شده به 10 زبان. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MathVista
72%
MathVista: استدلال بصری ریاضی. توانایی حل مسائل ریاضی با عناصر بصری را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 72% در این معیار کسب کرد.
SWE-Bench
0%
SWE-Bench: معیار مهندسی نرم‌افزار. مدل‌های AI سعی می‌کنند مسائل واقعی GitHub را در پروژه‌های Python حل کنند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
HumanEval
0%
HumanEval: مسائل برنامه‌نویسی Python. 164 مسئله برنامه‌نویسی که مدل‌ها باید پیاده‌سازی صحیح توابع Python تولید کنند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
LiveCodeBench
0%
LiveCodeBench: معیار کدنویسی زنده. توانایی‌های کدنویسی را در چالش‌های برنامه‌نویسی واقعی به‌روز شده آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
MMMU
77%
MMMU: درک چندحالته. معیار درک چندحالته در 30 موضوع دانشگاهی. Qwen-Image-2.0 امتیاز 77% در این معیار کسب کرد.
MMMU Pro
58%
MMMU Pro: نسخه حرفه‌ای MMMU. نسخه بهبود یافته MMMU با سوالات چالش‌برانگیزتر. Qwen-Image-2.0 امتیاز 58% در این معیار کسب کرد.
ChartQA
86%
ChartQA: پرسش و پاسخ نمودار. توانایی درک و تحلیل اطلاعات از نمودارها را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 86% در این معیار کسب کرد.
DocVQA
94%
DocVQA: پرسش و پاسخ بصری سند. توانایی استخراج اطلاعات از تصاویر سند را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 94% در این معیار کسب کرد.
Terminal-Bench
0%
Terminal-Bench: وظایف ترمینال/CLI. توانایی انجام عملیات خط فرمان را آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.
ARC-AGI
0%
ARC-AGI: انتزاع و استدلال. هوش سیال را از طریق پازل‌های تشخیص الگوی جدید آزمایش می‌کند. Qwen-Image-2.0 امتیاز 0% در این معیار کسب کرد.

درباره Qwen-Image-2.0

درباره قابلیت‌های Qwen-Image-2.0، ویژگی‌ها و نحوه کمک به شما در دستیابی به نتایج بهتر بیاموزید.

یک قدرت بصری یکپارچه

Qwen-Image-2.0 جهش بزرگی در هوش مصنوعی چندوجهی از سمت Alibaba Cloud است. برخلاف نسخه‌های قبلی که برای تولید و ویرایش به مدل‌های جداگانه نیاز داشتند، این معماری یکپارچه 7B parameters، هم تولید تصویر با کیفیت بالا و هم ویرایش دقیق در سطح پیکسل را در یک فریم‌ورک واحد انجام می‌دهد. این رویکرد بهینه‌شده، ثبات سبکی و پایبندی معنایی برتر را در طیف گسترده‌ای از کارهای بصری تضمین می‌کند.

تایپوگرافی و چیدمان‌های حرفه‌ای

این مدل به‌طور ویژه برای غلبه بر یکی از بزرگترین موانع هنر هوش مصنوعی طراحی شده است: رندر متن. با پشتیبانی از دستورالعمل‌های بسیار طولانی تا 1000 توکن، به کاربران اجازه می‌دهد چیدمان‌های پیچیده برای اینفوگرافیک‌های حرفه‌ای، داشبوردهای داده و محتوای بازاریابی دوزبانه را مشخص کنند. با پشتیبانی از رزولوشن بومی 2K، خروجی جزئیات میکروسکوپی را حفظ می‌کند که آن را برای نمایشگرهای دیجیتال و رسانه‌های چاپی با کیفیت بالا مناسب می‌سازد.

درک چندوجهی پیشرفته

فراتر از تولید، Qwen-Image-2.0 در درک چندوجهی عالی است. با ادغام استدلال عمیق (deep reasoning) با سنتز بصری، به امتیازات بالایی در بنچمارک‌هایی مانند DocVQA (95.1) و ChartQA (88.2) دست می‌یابد. این ویژگی آن را به ابزاری ایده‌آل برای کاربرانی تبدیل می‌کند که نیاز دارند داده‌های متنی پیچیده را به نمایش‌های بصری ساختاریافته تبدیل کنند یا ویرایش‌های تکرارپذیر را روی تصاویر موجود با استفاده از دستورات زبان طبیعی انجام دهند.

Qwen-Image-2.0

موارد استفاده برای Qwen-Image-2.0

روش‌های مختلف استفاده از Qwen-Image-2.0 برای دستیابی به نتایج عالی را کشف کنید.

طراحی اینفوگرافیک حرفه‌ای

تولید گزارش‌های مالی چندبخشی و نمودارهای فنی با متن‌های دوزبانه دقیق و چیدمان‌های داده‌محور.

ویرایش ثابت سوژه

انجام ویرایش‌های پیچیده image-to-image، مانند تغییر لباس یا اکسسوری‌های یک سوژه، در حالی که ویژگی‌های چهره و جزئیات ظاهری حفظ می‌شوند.

تایپوگرافی بازاریابی

ایجاد پوسترها و تبلیغات با رزولوشن بالا که در آن‌ها رندر دقیق متن و جایگذاری فونت‌های خاص برای هویت برند حیاتی است.

ایجاد کمیک استریپ

تولید آثار هنری متوالی چندپنلی که در آن ثبات کاراکتر و تراز حباب‌های دیالوگ به‌صورت بومی توسط مدل مدیریت می‌شود.

طراحی نمونه اولیه UI/UX

تبدیل متن‌های توصیفی وایر‌فریم به رابط‌های کاربری واقع‌گرایانه اپلیکیشن موبایل یا وب‌سایت با هدرهای خوانا و عناصر ناوبری منسجم.

ترکیب داده‌های بصری

ادغام عناصر از عکس‌های جداگانه، مانند قرار دادن یک شخص خاص در محیطی جدید با حفظ نورپردازی و پرسپکتیو.

نقاط قوت

محدودیت‌ها

معماری یکپارچه Omni: ترکیب state-of-the-art در تولید text-to-image و ویرایش دقیق در سطح پیکسل در یک مدل 7B بهینه.
بسته بودن وزن‌ها در زمان عرضه: وزن‌های کامل مدل برای استقرار محلی (local deployment) بلافاصله منتشر نشد و دسترسی اولیه از طریق API انجام شد.
رزولوشن بومی 2K: ارائه تصاویر با کیفیت فوق‌العاده بالا (2048x2048) به‌صورت بومی، که جزئیات دقیق را بدون نیاز به upscaling خارجی حفظ می‌کند.
سوگیری عددی: ممکن است در درخواست‌های بصری عددی بسیار خاص، مانند نمایش عقربه‌های ساعت دقیقاً روی 11:15، با مشکل مواجه شود.
تایپوگرافی برتر: دارای یک موتور تخصصی با قابلیت رندر دقیق متون دوزبانه و چیدمان‌های پیچیده در اینفوگرافیک‌ها.
تغییر در هویت سوژه: ترکیب هویتی گاه‌به‌گاه هنگام تلاش برای ادغام چندین کاراکتر از سبک‌های هنری متفاوت.
Context Window بزرگ: محدودیت 1000 توکنی امکان مهندسی prompt بسیار دقیق و توصیفی را فراهم می‌کند که مدل کاملاً به آن پایبند می‌ماند.
مشکلات سرریز UI: در وایرفریم‌های UI بسیار متراکم، عناصر متنی گاهی اوقات ممکن است از کادرهای محدودکننده خود بیرون بزنند.

شروع سریع API

alibaba/qwen-image-2-0

مشاهده مستندات
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function main() {
  const response = await client.chat.completions.create({
    model: "qwen-image-2-0",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "Generate a 2K poster for a space movie titled 'ORION' with a glowing nebula background." }
        ],
      },
    ],
  });
  console.log(response.choices[0].message);
}
main();

SDK را نصب کنید و در عرض چند دقیقه شروع به فراخوانی API کنید.

مردم درباره Qwen-Image-2.0 چه می‌گویند

ببینید جامعه درباره Qwen-Image-2.0 چه فکر می‌کند

تجربه من نشان می‌دهد Qwen-Image-2.0 واقعاً بهتر از Flux Pro از دستورالعمل‌های چیدمان پیچیده پیروی می‌کند. یک صفحه کامل الزامات برای یک داشبورد داده به آن دادم و تمام برچسب‌ها را دقیق انجام داد.
u/PixelArtist
reddit
رزولوشن بومی 2K در یک مدل 7B فوق‌العاده است. کارایی که علی‌بابا در فضای بینایی ارائه می‌دهد در حال حاضر بی‌رقیب است. دیگر خبری از پوست‌های پلاستیکی و مصنوعی AI نیست.
@AI_Explorer
twitter
Context window 1000 توکنی بالاخره اجازه می‌دهد چیدمان‌های صحنه واقعاً توصیفی باشند و اعمال شوند. اولین مدلی است که استفاده کرده‌ام و نیمه دوم prompt مرا فراموش نمی‌کند.
tech_lead_2025
hackernews
تیم Black Forest Labs واقعاً باید تلاش خود را بیشتر کند زیرا تیم Qwen در فضای چندوجهی (multimodal) بازار را در دست گرفته است.
The AI Revolution
youtube
نحوه مدیریت همزمان تایپوگرافی چینی و انگلیسی توسط این مدل، یک موفقیت بزرگ برای کمپین‌های بازاریابی جهانی است.
u/StableDiffuser
reddit
معماری یکپارچه برای ویرایش و تولید تصویر، برای حفظ ثبات کاراکتر در فریم‌های مختلف یک تغییر بزرگ (game changer) است.
@DevLog_AI
twitter

ویدیوهای درباره Qwen-Image-2.0

آموزش‌ها، بررسی‌ها و بحث‌های درباره Qwen-Image-2.0 را تماشا کنید

این مدل اکنون دارای رزولوشن بومی 2K است... در حالی که استاندارد مدت‌ها 1K بود.

دارای context window هزار توکنی است... این مدل می‌تواند یک صفحه دستورالعمل را بخواند.

تیم Black Forest Labs واقعاً باید تلاش خود را بیشتر کند زیرا چینی‌ها در این نقطه خاص، بازار را در دست گرفته‌اند.

کیفیت رندر متن نسبت به مدل‌های استاندارد diffusion در سطح دیگری است.

شما می‌توانید ویرایش و تولید تصویر را در یک pipeline انجام دهید بدون اینکه هویت سوژه از بین برود.

کیفیت تصاویری که در صفحه مدل خود نشان داده‌اند، به سادگی بی‌نظیر است.

رندر متن... تایپوگرافی دوزبانه در سطح پیکسل عالی است. کاراکترهای پیچیده چینی و هدرهای انگلیسی به‌تمیزی رندر می‌شوند.

این مدل درک بینایی را با تولید تصویر ترکیب می‌کند که جام مقدس این نوع مدل‌هاست.

برای اینفوگرافیک‌های حرفه‌ای، هنوز چیزی به این دقت ندیده‌ام.

اندازه 7B parameters، این مدل Omni-style را بسیار سریع و پاسخگو کرده است.

Qwen تخصص خود را به کار گرفته است... تا یک مدل زبانی جدید بسازد که قادر به رندرینگ جامع متن است.

فقط همان بخش CLIP که prompt متنی شما را پردازش می‌کند، یک مدل زبانی بزرگ 7 میلیارد پارامتری است.

حالت ویرایش جایی است که این مدل واقعاً می‌درخشد؛ شما می‌توانید به یک منطقه اشاره کنید و تغییرات را به‌طور طبیعی توصیف کنید.

بیشتر شبیه ابزاری برای طراحان است تا یک مولد هنری تصادفی.

توانایی تولید و ویرایش در یک مدل، مقدار زیادی VRAM و latency صرفه‌جویی می‌کند.

بیشتر از فقط پرامپت

گردش کار خود را با اتوماسیون AI

Automatio قدرت عامل‌های AI، اتوماسیون وب و ادغام‌های هوشمند را ترکیب می‌کند تا به شما کمک کند در زمان کمتر بیشتر انجام دهید.

عامل‌های AI
اتوماسیون وب
گردش‌کارهای هوشمند

نکات حرفه‌ای برای Qwen-Image-2.0

نکات تخصصی برای کمک به شما در استفاده حداکثری از Qwen-Image-2.0 و دستیابی به نتایج بهتر.

استفاده از نقل‌قول دقیق برای متن

برای فعال‌سازی موتور تخصصی تایپوگرافی، هر متنی که می‌خواهید رندر شود را در prompt خود داخل گیومه قرار دهید.

بهره‌گیری از محدودیت 1K توکن

برای استفاده کامل از دقت بالای مدل در پیروی از دستورات، جزئیات دقیقی درباره مکان قرارگیری اشیاء (مثلاً «ربع پایین سمت راست») و بافت‌ها ارائه دهید.

مشخص کردن چیدمان‌های فضایی

هنگام ایجاد اینفوگرافیک‌های پیچیده، از اصطلاحات فنی مانند «تصویر در تصویر» (picture-in-picture) یا «چیدمان سه ستونه» برای راهنمایی مدل استفاده کنید.

ارجاع به جفت تصاویر

برای کارهای ویرایشی، رابطه بین تصویر اصلی و تغییر مورد نظر را به‌وضوح توصیف کنید (مثلاً «شخص موجود در تصویر ۱ را حفظ کن اما رنگ پیراهنش را قرمز کن»).

نظرات

کاربران ما چه می‌گویند

به هزاران کاربر راضی که گردش کار خود را متحول کرده‌اند بپیوندید

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

مرتبط AI Models

سوالات متداول درباره Qwen-Image-2.0

پاسخ سوالات رایج درباره Qwen-Image-2.0 را بیابید