alibaba

Qwen-Image-2.0

Qwen-Image-2.0 คือโมเดล 7B แบบครบวงจรของ Alibaba สำหรับ infographic มืออาชีพ, งานภาพสมจริง และการแก้ไขภาพที่แม่นยำด้วยความละเอียด 2K และ context window...

MultimodalImage GenerationTypographyOpen WeightsAlibaba
alibaba logoalibabaQwen10 กุมภาพันธ์ 2026
บริบท
1Kโทเคน
เอาต์พุตสูงสุด
4Kโทเคน
ราคาอินพุต
$0.07/ 1M
ราคาเอาต์พุต
$0.07/ 1M
โหมด:TextImage
ความสามารถ:การมองเห็นเครื่องมือสตรีมมิ่ง
เกณฑ์มาตรฐาน
GPQA
0%
GPQA: คำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา. เกณฑ์มาตรฐานที่เข้มงวดพร้อม 448 คำถามจากชีววิทยา ฟิสิกส์ และเคมี ผู้เชี่ยวชาญ PhD ทำได้เพียง 65-74% Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
HLE
0%
HLE: การใช้เหตุผลระดับผู้เชี่ยวชาญ. ทดสอบความสามารถของโมเดลในการแสดงการใช้เหตุผลระดับผู้เชี่ยวชาญในสาขาเฉพาะทาง Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
MMLU
0%
MMLU: ความเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่. เกณฑ์มาตรฐานที่ครอบคลุมพร้อม 16,000 คำถามใน 57 วิชา Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
MMLU Pro
0%
MMLU Pro: MMLU รุ่นมืออาชีพ. เวอร์ชันที่ปรับปรุงของ MMLU พร้อม 12,032 คำถามและรูปแบบ 10 ตัวเลือกที่ยากขึ้น Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
SimpleQA
0%
SimpleQA: เกณฑ์มาตรฐานความถูกต้องของข้อเท็จจริง. ทดสอบความสามารถของโมเดลในการให้คำตอบที่ถูกต้องและเป็นข้อเท็จจริง Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
IFEval
0%
IFEval: การประเมินการปฏิบัติตามคำสั่ง. วัดว่าโมเดลปฏิบัติตามคำสั่งและข้อจำกัดเฉพาะได้ดีเพียงใด Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
AIME 2025
0%
AIME 2025: การสอบคณิตศาสตร์เชิญชวนอเมริกัน. โจทย์คณิตศาสตร์ระดับการแข่งขันจากการสอบ AIME ที่มีชื่อเสียง Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
MATH
0%
MATH: การแก้ปัญหาคณิตศาสตร์. เกณฑ์มาตรฐานคณิตศาสตร์ที่ครอบคลุมทดสอบการแก้ปัญหาในพีชคณิต เรขาคณิต แคลคูลัส Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
GSM8k
0%
GSM8k: คณิตศาสตร์ประถม 8K. 8,500 โจทย์คณิตศาสตร์ระดับประถมศึกษา Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
MGSM
0%
MGSM: คณิตศาสตร์ประถมหลายภาษา. เกณฑ์มาตรฐาน GSM8k แปลเป็น 10 ภาษา Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
MathVista
72%
MathVista: การใช้เหตุผลเชิงภาพคณิตศาสตร์. ทดสอบความสามารถในการแก้ปัญหาคณิตศาสตร์ที่มีองค์ประกอบภาพ Qwen-Image-2.0 ได้คะแนน 72% ในเกณฑ์มาตรฐานนี้
SWE-Bench
0%
SWE-Bench: เกณฑ์มาตรฐานวิศวกรรมซอฟต์แวร์. โมเดล AI พยายามแก้ปัญหา GitHub จริงในโครงการ Python Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
HumanEval
0%
HumanEval: โจทย์เขียนโปรแกรม Python. 164 โจทย์เขียนโปรแกรมที่โมเดลต้องสร้างการใช้งานฟังก์ชัน Python ที่ถูกต้อง Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
LiveCodeBench
0%
LiveCodeBench: เกณฑ์มาตรฐานเขียนโค้ดสด. ทดสอบความสามารถในการเขียนโค้ดบนความท้าทายการเขียนโปรแกรมจริงที่อัปเดตอย่างต่อเนื่อง Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
MMMU
77%
MMMU: ความเข้าใจหลายโหมด. เกณฑ์มาตรฐานความเข้าใจหลายโหมดจาก 30 วิชามหาวิทยาลัย Qwen-Image-2.0 ได้คะแนน 77% ในเกณฑ์มาตรฐานนี้
MMMU Pro
58%
MMMU Pro: MMMU รุ่นมืออาชีพ. เวอร์ชันที่ปรับปรุงของ MMMU พร้อมคำถามที่ท้าทายมากขึ้น Qwen-Image-2.0 ได้คะแนน 58% ในเกณฑ์มาตรฐานนี้
ChartQA
86%
ChartQA: คำถามและคำตอบกราฟ. ทดสอบความสามารถในการเข้าใจและวิเคราะห์ข้อมูลจากกราฟและแผนภูมิ Qwen-Image-2.0 ได้คะแนน 86% ในเกณฑ์มาตรฐานนี้
DocVQA
94%
DocVQA: คำถามเชิงภาพเอกสาร. ทดสอบความสามารถในการสกัดข้อมูลจากภาพเอกสาร Qwen-Image-2.0 ได้คะแนน 94% ในเกณฑ์มาตรฐานนี้
Terminal-Bench
0%
Terminal-Bench: งาน Terminal/CLI. ทดสอบความสามารถในการดำเนินการ command-line Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้
ARC-AGI
0%
ARC-AGI: การนามธรรมและการใช้เหตุผล. ทดสอบความฉลาดที่ยืดหยุ่นผ่านปริศนาการจดจำรูปแบบใหม่ Qwen-Image-2.0 ได้คะแนน 0% ในเกณฑ์มาตรฐานนี้

เกี่ยวกับ Qwen-Image-2.0

เรียนรู้เกี่ยวกับความสามารถของ Qwen-Image-2.0 คุณสมบัติ และวิธีที่จะช่วยให้คุณได้ผลลัพธ์ที่ดีขึ้น

ขุมพลังด้านภาพแบบครบวงจร

Qwen-Image-2.0 ถือเป็นการก้าวกระโดดครั้งสำคัญของ AI multimodal จาก Alibaba Cloud ต่างจากรุ่นก่อนหน้าที่ต้องใช้โมเดลแยกกันสำหรับการสร้างและการปรับแต่ง สถาปัตยกรรมขนาด 7B parameters นี้รองรับทั้งการสร้างภาพความละเอียดสูงและการแก้ไขระดับพิกเซลที่แม่นยำภายใน framework เดียวกัน วิธีการแบบรวมศูนย์นี้ช่วยให้มั่นใจได้ถึงความสม่ำเสมอของสไตล์และความแม่นยำเชิงความหมายในงานด้านวิชั่นที่หลากหลาย

Typography และเลย์เอาต์ระดับมืออาชีพ

โมเดลนี้ได้รับการออกแบบมาเพื่อทลายอุปสรรคที่ใหญ่ที่สุดอย่างหนึ่งของงานศิลปะ AI นั่นคือการเรนเดอร์ข้อความ โดยรองรับคำสั่งยาวถึง 1,000 tokens ช่วยให้ผู้ใช้สามารถระบุเลย์เอาต์ที่ซับซ้อนสำหรับ Infographic ระดับมืออาชีพ แดชบอร์ดข้อมูล และสื่อการตลาดสองภาษาได้ ด้วยการรองรับความละเอียด 2K แบบเนทีฟ ผลลัพธ์จึงยังคงรายละเอียดระดับจุลภาคไว้ได้ ทำให้เหมาะสำหรับทั้งสื่อดิจิทัลและสื่อสิ่งพิมพ์คุณภาพสูง

ความเข้าใจ Multimodal ระดับสูง

นอกเหนือจากการสร้างภาพแล้ว Qwen-Image-2.0 ยังโดดเด่นในด้านความเข้าใจเชิง multimodal โดยการผสานการใช้เหตุผลเชิงลึกกับการสังเคราะห์ภาพ ทำให้โมเดลนี้ทำคะแนนได้สูงสุดใน benchmark ต่างๆ เช่น DocVQA (95.1) และ ChartQA (88.2) ซึ่งทำให้มันเป็นเครื่องมือที่เหมาะสำหรับผู้ที่ต้องการเปลี่ยนข้อมูลที่เป็นข้อความซับซ้อนให้กลายเป็นภาพที่จัดรูปแบบไว้อย่างเป็นระเบียบ หรือทำการแก้ไขภาพเดิมผ่านคำสั่งภาษาธรรมชาติ

Qwen-Image-2.0

กรณีการใช้งานสำหรับ Qwen-Image-2.0

ค้นพบวิธีต่างๆ ที่คุณสามารถใช้ Qwen-Image-2.0 เพื่อได้ผลลัพธ์ที่ยอดเยี่ยม

การออกแบบ Infographic ระดับมืออาชีพ

สร้างรายงานทางการเงินและแผนภาพทางเทคนิคแบบหลายส่วน พร้อมข้อความสองภาษาที่คมชัดและเลย์เอาต์ข้อมูลที่เป็นระเบียบ

การแก้ไขภาพโดยคงอัตลักษณ์ของวัตถุ

ทำการแก้ไขภาพแบบซับซ้อน เช่น การเปลี่ยนเสื้อผ้าหรือเครื่องประดับของตัวละคร โดยที่ยังคงลักษณะใบหน้าและจุดเด่นเดิมไว้

Typography เพื่อการตลาด

สร้างโปสเตอร์และโฆษณาความละเอียดสูงที่ต้องการการเรนเดอร์ข้อความที่แม่นยำและการวางตำแหน่งฟอนต์ที่เฉพาะเจาะจงต่ออัตลักษณ์ของแบรนด์

การสร้างการ์ตูนช่อง

สร้างผลงานศิลปะแบบต่อเนื่องหลายช่องที่โมเดลสามารถจัดการความสอดคล้องของตัวละครและการจัดวางช่องคำพูดได้อย่างสมบูรณ์

การทำ Prototype UI/UX

เปลี่ยนคำอธิบาย wireframe ให้เป็นอินเทอร์เฟซแอปหรือเว็บไซต์ที่สมจริง พร้อมหัวข้อที่อ่านออกและองค์ประกอบการนำทางที่สอดคล้องกัน

การสังเคราะห์ข้อมูลภาพ

รวมองค์ประกอบจากภาพถ่ายต่างๆ เช่น การนำบุคคลหนึ่งไปวางไว้ในสภาพแวดล้อมใหม่โดยยังคงรักษาแสงและมุมมองเดิมไว้

จุดแข็ง

ข้อจำกัด

สถาปัตยกรรม Omni แบบครบวงจร: ผสานการสร้างภาพจากข้อความแบบ state-of-the-art และการแก้ไขภาพระดับพิกเซลที่แม่นยำเข้าไว้ในโมเดลขนาด 7B ที่มีประสิทธิภาพ
น้ำหนักโมเดลแบบปิด (Closed Weights): ยังไม่มีการเปิดเผยน้ำหนักโมเดลทั้งหมดสำหรับการใช้งานแบบ local ทันที โดยเน้นไปที่การใช้งานผ่าน API ในช่วงแรก
ความละเอียด 2K แบบเนทีฟ: มอบผลลัพธ์ภาพความละเอียดสูงพิเศษ (2048x2048) โดยไม่ต้องพึ่งพาตัวขยายความละเอียดจากภายนอก
อคติด้านตัวเลข: อาจมีปัญหาในการตอบสนองต่อคำขอทางภาพที่ต้องการความแม่นยำของตัวเลขสูง เช่น การตั้งเข็มนาฬิกาให้แสดงเวลา 11:15 น. เป๊ะๆ
Typography ที่เหนือชั้น: มีเอนจินเฉพาะทางที่สามารถเรนเดอร์ข้อความสองภาษาที่แม่นยำและเลย์เอาต์ที่ซับซ้อนใน infographic
อัตลักษณ์ของตัวละครคลาดเคลื่อน: บางครั้งอาจเกิดการผสมผสานอัตลักษณ์เมื่อพยายามรวมตัวละครหลายตัวจากสไตล์ศิลปะที่แตกต่างกัน
Context Window ขนาดใหญ่: ขีดจำกัด context ขนาด 1,000 token ช่วยให้สามารถใส่รายละเอียดใน prompt ได้อย่างละเอียดและแม่นยำ
ปัญหาการล้นของ UI: ในงาน UI wireframe ที่มีความหนาแน่นสูง ข้อความอาจล้นออกจากขอบเขตที่กำหนดไว้ได้ในบางครั้ง

เริ่มต้นด่วน API

alibaba/qwen-image-2-0

ดูเอกสาร
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function main() {
  const response = await client.chat.completions.create({
    model: "qwen-image-2-0",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "สร้างโปสเตอร์หนังอวกาศความละเอียด 2K ชื่อเรื่อง 'ORION' โดยมีฉากหลังเป็นเนบิวลาเรืองแสง" }
        ],
      },
    ],
  });
  console.log(response.choices[0].message);
}
main();

ติดตั้ง SDK และเริ่มเรียก API ภายในไม่กี่นาที

ผู้คนพูดอะไรเกี่ยวกับ Qwen-Image-2.0

ดูว่าชุมชนคิดอย่างไรเกี่ยวกับ Qwen-Image-2.0

จากประสบการณ์ของผม Qwen-Image-2.0 ปฏิบัติตามคำสั่งเลย์เอาต์ที่ซับซ้อนได้ดีกว่า Flux Pro ผมส่งข้อกำหนดเต็มหน้ากระดาษสำหรับแดชบอร์ดข้อมูลไป และมันทำได้แม่นยำทุกหัวข้อเลย
u/PixelArtist
reddit
ความละเอียด 2K บนโมเดล 7B เป็นอะไรที่เหลือเชื่อมาก ประสิทธิภาพที่ Alibaba ทำได้ในตอนนี้ถือว่าไม่มีคู่แข่งในวงการวิชั่นเลย ผิวหนังของ AI ดูไม่เป็นพลาสติกอีกต่อไปแล้ว
@AI_Explorer
twitter
Context window ขนาด 1,000 token ช่วยให้สามารถกำหนดเลย์เอาต์ฉากได้ละเอียดและชัดเจนจนมันจำรายละเอียดได้จริงๆ เป็นโมเดลแรกที่ผมใช้แล้วไม่ลืมส่วนท้ายของ prompt
tech_lead_2025
hackernews
Black Forest Labs ต้องเร่งพัฒนาตัวเองแล้ว เพราะทีม Qwen กำลังแซงหน้าไปไกลมากในด้าน multimodal
The AI Revolution
youtube
วิธีที่มันจัดการ typography ภาษาจีนและอังกฤษพร้อมกันได้ ถือเป็นชัยชนะครั้งใหญ่สำหรับแคมเปญการตลาดระดับโลก
u/StableDiffuser
reddit
สถาปัตยกรรมแบบรวมศูนย์สำหรับการแก้ไขและสร้างภาพคือจุดเปลี่ยนสำคัญในการรักษาความสอดคล้องของตัวละครในเฟรมต่างๆ
@DevLog_AI
twitter

วิดีโอเกี่ยวกับ Qwen-Image-2.0

ดูบทเรียน รีวิว และการสนทนาเกี่ยวกับ Qwen-Image-2.0

โมเดลนี้มาพร้อมความละเอียด 2K แบบเนทีฟ... ซึ่งนานมาแล้วที่เรายึดติดกับมาตรฐาน 1K

มี context window ขนาด 1,000 token... ตัวนี้สามารถอ่านคำสั่งได้ยาวเป็นหน้ากระดาษ

Black Forest Labs ต้องเร่งพัฒนาตัวเองแล้ว เพราะตอนนี้โมเดลจากฝั่งจีนกำลังเหนือชั้นกว่ามาก

คุณภาพการเรนเดอร์ข้อความนั้นอยู่อีกระดับเมื่อเทียบกับโมเดล diffusion ทั่วไป

คุณสามารถแก้ไขและสร้างภาพใน pipeline เดียวกันได้โดยไม่เสียเอกลักษณ์ของตัวละคร

คุณภาพของภาพที่โชว์บนหน้าเว็บโมเดลนั้นงดงามจริงๆ

การเรนเดอร์ข้อความ... typography สองภาษานั้นแม่นยำระดับพิกเซล ทั้งตัวอักษรจีนที่ซับซ้อนและหัวข้อภาษาอังกฤษทำออกมาได้สะอาดตา

เป็นการรวมความเข้าใจด้านวิชั่นเข้ากับการสร้างภาพ ซึ่งเป็นเป้าหมายสูงสุดของโมเดลประเภทนี้

สำหรับ infographic ระดับมืออาชีพ ผมยังไม่เคยเห็นอะไรที่แม่นยำขนาดนี้มาก่อน

ขนาด 7B parameters ทำให้มันตอบสนองได้รวดเร็วมากสำหรับโมเดลระดับ Omni

Qwen ได้ประยุกต์ใช้ความเชี่ยวชาญเพื่อสร้างโมเดลภาษาใหม่ที่สามารถเรนเดอร์ข้อความได้อย่างครอบคลุม

ส่วนของ clip ที่ประมวลผล text prompt ของคุณคือโมเดลภาษาขนาด 7 พันล้าน parameters โดยตรง

โหมดแก้ไขภาพคือจุดเด่นที่สุด คุณสามารถชี้ไปยังพื้นที่หนึ่งและอธิบายการเปลี่ยนแปลงอย่างเป็นธรรมชาติได้

มันให้ความรู้สึกเหมือนเป็นเครื่องมือสำหรับนักออกแบบมากกว่าแค่เครื่องมือสร้างภาพทั่วไป

การสามารถสร้างและแก้ไขในโมเดลเดียวช่วยประหยัด VRAM และลด latency ได้อย่างมาก

มากกว่าแค่พรอมต์

เพิ่มพลังให้เวิร์กโฟลว์ของคุณด้วย ระบบอัตโนมัติ AI

Automatio รวมพลังของ AI agents การอัตโนมัติเว็บ และการผสานรวมอัจฉริยะเพื่อช่วยให้คุณทำงานได้มากขึ้นในเวลาน้อยลง

AI Agents
การอัตโนมัติเว็บ
เวิร์กโฟลว์อัจฉริยะ

เคล็ดลับมือโปรสำหรับ Qwen-Image-2.0

เคล็ดลับจากผู้เชี่ยวชาญเพื่อช่วยให้คุณใช้ประโยชน์สูงสุดจาก Qwen-Image-2.0 และได้ผลลัพธ์ที่ดีขึ้น

ใช้เครื่องหมายคำพูดที่แน่นอนสำหรับข้อความ

เพื่อกระตุ้นการทำงานของเอนจิน typography เฉพาะทาง ให้ใส่ข้อความที่คุณต้องการให้แสดงผลไว้ในเครื่องหมายคำพูดคู่ภายใน prompt ของคุณ

ใช้ประโยชน์จากขีดจำกัด 1K token

ให้รายละเอียดที่ชัดเจนเกี่ยวกับการวางตำแหน่งวัตถุ (เช่น 'มุมขวาล่าง') และพื้นผิว เพื่อใช้ประโยชน์จากความแม่นยำในการปฏิบัติตามคำสั่งของโมเดลอย่างเต็มที่

ระบุเลย์เอาต์เชิงพื้นที่

ใช้ศัพท์เฉพาะทางเช่น 'picture-in-picture' หรือ 'three-column layout' เพื่อแนะนำโมเดลเมื่อต้องสร้าง infographic ที่ซับซ้อน

อ้างอิงคู่ภาพต้นฉบับและผลลัพธ์

สำหรับงานแก้ไขภาพ ให้อธิบายความสัมพันธ์ระหว่างภาพต้นฉบับกับการเปลี่ยนแปลงที่ต้องการอย่างชัดเจน (เช่น 'คงคนจากภาพที่ 1 ไว้ แต่เปลี่ยนเสื้อเป็นสีแดง')

คำรับรอง

ผู้ใช้ของเราพูดอย่างไร

เข้าร่วมกับผู้ใช้ที่พึงพอใจนับพันที่ได้เปลี่ยนแปลงเวิร์กโฟลว์ของพวกเขา

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

ที่เกี่ยวข้อง AI Models

คำถามที่พบบ่อยเกี่ยวกับ Qwen-Image-2.0

ค้นหาคำตอบสำหรับคำถามทั่วไปเกี่ยวกับ Qwen-Image-2.0