alibaba

Qwen-Image-2.0

Qwen-Image-2.0 是阿里巴巴统一的 7B model,专用于专业信息图表、照片级真实感以及具有原生 2K 分辨率和 1k-token 上限的精确图像编辑。

MultimodalImage GenerationTypographyOpen WeightsAlibaba
alibaba logoalibabaQwen2026年2月10日
上下文
1Ktokens
最大输出
4Ktokens
输入价格
$0.07/ 1M
输出价格
$0.07/ 1M
模态:TextImage
能力:视觉工具流式传输
基准测试
GPQA
0%
GPQA: 研究生级科学问答. 由领域专家创建的448道多选题的严格基准测试,涵盖生物学、物理学和化学。博士专家仅达到65-74%的准确率。 Qwen-Image-2.0 在此基准测试中得分 0%。
HLE
0%
HLE: 高级专业推理. 测试模型在专业领域展示专家级推理能力的能力。 Qwen-Image-2.0 在此基准测试中得分 0%。
MMLU
0%
MMLU: 大规模多任务语言理解. 涵盖57个学科的16,000道多选题的综合基准测试。 Qwen-Image-2.0 在此基准测试中得分 0%。
MMLU Pro
0%
MMLU Pro: MMLU专业版. MMLU的增强版本,包含12,032道使用更难的10选项多选格式的问题。 Qwen-Image-2.0 在此基准测试中得分 0%。
SimpleQA
0%
SimpleQA: 事实准确性基准. 测试模型对直接问题提供准确、事实性回答的能力。 Qwen-Image-2.0 在此基准测试中得分 0%。
IFEval
0%
IFEval: 指令遵循评估. 衡量模型遵循特定指令和约束的能力。 Qwen-Image-2.0 在此基准测试中得分 0%。
AIME 2025
0%
AIME 2025: 美国数学邀请赛. 来自著名AIME考试的竞赛级数学问题。 Qwen-Image-2.0 在此基准测试中得分 0%。
MATH
0%
MATH: 数学问题解决. 涵盖代数、几何、微积分等领域的综合数学基准测试。 Qwen-Image-2.0 在此基准测试中得分 0%。
GSM8k
0%
GSM8k: 小学数学8K. 8,500道需要多步推理的小学水平数学应用题。 Qwen-Image-2.0 在此基准测试中得分 0%。
MGSM
0%
MGSM: 多语言小学数学. GSM8k基准测试翻译成10种语言版本。 Qwen-Image-2.0 在此基准测试中得分 0%。
MathVista
72%
MathVista: 数学视觉推理. 测试解决涉及图表、图形等视觉元素的数学问题的能力。 Qwen-Image-2.0 在此基准测试中得分 72%。
SWE-Bench
0%
SWE-Bench: 软件工程基准. AI模型尝试解决开源Python项目中的真实GitHub问题。 Qwen-Image-2.0 在此基准测试中得分 0%。
HumanEval
0%
HumanEval: Python编程问题. 164道手写编程问题,模型必须生成正确的Python函数实现。 Qwen-Image-2.0 在此基准测试中得分 0%。
LiveCodeBench
0%
LiveCodeBench: 实时编程基准. 在持续更新的真实世界编程挑战中测试编程能力。 Qwen-Image-2.0 在此基准测试中得分 0%。
MMMU
77%
MMMU: 多模态理解. 大规模多学科多模态理解基准测试,测试视觉语言模型在大学水平问题上的表现。 Qwen-Image-2.0 在此基准测试中得分 77%。
MMMU Pro
58%
MMMU Pro: MMMU专业版. MMMU的增强版本,问题更具挑战性,评估更严格。 Qwen-Image-2.0 在此基准测试中得分 58%。
ChartQA
86%
ChartQA: 图表问答. 测试理解和推理图表信息的能力。 Qwen-Image-2.0 在此基准测试中得分 86%。
DocVQA
94%
DocVQA: 文档视觉问答. 测试从文档图像中提取信息的能力。 Qwen-Image-2.0 在此基准测试中得分 94%。
Terminal-Bench
0%
Terminal-Bench: 终端/CLI任务. 测试执行命令行操作和编写shell脚本的能力。 Qwen-Image-2.0 在此基准测试中得分 0%。
ARC-AGI
0%
ARC-AGI: 抽象与推理. AGI抽象和推理语料库 - 通过新颖的模式识别谜题测试流体智力。 Qwen-Image-2.0 在此基准测试中得分 0%。

关于 Qwen-Image-2.0

了解 Qwen-Image-2.0 的功能、特性以及它如何帮助您获得更好的效果。

统一的视觉动力引擎

Qwen-Image-2.0 代表了阿里云在 multimodal AI 领域的重大飞跃。与以往需要单独的模型进行创作和修改的迭代不同,这种统一的 7B 参数架构在一个框架内处理高保真图像生成和精确的像素级编辑。这种精简的架构确保了在各种视觉任务中保持风格的一致性和卓越的语义遵循度。

专业级排版与布局

该 model 经过专门设计,旨在克服 AI 艺术创作中的最大障碍之一:文本渲染。支持长达 1,000 tokens 的超长指令,允许用户为专业信息图表、数据仪表板和双语营销材料指定复杂的布局。借助原生 2K 分辨率支持,输出图像保持了微观细节,适用于数字显示和高质量印刷媒体。

state-of-the-art 的 multimodal 理解

除了生成之外,Qwen-Image-2.0 在 multimodal 理解方面也表现出色。通过将深度推理与视觉合成相结合,它在 DocVQA (95.1)ChartQA (88.2) 等 benchmark 上取得了顶级成绩。这使其成为需要将复杂文本数据转换为结构化视觉表现,或使用自然语言指令对现有图像进行迭代编辑的用户的理想工具。

Qwen-Image-2.0

Qwen-Image-2.0 的使用案例

发现使用 Qwen-Image-2.0 获得出色效果的不同方式。

专业信息图设计

生成包含多板块财务报告和技术图表的素材,并支持像素级精准的双语文本和结构化数据布局。

一致性主体编辑

执行复杂的 image-to-image 编辑,例如更改主体的服装或配饰,同时保持面部特征和胎记等细节不变。

营销排版

创建高分辨率的海报和广告,其中精确的文本渲染和特定的字体布局对品牌形象至关重要。

漫画创作

生成多格连环画,其中角色一致性和对话框对齐由 model 原生管理。

UI/UX 原型设计

将描述性的线框图文稿转换为真实的移动端应用或网页界面,并带有可读的标题和连贯的导航元素。

视觉数据合成

合并来自不同照片的元素,例如将特定人物置入新环境,同时保留光影和透视关系。

优势

局限性

统一的 Omni 架构: 将 state-of-the-art 的 text-to-image 生成和精确的像素级编辑结合在一个高效的 7B model 中。
发布时闭源权重: 完整的 model 权重在发布初期未公开以供本地部署,主要通过 API 提供访问。
原生 2K 分辨率: 原生提供超高清视觉效果 (2048x2048),无需外部 upscaling 即可保留精细细节。
数值偏差: 在处理非常具体的数值视觉请求时可能会遇到困难,例如时钟指针精确指向 11:15。
卓越的排版能力: 配备专用引擎,能够渲染精确的双语文本以及信息图中的复杂布局。
主体身份漂移: 在尝试融合来自不同艺术风格的多个角色时,偶尔会出现身份混合的情况。
大 context window: 1,000-token 的 context limit 支持极其详细和描述性的 prompt engineering,且能保证指令执行的稳定性。
UI 溢出问题: 在极其密集的 UI 线框图中,文本元素偶尔会超出其预定的边界框。

API快速入门

alibaba/qwen-image-2-0

查看文档
alibaba SDK
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: "https://dashscope.aliyuncs.com/compatible-mode/v1",
});

async function main() {
  const response = await client.chat.completions.create({
    model: "qwen-image-2-0",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "Generate a 2K poster for a space movie titled 'ORION' with a glowing nebula background." }
        ],
      },
    ],
  });
  console.log(response.choices[0].message);
}
main();

安装SDK并在几分钟内开始进行API调用。

人们对 Qwen-Image-2.0 的评价

看看社区对 Qwen-Image-2.0 的看法

根据我的经验,Qwen-Image-2.0 在执行复杂布局指令方面实际上比 Flux Pro 更好。我给它发送了关于数据仪表板的一整页需求,它完美地处理了每一个标签。
u/PixelArtist
reddit
7B model 上的原生 2K 分辨率太疯狂了。阿里巴巴目前的效率在视觉领域是无与伦比的。再也不会有看起来像塑料的 AI 皮肤了。
@AI_Explorer
twitter
1000-token 的 context window 终于允许实现真正可落地且稳定的复杂场景布局。这是我用过的第一个不会忘记我 prompt 后半部分的 model。
tech_lead_2025
hackernews
Black Forest Labs 真的需要加把劲了,因为 Qwen 团队在 multimodal 领域简直是在吃掉他们的份额。
The AI Revolution
youtube
它同时处理中文和英文排版的方式对于全球营销活动来说是一个巨大的胜利。
u/StableDiffuser
reddit
编辑和生成的统一架构对于在不同帧之间保持角色一致性来说是一个革命性的变化。
@DevLog_AI
twitter

关于 Qwen-Image-2.0 的视频

观看关于 Qwen-Image-2.0 的教程、评测和讨论

“该 model 现在具有原生 2K 分辨率……长期以来标准一直是 1K。”

“它有 1000-token 的 context window……这一个 model 可以阅读一整页的指令。”

“Black Forest Labs 真的需要加把劲了,因为中国团队在这一点上简直是在吃掉他们的份额。”

“与标准的 diffusion model 相比,文本渲染质量处于另一个水平。”

“你可以在同一个 pipeline 中进行图像编辑和生成,而不会丢失主体特征。”

“他们在 model 页面上展示的图像质量简直令人惊叹。”

“文本渲染……双语排版是像素级的精准。复杂的汉字和英文标题渲染得非常干净。”

“它将视觉理解与生成相结合,这是这些模型追求的圣杯。”

“对于专业信息图表,我还没有见过如此精确的东西。”

“7B 的参数大小使得它对于这种 Omni 风格的 model 来说反应非常迅速。”

“Qwen 发挥了他们的专长……创造了一个能够进行全面文本渲染的新语言模型。”

“仅仅是处理你 prompt 的 clip 部分就是一个 70 亿参数的大型语言模型。”

“编辑模式是它真正闪光的地方,你可以指向一个区域并自然地描述更改。”

“它感觉更像是一个设计师的工具,而不仅仅是一个随机的艺术生成器。”

“能够在一个 model 中进行生成和编辑节省了大量的 RAM 和延迟。”

不仅仅是提示词

用以下方式提升您的工作流程 AI自动化

Automatio结合AI代理、网页自动化和智能集成的力量,帮助您在更短的时间内完成更多工作。

AI代理
网页自动化
智能工作流

Qwen-Image-2.0专业提示

专家提示助您充分利用Qwen-Image-2.0。

使用精确的引号来控制文本

为了触发专门的排版引擎,请将您想要渲染的任何文本放在 prompt 中的双引号内。

利用 1K token 的上限

提供关于对象位置(例如“右下象限”)和纹理的详细描述,以充分利用该 model 高度的指令遵循能力。

指定空间布局

在创建复杂的图表时,使用诸如“画中画”或“三栏布局”等技术术语来引导 model。

参考图像对

对于编辑任务,请清晰地描述原始图像与所需更改之间的关系(例如:“保留图 1 中的人物,但将其衬衫改为红色”)。

用户评价

用户怎么说

加入数千名已改变工作流程的满意用户

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

Jonathan Kogan

Jonathan Kogan

Co-Founder/CEO, rpatools.io

Automatio is one of the most used for RPA Tools both internally and externally. It saves us countless hours of work and we realized this could do the same for other startups and so we choose Automatio for most of our automation needs.

Mohammed Ibrahim

Mohammed Ibrahim

CEO, qannas.pro

I have used many tools over the past 5 years, Automatio is the Jack of All trades.. !! it could be your scraping bot in the morning and then it becomes your VA by the noon and in the evening it does your automations.. its amazing!

Ben Bressington

Ben Bressington

CTO, AiChatSolutions

Automatio is fantastic and simple to use to extract data from any website. This allowed me to replace a developer and do tasks myself as they only take a few minutes to setup and forget about it. Automatio is a game changer!

Sarah Chen

Sarah Chen

Head of Growth, ScaleUp Labs

We've tried dozens of automation tools, but Automatio stands out for its flexibility and ease of use. Our team productivity increased by 40% within the first month of adoption.

David Park

David Park

Founder, DataDriven.io

The AI-powered features in Automatio are incredible. It understands context and adapts to changes in websites automatically. No more broken scrapers!

Emily Rodriguez

Emily Rodriguez

Marketing Director, GrowthMetrics

Automatio transformed our lead generation process. What used to take our team days now happens automatically in minutes. The ROI is incredible.

相关 AI Models

关于Qwen-Image-2.0的常见问题

查找关于Qwen-Image-2.0的常见问题答案