Qwen-Image-2.0 技术报告
摘要
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
查看缓存全文
缓存时间: 2026/05/12 07:30
论文页面 - Qwen-Image-2.0 技术报告
来源:https://huggingface.co/papers/2605.10730 发布于 5月11日
#2 每日精选论文 (https://huggingface.co/papers/date/2026-05-12) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Qwen-Image-2.0 是一个先进的图像生成模型,通过统一框架结合高保真合成与精确编辑能力,使用 Qwen3-VL 作为条件编码器,并利用多模态扩散 Transformer 进行联合建模。
我们提出了 Qwen-Image-2.0,这是一个全能型图像生成基础模型 (https://huggingface.co/papers?q=image%20generation%20foundation%20model),在单一框架内统一了高保真生成和精确图像编辑 (https://huggingface.co/papers?q=image%20editing) 能力。尽管近期取得了一些进展,现有模型在超长文本渲染、多语言排版、高分辨率照片级真实感、稳健的指令遵循 (https://huggingface.co/papers?q=instruction%20following) 以及高效部署方面仍面临挑战,尤其是在文本丰富且构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器 (https://huggingface.co/papers?q=condition%20encoder) 与多模态扩散 Transformer (https://huggingface.co/papers?q=Multimodal%20Diffusion%20Transformer) 相结合进行联合条件-目标建模 (https://huggingface.co/papers?q=joint%20condition-target%20modeling),辅以大规模数据策展 (https://huggingface.co/papers?q=large-scale%20data%20curation) 和定制的多阶段训练流程 (https://huggingface.co/papers?q=multi-stage%20training%20pipeline),从而解决了这些挑战。这使得模型在保持灵活生成和编辑能力的同时,具备强大的多模态理解能力。该模型支持高达 1K token 的指令,用于生成包含丰富文本的内容 (https://huggingface.co/papers?q=text-rich%20content),如幻灯片、海报、信息图表和漫画,并显著提升了多语言文本保真度和排版效果。它还增强了照片级真实感生成 (https://huggingface.co/papers?q=photorealistic%20generation),拥有更丰富的细节、更真实的纹理和连贯的光照,并在不同风格中更可靠地遵循复杂提示。大量的人类评估表明,Qwen-Image-2.0 在生成和编辑两方面均大幅超越了之前的 Qwen-Image 模型,标志着向更通用、可靠和实用的图像生成基础模型 (https://huggingface.co/papers?q=image%20generation%20foundation%20model) 迈出了重要一步。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10730)查看 PDF (https://arxiv.org/pdf/2605.10730)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10730)
引用此论文模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。
引用此论文数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。
引用此论文 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。
相似文章
Qwen-Image-2.0 技术报告(阅读时长约57分钟)
本技术报告介绍了阿里巴巴Qwen团队推出的新图像生成模型Qwen-Image-2.0,详细阐述了其架构与能力。
Qwen-Image-VAE-2.0 技术报告
Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。
Qwen-Image-Flash:超越目标设计
本文研究了视觉生成模型的少步蒸馏训练策略,以Qwen-Image-2.0为例。它揭示了非直观行为,并提出了Qwen-Image-Flash。
Qwen-Image-Agent:弥合真实图像生成中的上下文差距
Qwen-Image-Agent 提出了一种统一的代理框架,通过整合规划、推理、搜索和记忆机制,解决了文本到图像生成中的上下文差距问题。该框架引入了 IA-Bench 进行评估,并取得了最先进的性能。
Qwen-Image-Flash(26分钟阅读)
本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。