Qwen-Image-2.0 技术报告

Hugging Face Daily Papers 论文

摘要

Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

我们推出了 Qwen-Image-2.0,这是一种全功能图像生成基础模型,在一个统一的框架内融合了高保真图像生成和精确的图像编辑能力。尽管近期取得了显著进展,但现有模型在处理超长文本渲染、多语言排版、高分辨率照片级真实感、稳健的指令遵循以及高效部署方面仍然面临挑战,尤其是在富含文本和构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器,并与多模态扩散 Transformer 结合以进行联合条件-目标建模,辅以大规模数据精选和定制的多阶段训练流程,从而解决了这些挑战。这使得模型在保持灵活生成和编辑能力的同时,具备强大的多模态理解能力。该模型支持多达 1K 个 Token 的指令,用于生成幻灯片、海报、信息图表和漫画等富含文本的内容,同时显著提升了多语言文本的保真度和排版质量。此外,它还通过更丰富的细节、更逼真的纹理和更协调的光照增强了照片级真实感的生成,并在多种风格下更可靠地遵循复杂提示。广泛的人类评估显示,Qwen-Image-2.0 在生成和编辑方面均大幅超越了之前的 Qwen-Image 模型,标志着向更通用、更可靠且更实用的图像生成基础模型迈出了重要一步。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:30

论文页面 - Qwen-Image-2.0 技术报告

来源:https://huggingface.co/papers/2605.10730 发布于 5月11日

#2 每日精选论文 (https://huggingface.co/papers/date/2026-05-12) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

Qwen-Image-2.0 是一个先进的图像生成模型,通过统一框架结合高保真合成与精确编辑能力,使用 Qwen3-VL 作为条件编码器,并利用多模态扩散 Transformer 进行联合建模。

我们提出了 Qwen-Image-2.0,这是一个全能型图像生成基础模型 (https://huggingface.co/papers?q=image%20generation%20foundation%20model),在单一框架内统一了高保真生成和精确图像编辑 (https://huggingface.co/papers?q=image%20editing) 能力。尽管近期取得了一些进展,现有模型在超长文本渲染、多语言排版、高分辨率照片级真实感、稳健的指令遵循 (https://huggingface.co/papers?q=instruction%20following) 以及高效部署方面仍面临挑战,尤其是在文本丰富且构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器 (https://huggingface.co/papers?q=condition%20encoder) 与多模态扩散 Transformer (https://huggingface.co/papers?q=Multimodal%20Diffusion%20Transformer) 相结合进行联合条件-目标建模 (https://huggingface.co/papers?q=joint%20condition-target%20modeling),辅以大规模数据策展 (https://huggingface.co/papers?q=large-scale%20data%20curation) 和定制的多阶段训练流程 (https://huggingface.co/papers?q=multi-stage%20training%20pipeline),从而解决了这些挑战。这使得模型在保持灵活生成和编辑能力的同时,具备强大的多模态理解能力。该模型支持高达 1K token 的指令,用于生成包含丰富文本的内容 (https://huggingface.co/papers?q=text-rich%20content),如幻灯片、海报、信息图表和漫画,并显著提升了多语言文本保真度和排版效果。它还增强了照片级真实感生成 (https://huggingface.co/papers?q=photorealistic%20generation),拥有更丰富的细节、更真实的纹理和连贯的光照,并在不同风格中更可靠地遵循复杂提示。大量的人类评估表明,Qwen-Image-2.0 在生成和编辑两方面均大幅超越了之前的 Qwen-Image 模型,标志着向更通用、可靠和实用的图像生成基础模型 (https://huggingface.co/papers?q=image%20generation%20foundation%20model) 迈出了重要一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10730)查看 PDF (https://arxiv.org/pdf/2605.10730)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10730)

引用此论文模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。

引用此论文数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。

引用此论文 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

相似文章

Qwen-Image-VAE-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。

Qwen-Image-Flash:超越目标设计

Hugging Face Daily Papers

本文研究了视觉生成模型的少步蒸馏训练策略,以Qwen-Image-2.0为例。它揭示了非直观行为,并提出了Qwen-Image-Flash。

Qwen-Image-Agent:弥合真实图像生成中的上下文差距

Hugging Face Daily Papers

Qwen-Image-Agent 提出了一种统一的代理框架,通过整合规划、推理、搜索和记忆机制,解决了文本到图像生成中的上下文差距问题。该框架引入了 IA-Bench 进行评估,并取得了最先进的性能。

Qwen-Image-Flash(26分钟阅读)

TLDR AI

本文来自阿里巴巴,重新审视了视觉生成模型的少步蒸馏,聚焦于训练配方因素如数据组成、教师指导和任务混合,以Qwen-Image-2.0为案例研究,开发了Qwen-Image-Flash。