Qwen-Image-2.0 技术报告

Hugging Face Daily Papers 2026/05/11 00:00 论文

image-generation qwen diffusion-models technical-report multimodal-ai image-editing

摘要

Qwen-Image-2.0 是一个全新的图像生成基础模型，基于 Qwen3-VL 和多模态扩散 Transformer，将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

我们推出了 Qwen-Image-2.0，这是一种全功能图像生成基础模型，在一个统一的框架内融合了高保真图像生成和精确的图像编辑能力。尽管近期取得了显著进展，但现有模型在处理超长文本渲染、多语言排版、高分辨率照片级真实感、稳健的指令遵循以及高效部署方面仍然面临挑战，尤其是在富含文本和构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器，并与多模态扩散 Transformer 结合以进行联合条件-目标建模，辅以大规模数据精选和定制的多阶段训练流程，从而解决了这些挑战。这使得模型在保持灵活生成和编辑能力的同时，具备强大的多模态理解能力。该模型支持多达 1K 个 Token 的指令，用于生成幻灯片、海报、信息图表和漫画等富含文本的内容，同时显著提升了多语言文本的保真度和排版质量。此外，它还通过更丰富的细节、更逼真的纹理和更协调的光照增强了照片级真实感的生成，并在多种风格下更可靠地遵循复杂提示。广泛的人类评估显示，Qwen-Image-2.0 在生成和编辑方面均大幅超越了之前的 Qwen-Image 模型，标志着向更通用、更可靠且更实用的图像生成基础模型迈出了重要一步。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:30

论文页面 - Qwen-Image-2.0 技术报告

来源：https://huggingface.co/papers/2605.10730 发布于 5月11日

#2 每日精选论文 (https://huggingface.co/papers/date/2026-05-12) 作者：

摘要

Qwen-Image-2.0 是一个先进的图像生成模型，通过统一框架结合高保真合成与精确编辑能力，使用 Qwen3-VL 作为条件编码器，并利用多模态扩散 Transformer 进行联合建模。

我们提出了 Qwen-Image-2.0，这是一个全能型图像生成基础模型 (https://huggingface.co/papers?q=image%20generation%20foundation%20model)，在单一框架内统一了高保真生成和精确图像编辑 (https://huggingface.co/papers?q=image%20editing) 能力。尽管近期取得了一些进展，现有模型在超长文本渲染、多语言排版、高分辨率照片级真实感、稳健的指令遵循 (https://huggingface.co/papers?q=instruction%20following) 以及高效部署方面仍面临挑战，尤其是在文本丰富且构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器 (https://huggingface.co/papers?q=condition%20encoder) 与多模态扩散 Transformer (https://huggingface.co/papers?q=Multimodal%20Diffusion%20Transformer) 相结合进行联合条件-目标建模 (https://huggingface.co/papers?q=joint%20condition-target%20modeling)，辅以大规模数据策展 (https://huggingface.co/papers?q=large-scale%20data%20curation) 和定制的多阶段训练流程 (https://huggingface.co/papers?q=multi-stage%20training%20pipeline)，从而解决了这些挑战。这使得模型在保持灵活生成和编辑能力的同时，具备强大的多模态理解能力。该模型支持高达 1K token 的指令，用于生成包含丰富文本的内容 (https://huggingface.co/papers?q=text-rich%20content)，如幻灯片、海报、信息图表和漫画，并显著提升了多语言文本保真度和排版效果。它还增强了照片级真实感生成 (https://huggingface.co/papers?q=photorealistic%20generation)，拥有更丰富的细节、更真实的纹理和连贯的光照，并在不同风格中更可靠地遵循复杂提示。大量的人类评估表明，Qwen-Image-2.0 在生成和编辑两方面均大幅超越了之前的 Qwen-Image 模型，标志着向更通用、可靠和实用的图像生成基础模型 (https://huggingface.co/papers?q=image%20generation%20foundation%20model) 迈出了重要一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10730)查看 PDF (https://arxiv.org/pdf/2605.10730)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10730)

引用此论文模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。

引用此论文数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。

引用此论文 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10730 即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection)即可从此页面链接。

Qwen-Image-2.0 技术报告

论文页面 - Qwen-Image-2.0 技术报告

摘要

引用此论文模型0

引用此论文数据集0

引用此论文 Spaces0

包含此论文的收藏集0

相似文章

Qwen-Image-2.0 技术报告（阅读时长约57分钟）

Qwen-Image-VAE-2.0 技术报告

Qwen-Image-Flash：超越目标设计

Qwen-Image-Agent：弥合真实图像生成中的上下文差距

Qwen-Image-Flash（26分钟阅读）

提交意见反馈