Qwen-Image-VAE-2.0 技术报告
摘要
Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - Qwen-Image-VAE-2.0 技术报告
来源:https://huggingface.co/papers/2605.13565
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Qwen-Image-VAE-2.0 是一套高压缩变分自编码器套件,通过改进的架构、大规模训练和语义对齐策略,在重建保真度和可扩散性方面取得了显著提升。
我们推出 Qwen-Image-VAE-2.0,一套高压缩变分自编码器(VAEs),在重建保真度和可扩散性方面均取得了重大进展。为解决高压缩带来的重建瓶颈,我们采用了改进的架构,引入全局跳跃连接(GSC)并扩展潜在通道。此外,我们将训练规模扩展至数十亿张图像,并引入合成渲染引擎以提升在富含文本场景中的性能。为解决高维潜在空间的收敛挑战,我们实施了一种增强的语义对齐策略,使潜在空间高度适应扩散建模。为优化计算效率,我们利用非对称且无注意力的编码器-解码器主干,以最小化解码开销。我们在公开重建基准上对 Qwen-Image-VAE-2.0 进行了全面评估。为评估在富含文本场景中的性能,我们提出了 OmniDoc-TokenBench,这是一个包含多样化真实文档并结合专用OCR评估指标的新基准。Qwen-Image-VAE-2.0 实现了最先进的重建性能,在高压缩比下展现出在通用领域和富含文本场景中的卓越能力。此外,下游 DiT 实验表明,我们的模型具有优越的可扩散性,与现有高压缩基线相比,显著加速了收敛。这些成果使 Qwen-Image-VAE-2.0 成为一款领先的模型,具备高压缩、卓越重建和出色可扩散性的特点。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13565) | 查看 PDF (https://arxiv.org/pdf/2605.13565) | GitHub (https://github.com/alibaba/OmniDoc-TokenBench) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13565)
引用本文的模型 0
暂无模型关联本文
请在模型 README.md 中引用 arxiv.org/abs/2605.13565 以在此页面建立链接。
引用本文的数据集 1
alibabagroup/OmniDoc-TokenBench 查看器 • 更新于约1小时前 • 3.04k • 4 • 3 (https://huggingface.co/datasets/alibabagroup/OmniDoc-TokenBench)
引用本文的 Space 0
暂无 Space 关联本文
请在 Space README.md 中引用 arxiv.org/abs/2605.13565 以在此页面建立链接。
包含本文的合集 0
暂无合集包含本文
将本文添加至合集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
Qwen-Image-2.0 技术报告
Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。
Qwen-Image-2.0 技术报告(阅读时长约57分钟)
本技术报告介绍了阿里巴巴Qwen团队推出的新图像生成模型Qwen-Image-2.0,详细阐述了其架构与能力。
先连续后离散:解决维度坍塌问题的VQ-VAE
本文探讨了VQ-VAE中常见的维度坍塌问题,指出模型表示通常局限于低维子空间。研究提出了一种“自编码器预热(AE Warm-Up)”策略,即首先将模型作为未量化的自编码器进行训练,从而提升重建质量并增加潜在空间的有效维度。
ViQ:任意分辨率下的文本对齐视觉量化表示
ViQ提出了一种视觉量化框架,在离散表示中平衡了语义丰富性和细节保留,通过文本对齐预训练和邻近表示学习,支持原生分辨率输入,实现高效的多模态训练。
理解 VQ-VAE(DALL-E 原理解析 第一部分)
一篇教育性博客文章,讲解向量量化变分自编码器(VQ-VAE)架构——OpenAI DALL-E 图像生成模型的关键组成部分。