Qwen-Image-VAE-2.0 技术报告

Hugging Face Daily Papers 论文

摘要

Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。

我们推出了 Qwen-Image-VAE-2.0,这是一个高压缩变分自编码器(VAE)套件,在重建保真度和可扩散性方面均取得了显著进展。为了解决高压缩带来的重建瓶颈,我们采用了改进的架构,包括全局跳跃连接(GSC)和扩展的潜在通道。此外,我们将训练规模扩展到数十亿张图像,并结合了合成渲染引擎,以提升在文本丰富场景中的性能。为了解决高维潜在空间的收敛挑战,我们实施了增强的语义对齐策略,使潜在空间非常适合于扩散建模。为了优化计算效率,我们利用非对称且无注意力机制的编码器-解码器骨干网络来最小化编码开销。我们在公开的重建基准上对 Qwen-Image-VAE-2.0 进行了全面评估。为了评估在文本丰富场景中的性能,我们提出了 OmniDoc-TokenBench,这是一个新的基准,包含多样化的真实文档集合以及专门的基于 OCR 的评估指标。Qwen-Image-VAE-2.0 实现了最先进的重建性能,在高压缩比下展示了在通用领域和文本丰富场景中的卓越能力。此外,下游 DiT 实验表明,我们的模型具有优越的可扩散性,与现有的高压缩基线相比,显著加快了收敛速度。这些成果使 Qwen-Image-VAE-2.0 成为一款领先的模型,具有高压缩、卓越重建和出色可扩散性的特点。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - Qwen-Image-VAE-2.0 技术报告

来源:https://huggingface.co/papers/2605.13565
作者:



















摘要

Qwen-Image-VAE-2.0 是一套高压缩变分自编码器套件,通过改进的架构、大规模训练和语义对齐策略,在重建保真度和可扩散性方面取得了显著提升。

我们推出 Qwen-Image-VAE-2.0,一套高压缩变分自编码器(VAEs),在重建保真度和可扩散性方面均取得了重大进展。为解决高压缩带来的重建瓶颈,我们采用了改进的架构,引入全局跳跃连接(GSC)并扩展潜在通道。此外,我们将训练规模扩展至数十亿张图像,并引入合成渲染引擎以提升在富含文本场景中的性能。为解决高维潜在空间的收敛挑战,我们实施了一种增强的语义对齐策略,使潜在空间高度适应扩散建模。为优化计算效率,我们利用非对称且无注意力的编码器-解码器主干,以最小化解码开销。我们在公开重建基准上对 Qwen-Image-VAE-2.0 进行了全面评估。为评估在富含文本场景中的性能,我们提出了 OmniDoc-TokenBench,这是一个包含多样化真实文档并结合专用OCR评估指标的新基准。Qwen-Image-VAE-2.0 实现了最先进的重建性能,在高压缩比下展现出在通用领域和富含文本场景中的卓越能力。此外,下游 DiT 实验表明,我们的模型具有优越的可扩散性,与现有高压缩基线相比,显著加速了收敛。这些成果使 Qwen-Image-VAE-2.0 成为一款领先的模型,具备高压缩、卓越重建和出色可扩散性的特点。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13565) | 查看 PDF (https://arxiv.org/pdf/2605.13565) | GitHub (https://github.com/alibaba/OmniDoc-TokenBench) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13565)

引用本文的模型 0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.13565 以在此页面建立链接。

引用本文的数据集 1

alibabagroup/OmniDoc-TokenBench 查看器 • 更新于约1小时前 • 3.04k • 4 • 3 (https://huggingface.co/datasets/alibabagroup/OmniDoc-TokenBench)

引用本文的 Space 0

暂无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2605.13565 以在此页面建立链接。

包含本文的合集 0

暂无合集包含本文

将本文添加至合集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

Qwen-Image-2.0 技术报告

Hugging Face Daily Papers

Qwen-Image-2.0 是一个全新的图像生成基础模型,基于 Qwen3-VL 和多模态扩散 Transformer,将高保真合成与精确编辑能力统一起来。它在富含文本的内容、多语言排版以及照片级真实感生成方面表现卓越。

先连续后离散:解决维度坍塌问题的VQ-VAE

arXiv cs.LG

本文探讨了VQ-VAE中常见的维度坍塌问题,指出模型表示通常局限于低维子空间。研究提出了一种“自编码器预热(AE Warm-Up)”策略,即首先将模型作为未量化的自编码器进行训练,从而提升重建质量并增加潜在空间的有效维度。

ViQ:任意分辨率下的文本对齐视觉量化表示

Hugging Face Daily Papers

ViQ提出了一种视觉量化框架,在离散表示中平衡了语义丰富性和细节保留,通过文本对齐预训练和邻近表示学习,支持原生分辨率输入,实现高效的多模态训练。