Qwen-Image-VAE-2.0 技术报告

Hugging Face Daily Papers 2026/05/13 00:00 论文

摘要

Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件，通过增强的架构、大规模训练和语义对齐策略，提升了重建保真度和可扩散性。

我们推出了 Qwen-Image-VAE-2.0，这是一个高压缩变分自编码器（VAE）套件，在重建保真度和可扩散性方面均取得了显著进展。为了解决高压缩带来的重建瓶颈，我们采用了改进的架构，包括全局跳跃连接（GSC）和扩展的潜在通道。此外，我们将训练规模扩展到数十亿张图像，并结合了合成渲染引擎，以提升在文本丰富场景中的性能。为了解决高维潜在空间的收敛挑战，我们实施了增强的语义对齐策略，使潜在空间非常适合于扩散建模。为了优化计算效率，我们利用非对称且无注意力机制的编码器-解码器骨干网络来最小化编码开销。我们在公开的重建基准上对 Qwen-Image-VAE-2.0 进行了全面评估。为了评估在文本丰富场景中的性能，我们提出了 OmniDoc-TokenBench，这是一个新的基准，包含多样化的真实文档集合以及专门的基于 OCR 的评估指标。Qwen-Image-VAE-2.0 实现了最先进的重建性能，在高压缩比下展示了在通用领域和文本丰富场景中的卓越能力。此外，下游 DiT 实验表明，我们的模型具有优越的可扩散性，与现有的高压缩基线相比，显著加快了收敛速度。这些成果使 Qwen-Image-VAE-2.0 成为一款领先的模型，具有高压缩、卓越重建和出色可扩散性的特点。

查看原文

查看缓存全文

缓存时间: 2026/05/14 04:16

论文页面 - Qwen-Image-VAE-2.0 技术报告

来源：https://huggingface.co/papers/2605.13565
作者：
，
，
，
，
，
，
，
，
，
，
，
，
，
，
，
，
，
，
，
，

摘要

Qwen-Image-VAE-2.0 是一套高压缩变分自编码器套件，通过改进的架构、大规模训练和语义对齐策略，在重建保真度和可扩散性方面取得了显著提升。

我们推出 Qwen-Image-VAE-2.0，一套高压缩变分自编码器（VAEs），在重建保真度和可扩散性方面均取得了重大进展。为解决高压缩带来的重建瓶颈，我们采用了改进的架构，引入全局跳跃连接（GSC）并扩展潜在通道。此外，我们将训练规模扩展至数十亿张图像，并引入合成渲染引擎以提升在富含文本场景中的性能。为解决高维潜在空间的收敛挑战，我们实施了一种增强的语义对齐策略，使潜在空间高度适应扩散建模。为优化计算效率，我们利用非对称且无注意力的编码器-解码器主干，以最小化解码开销。我们在公开重建基准上对 Qwen-Image-VAE-2.0 进行了全面评估。为评估在富含文本场景中的性能，我们提出了 OmniDoc-TokenBench，这是一个包含多样化真实文档并结合专用OCR评估指标的新基准。Qwen-Image-VAE-2.0 实现了最先进的重建性能，在高压缩比下展现出在通用领域和富含文本场景中的卓越能力。此外，下游 DiT 实验表明，我们的模型具有优越的可扩散性，与现有高压缩基线相比，显著加速了收敛。这些成果使 Qwen-Image-VAE-2.0 成为一款领先的模型，具备高压缩、卓越重建和出色可扩散性的特点。

查看 arXiv 页面 (https://arxiv.org/abs/2605.13565) | 查看 PDF (https://arxiv.org/pdf/2605.13565) | GitHub (https://github.com/alibaba/OmniDoc-TokenBench) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13565)

引用本文的模型 0

暂无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2605.13565 以在此页面建立链接。

引用本文的数据集 1

alibabagroup/OmniDoc-TokenBench 查看器 • 更新于约1小时前 • 3.04k • 4 • 3 (https://huggingface.co/datasets/alibabagroup/OmniDoc-TokenBench)

引用本文的 Space 0

暂无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2605.13565 以在此页面建立链接。

包含本文的合集 0

暂无合集包含本文

将本文添加至合集 (https://huggingface.co/new-collection) 以在此页面建立链接。

Qwen-Image-VAE-2.0 技术报告

论文页面 - Qwen-Image-VAE-2.0 技术报告

摘要

引用本文的模型 0

引用本文的数据集 1

alibabagroup/OmniDoc-TokenBench 查看器 • 更新于约1小时前 • 3.04k • 4 • 3 (https://huggingface.co/datasets/alibabagroup/OmniDoc-TokenBench)

引用本文的 Space 0

包含本文的合集 0

相似文章

Qwen-Image-2.0 技术报告

Qwen-Image-2.0 技术报告（阅读时长约57分钟）

先连续后离散：解决维度坍塌问题的VQ-VAE

ViQ：任意分辨率下的文本对齐视觉量化表示

理解 VQ-VAE（DALL-E 原理解析第一部分）

提交意见反馈

论文页面 - Qwen-Image-VAE-2.0 技术报告

摘要

引用本文的模型 0

引用本文的数据集 1

alibabagroup/OmniDoc-TokenBench 查看器 • 更新于约1小时前 • 3.04k • 4 • 3 (https://huggingface.co/datasets/alibabagroup/OmniDoc-TokenBench)

引用本文的 Space 0

包含本文的合集 0

相似文章

Qwen-Image-2.0 技术报告

Qwen-Image-2.0 技术报告（阅读时长约57分钟）

先连续后离散：解决维度坍塌问题的VQ-VAE

ViQ：任意分辨率下的文本对齐视觉量化表示

理解 VQ-VAE（DALL-E 原理解析 第一部分）

提交意见反馈

理解 VQ-VAE（DALL-E 原理解析第一部分）