DecQ: 用于表示自编码器中增强重建与生成的细节凝缩查询
摘要
DecQ引入了轻量级的细节凝缩查询,以改进表示自编码器中的重建与生成,同时不破坏预训练的语义空间。
查看缓存全文
缓存时间: 2026/05/22 10:19
论文页面 - DecQ:面向表示自编码器中增强重建与生成的细节凝聚查询
来源: https://huggingface.co/papers/2605.22777
摘要
DecQ 通过引入轻量级查询来增强表示自编码器,在不破坏预训练语义空间的前提下提升重建质量和生成性能。
表示自编码器 (https://huggingface.co/papers?q=Representation%20Autoencoders) (RAE) 利用冻结的视觉基础模型 (https://huggingface.co/papers?q=frozen%20vision%20foundation%20models) (VFM) 作为分词器编码器,提供鲁棒的高层表示,从而促进潜在扩散模型 (https://huggingface.co/papers?q=latent%20diffusion%20models) 的快速收敛与高质量生成。然而,冻结 VFM 本质上限制了其空间重建能力,制约了细粒度生成与图像编辑;相反,通过微调引入面向重建的信号则会破坏预训练语义空间,降低生成保真度。为了解决这一权衡,我们提出了 DecQ——一个简单而有效的 RAE 框架。具体而言,DecQ 引入了轻量级细节凝聚查询 (https://huggingface.co/papers?q=detail-condensing%20queries),通过凝聚器模块 (https://huggingface.co/papers?q=condenser%20modules) 从中间 VFM 特征中提取细粒度信息。这些查询被融入解码器以支持重建,并在生成建模 (https://huggingface.co/papers?q=generative%20modeling) 过程中与块令牌 (https://huggingface.co/papers?q=patch%20tokens) 共同生成。通过聚合浅层和深层的信息,DecQ 有效缓解了重建与生成之间的权衡,同时提升了重建质量 (https://huggingface.co/papers?q=reconstruction%20quality) 和生成性能。我们的实验表明:(1) 仅需 8 个额外查询和 3.9% 的额外计算量,DecQ 便改进了基于冻结 DINOv2 的 RAE 的重建效果,将 PSNR (https://huggingface.co/papers?q=PSNR) 从 19.13 dB 提升至 22.76 dB;(2) 对于生成建模 (https://huggingface.co/papers?q=generative%20modeling),DecQ 的收敛速度比 RAE 快 3.3 倍,在无引导条件下达到 1.41 的 FID (https://huggingface.co/papers?q=FID),有引导条件下达到 1.05。
查看 arXiv 页面 (https://arxiv.org/abs/2605.22777)查看 PDF (https://arxiv.org/pdf/2605.22777)GitHub4 (https://github.com/Tianhang-Wang/DecQ)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22777)
在您的代理中获取此论文:
hf papers read 2605\.22777
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.22777 以从此页面关联。
引用此论文的数据集0
没有数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.22777 以从此页面关联。
引用此论文的 Spaces0
没有 Space 关联此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.22777 以从此页面关联。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面关联。
相似文章
先连续后离散:解决维度坍塌问题的VQ-VAE
本文探讨了VQ-VAE中常见的维度坍塌问题,指出模型表示通常局限于低维子空间。研究提出了一种“自编码器预热(AE Warm-Up)”策略,即首先将模型作为未量化的自编码器进行训练,从而提升重建质量并增加潜在空间的有效维度。
Qwen-Image-VAE-2.0 技术报告
Qwen-Image-VAE-2.0 是一个高压缩变分自编码器套件,通过增强的架构、大规模训练和语义对齐策略,提升了重建保真度和可扩散性。
DeSQ: 基于分解的SPARQL查询生成
DeSQ是一个基于分解的框架,用于从自然语言问题生成SPARQL查询。它将复杂问题分解为原子约束,将它们映射到SPARQL片段,并组装成完整查询,在五个基准测试中的四个上优于现有技术。
RankE:面向离散文本到图像生成的端到端后训练与解码器协同进化
RankE 提出了一种用于离散文本到图像生成的端到端后训练框架,通过联合优化生成器和解码器来解决潜在协变量偏移问题,同时提升对齐度与保真度。
理解 VQ-VAE(DALL-E 原理解析 第一部分)
一篇教育性博客文章,讲解向量量化变分自编码器(VQ-VAE)架构——OpenAI DALL-E 图像生成模型的关键组成部分。