DecQ: 用于表示自编码器中增强重建与生成的细节凝缩查询

Hugging Face Daily Papers 2026/05/21 00:00 论文

representation-autoencoders detail-condensing-queries latent-diffusion-models image-reconstruction generative-modeling frozen-vision-models efficient-computation

摘要

DecQ引入了轻量级的细节凝缩查询，以改进表示自编码器中的重建与生成，同时不破坏预训练的语义空间。

表示自编码器（RAEs）利用冻结的视觉基础模型（VFMs）作为分词器编码器，提供鲁棒的高层表示，从而在潜在扩散模型中实现快速收敛和高质量生成。然而，冻结VFM会固有地限制其空间重建能力，限制了细粒度生成和图像编辑；相比之下，通过微调引入重建导向的信号会破坏预训练的语义空间并降低生成保真度。为了解决这一权衡，我们提出了DecQ，一种简单而有效的RAE框架。具体而言，DecQ引入了轻量级的细节凝缩查询，通过凝缩模块从中间VFM特征中提取细粒度信息。这些查询被集成到解码器以支持重建，并在生成建模过程中与补丁令牌共同生成。通过聚合浅层和深层的信息，DecQ有效缓解了重建与生成之间的权衡，提高了重建质量和生成性能。我们的实验表明：（1）仅使用8个额外查询和3.9%的额外计算量，DecQ在冻结的DINOv2-based RAE上改进了重建，PSNR从19.13 dB提升至22.76 dB；（2）在生成建模方面，DecQ的收敛速度比RAE快3.3倍，无引导时的FID为1.41，有引导时为1.05。

查看原文

查看缓存全文

缓存时间: 2026/05/22 10:19

论文页面 - DecQ：面向表示自编码器中增强重建与生成的细节凝聚查询

来源: https://huggingface.co/papers/2605.22777

摘要

DecQ 通过引入轻量级查询来增强表示自编码器，在不破坏预训练语义空间的前提下提升重建质量和生成性能。

表示自编码器 (https://huggingface.co/papers?q=Representation%20Autoencoders) (RAE) 利用冻结的视觉基础模型 (https://huggingface.co/papers?q=frozen%20vision%20foundation%20models) (VFM) 作为分词器编码器，提供鲁棒的高层表示，从而促进潜在扩散模型 (https://huggingface.co/papers?q=latent%20diffusion%20models) 的快速收敛与高质量生成。然而，冻结 VFM 本质上限制了其空间重建能力，制约了细粒度生成与图像编辑；相反，通过微调引入面向重建的信号则会破坏预训练语义空间，降低生成保真度。为了解决这一权衡，我们提出了 DecQ——一个简单而有效的 RAE 框架。具体而言，DecQ 引入了轻量级细节凝聚查询 (https://huggingface.co/papers?q=detail-condensing%20queries)，通过凝聚器模块 (https://huggingface.co/papers?q=condenser%20modules) 从中间 VFM 特征中提取细粒度信息。这些查询被融入解码器以支持重建，并在生成建模 (https://huggingface.co/papers?q=generative%20modeling) 过程中与块令牌 (https://huggingface.co/papers?q=patch%20tokens) 共同生成。通过聚合浅层和深层的信息，DecQ 有效缓解了重建与生成之间的权衡，同时提升了重建质量 (https://huggingface.co/papers?q=reconstruction%20quality) 和生成性能。我们的实验表明：(1) 仅需 8 个额外查询和 3.9% 的额外计算量，DecQ 便改进了基于冻结 DINOv2 的 RAE 的重建效果，将 PSNR (https://huggingface.co/papers?q=PSNR) 从 19.13 dB 提升至 22.76 dB；(2) 对于生成建模 (https://huggingface.co/papers?q=generative%20modeling)，DecQ 的收敛速度比 RAE 快 3.3 倍，在无引导条件下达到 1.41 的 FID (https://huggingface.co/papers?q=FID)，有引导条件下达到 1.05。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22777)查看 PDF (https://arxiv.org/pdf/2605.22777)GitHub4 (https://github.com/Tianhang-Wang/DecQ)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22777)

在您的代理中获取此论文：

hf papers read 2605\.22777

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.22777 以从此页面关联。

引用此论文的数据集0

没有数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.22777 以从此页面关联。

引用此论文的 Spaces0

没有 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.22777 以从此页面关联。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面关联。

DecQ: 用于表示自编码器中增强重建与生成的细节凝缩查询

论文页面 - DecQ：面向表示自编码器中增强重建与生成的细节凝聚查询

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

IDEAL：深度对齐实现离散表示自编码器

先连续后离散：解决维度坍塌问题的VQ-VAE

Qwen-Image-VAE-2.0 技术报告

使用稀疏自编码器发现数百万个可解释特征

ViQ：任意分辨率下的文本对齐视觉量化表示

提交意见反馈