超越最后一层:用于视觉标记化的多层表示融合

Hugging Face Daily Papers 论文

摘要

本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。

重用冻结的预训练视觉编码器作为视觉标记器的表示自编码器(Representation Autoencoders)在重构和生成质量方面取得了优异表现。然而,现有方法普遍仅从编码器的最后一层提取特征,从而丢弃了分布在中间层中的丰富层次化信息。我们表明,底层视觉细节在经过多层语义抽象后,仅在最后一层作为衰减的残差勉强留存,而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE(深度路由表示自编码器,Depth-Routed Representation AutoEncoder),这是一个轻量级融合模块,通过受能量约束的路由和增量校正,自适应地聚合所有编码器层,产生与冻结的预训练解码器兼容的丰富潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合,然后微调解码器以充分利用丰富的表示。在 ImageNet-256 上,DRoRAE 将 rFID 从 0.57 降低至 0.29,并将生成 FID 从 1.74 提升至 1.65(配合 AutoGuidance 使用),其增益也转移到了文本到图像的合成中。此外,我们发现融合容量与重构质量之间存在对数线性缩放定律(R^2{=}0.86),确定了表示丰富性作为视觉标记器的一个新颖且可预测扩展的维度,类似于自然语言处理(NLP)中的词汇表大小。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

来源: https://huggingface.co/papers/2605.10780

摘要

DRoRAE 通过自适应路由和增量校正,融合来自预训练视觉编码器的多层特征,从而增强视觉表示,提升重建和生成质量。

那些复用冻结的预训练视觉编码器作为视觉标记化器的表征自编码器在重建和生成质量方面已经取得了优异表现。然而,现有方法普遍仅从编码器的最后一层提取特征,丢弃了分布在中间层的丰富层次化信息。我们证明,低级视觉细节在经过多层语义抽象后,仅在最后一层中作为衰减的残差存在,而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE(深度路由表征自编码器),这是一个轻量级融合模块,通过能量约束路由和增量校正自适应地聚合所有编码器层,生成一个与冻结的预训练解码器兼容的增强潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合,然后微调解码器以充分利用增强后的表示。在 ImageNet-256 上,DRoRAE 将 rFID 从 0.57 降低到 0.29,并将生成 FID 从 1.74 提高到 1.65(结合 AutoGuidance 使用),这些增益也转移到了文本到图像合成任务中。此外,我们发现融合容量与重建质量之间存在对数线性缩放定律(R²=0.86),确定了表征丰富度作为视觉标记化器的一个可预测缩放的新维度,类似于 NLP 中的词汇表大小。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10780) 查看 PDF (https://arxiv.org/pdf/2605.10780) GitHub2 (https://github.com/zhuzil/DRoRAE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10780)

在你的智能体中获取这篇论文:

hf papers read 2605\.10780

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。