超越最后一层:用于视觉标记化的多层表示融合

Hugging Face Daily Papers 论文

摘要

本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。

重用冻结的预训练视觉编码器作为视觉标记器的表示自编码器(Representation Autoencoders)在重构和生成质量方面取得了优异表现。然而,现有方法普遍仅从编码器的最后一层提取特征,从而丢弃了分布在中间层中的丰富层次化信息。我们表明,底层视觉细节在经过多层语义抽象后,仅在最后一层作为衰减的残差勉强留存,而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE(深度路由表示自编码器,Depth-Routed Representation AutoEncoder),这是一个轻量级融合模块,通过受能量约束的路由和增量校正,自适应地聚合所有编码器层,产生与冻结的预训练解码器兼容的丰富潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合,然后微调解码器以充分利用丰富的表示。在 ImageNet-256 上,DRoRAE 将 rFID 从 0.57 降低至 0.29,并将生成 FID 从 1.74 提升至 1.65(配合 AutoGuidance 使用),其增益也转移到了文本到图像的合成中。此外,我们发现融合容量与重构质量之间存在对数线性缩放定律(R^2{=}0.86),确定了表示丰富性作为视觉标记器的一个新颖且可预测扩展的维度,类似于自然语言处理(NLP)中的词汇表大小。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

来源: https://huggingface.co/papers/2605.10780

摘要

DRoRAE 通过自适应路由和增量校正,融合来自预训练视觉编码器的多层特征,从而增强视觉表示,提升重建和生成质量。

那些复用冻结的预训练视觉编码器作为视觉标记化器的表征自编码器在重建和生成质量方面已经取得了优异表现。然而,现有方法普遍仅从编码器的最后一层提取特征,丢弃了分布在中间层的丰富层次化信息。我们证明,低级视觉细节在经过多层语义抽象后,仅在最后一层中作为衰减的残差存在,而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE(深度路由表征自编码器),这是一个轻量级融合模块,通过能量约束路由和增量校正自适应地聚合所有编码器层,生成一个与冻结的预训练解码器兼容的增强潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合,然后微调解码器以充分利用增强后的表示。在 ImageNet-256 上,DRoRAE 将 rFID 从 0.57 降低到 0.29,并将生成 FID 从 1.74 提高到 1.65(结合 AutoGuidance 使用),这些增益也转移到了文本到图像合成任务中。此外,我们发现融合容量与重建质量之间存在对数线性缩放定律(R²=0.86),确定了表征丰富度作为视觉标记化器的一个可预测缩放的新维度,类似于 NLP 中的词汇表大小。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10780) 查看 PDF (https://arxiv.org/pdf/2605.10780) GitHub2 (https://github.com/zhuzil/DRoRAE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10780)

在你的智能体中获取这篇论文:

hf papers read 2605\.10780

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

从二维网格到一维标记:改革多模态图像融合的共享表示

Hugging Face Daily Papers

本文提出了一种多模态图像融合方法,该方法使用来自预训练图像标记器的一维标记接口,通过选择性标记编辑(STE)来增强全局外观一致性,同时保留局部细节。在四个基准上的实验表明,该方法在全局一致性和局部保真度方面均达到了最先进性能。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。