超越最后一层:用于视觉标记化的多层表示融合
摘要
本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。
查看缓存全文
缓存时间: 2026/05/13 04:11
论文页面 - Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
来源: https://huggingface.co/papers/2605.10780
摘要
DRoRAE 通过自适应路由和增量校正,融合来自预训练视觉编码器的多层特征,从而增强视觉表示,提升重建和生成质量。
那些复用冻结的预训练视觉编码器作为视觉标记化器的表征自编码器在重建和生成质量方面已经取得了优异表现。然而,现有方法普遍仅从编码器的最后一层提取特征,丢弃了分布在中间层的丰富层次化信息。我们证明,低级视觉细节在经过多层语义抽象后,仅在最后一层中作为衰减的残差存在,而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE(深度路由表征自编码器),这是一个轻量级融合模块,通过能量约束路由和增量校正自适应地聚合所有编码器层,生成一个与冻结的预训练解码器兼容的增强潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合,然后微调解码器以充分利用增强后的表示。在 ImageNet-256 上,DRoRAE 将 rFID 从 0.57 降低到 0.29,并将生成 FID 从 1.74 提高到 1.65(结合 AutoGuidance 使用),这些增益也转移到了文本到图像合成任务中。此外,我们发现融合容量与重建质量之间存在对数线性缩放定律(R²=0.86),确定了表征丰富度作为视觉标记化器的一个可预测缩放的新维度,类似于 NLP 中的词汇表大小。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10780) 查看 PDF (https://arxiv.org/pdf/2605.10780) GitHub2 (https://github.com/zhuzil/DRoRAE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10780)
在你的智能体中获取这篇论文:
hf papers read 2605\.10780
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。
包含此论文的集合0
没有包含此论文的集合
将这篇论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。
从二维网格到一维标记:改革多模态图像融合的共享表示
本文提出了一种多模态图像融合方法,该方法使用来自预训练图像标记器的一维标记接口,通过选择性标记编辑(STE)来增强全局外观一致性,同时保留局部细节。在四个基准上的实验表明,该方法在全局一致性和局部保真度方面均达到了最先进性能。
HYDRA-X: 原生统一多模态模型与整体视觉分词器
HYDRA-X 提出了一种统一的多模态模型,将图像和视频分词集成到单个视觉变换器中,在理解和生成任务上均取得了强劲性能。
RepFusion:利用多模态先验进行表示空间中的去噪
RepFusion 提出使用多模态大语言模型作为噪声表示编码器,用于文本到图像生成中的扩散变压器,优于传统的去噪方法。
Video2LoRA: 视觉-语言模型的参数化视频内化
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。