超越最后一层：用于视觉标记化的多层表示融合

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文提出了 DRoRAE，这是一种通过融合预训练视觉编码器中的多层特征（而非仅依赖最后一层）来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升，并确立了融合容量与性能之间的缩放定律。

重用冻结的预训练视觉编码器作为视觉标记器的表示自编码器（Representation Autoencoders）在重构和生成质量方面取得了优异表现。然而，现有方法普遍仅从编码器的最后一层提取特征，从而丢弃了分布在中间层中的丰富层次化信息。我们表明，底层视觉细节在经过多层语义抽象后，仅在最后一层作为衰减的残差勉强留存，而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE（深度路由表示自编码器，Depth-Routed Representation AutoEncoder），这是一个轻量级融合模块，通过受能量约束的路由和增量校正，自适应地聚合所有编码器层，产生与冻结的预训练解码器兼容的丰富潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合，然后微调解码器以充分利用丰富的表示。在 ImageNet-256 上，DRoRAE 将 rFID 从 0.57 降低至 0.29，并将生成 FID 从 1.74 提升至 1.65（配合 AutoGuidance 使用），其增益也转移到了文本到图像的合成中。此外，我们发现融合容量与重构质量之间存在对数线性缩放定律（R^2{=}0.86），确定了表示丰富性作为视觉标记器的一个新颖且可预测扩展的维度，类似于自然语言处理（NLP）中的词汇表大小。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

来源: https://huggingface.co/papers/2605.10780

摘要

DRoRAE 通过自适应路由和增量校正，融合来自预训练视觉编码器的多层特征，从而增强视觉表示，提升重建和生成质量。

那些复用冻结的预训练视觉编码器作为视觉标记化器的表征自编码器在重建和生成质量方面已经取得了优异表现。然而，现有方法普遍仅从编码器的最后一层提取特征，丢弃了分布在中间层的丰富层次化信息。我们证明，低级视觉细节在经过多层语义抽象后，仅在最后一层中作为衰减的残差存在，而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE（深度路由表征自编码器），这是一个轻量级融合模块，通过能量约束路由和增量校正自适应地聚合所有编码器层，生成一个与冻结的预训练解码器兼容的增强潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合，然后微调解码器以充分利用增强后的表示。在 ImageNet-256 上，DRoRAE 将 rFID 从 0.57 降低到 0.29，并将生成 FID 从 1.74 提高到 1.65（结合 AutoGuidance 使用），这些增益也转移到了文本到图像合成任务中。此外，我们发现融合容量与重建质量之间存在对数线性缩放定律（R²=0.86），确定了表征丰富度作为视觉标记化器的一个可预测缩放的新维度，类似于 NLP 中的词汇表大小。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10780) 查看 PDF (https://arxiv.org/pdf/2605.10780) GitHub2 (https://github.com/zhuzil/DRoRAE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10780)

在你的智能体中获取这篇论文：

hf papers read 2605\.10780

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

引用此论文的 Spaces0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。

包含此论文的集合0

没有包含此论文的集合

将这篇论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。

超越最后一层：用于视觉标记化的多层表示融合

论文页面 - Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的集合0

相似文章

增强多模态推理以对抗视觉退化

Echo-LoRA：通过跨层表示注入实现参数高效微调

MMCORE：多模态连接与表征对齐的潜在嵌入

检索、整合与综合：空间-语义接地潜层视觉推理

表征先于像素：语义引导的分层视频预测

提交意见反馈