超越最后一层:用于视觉标记化的多层表示融合
摘要
本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。
查看缓存全文
缓存时间: 2026/05/13 04:11
论文页面 - Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization
来源: https://huggingface.co/papers/2605.10780
摘要
DRoRAE 通过自适应路由和增量校正,融合来自预训练视觉编码器的多层特征,从而增强视觉表示,提升重建和生成质量。
那些复用冻结的预训练视觉编码器作为视觉标记化器的表征自编码器在重建和生成质量方面已经取得了优异表现。然而,现有方法普遍仅从编码器的最后一层提取特征,丢弃了分布在中间层的丰富层次化信息。我们证明,低级视觉细节在经过多层语义抽象后,仅在最后一层中作为衰减的残差存在,而显式地融合多层特征可以显著恢复这些丢失的信息。我们提出了 DRoRAE(深度路由表征自编码器),这是一个轻量级融合模块,通过能量约束路由和增量校正自适应地聚合所有编码器层,生成一个与冻结的预训练解码器兼容的增强潜在表示。一种三阶段解耦训练策略首先在冻结解码器的隐式分布约束下学习融合,然后微调解码器以充分利用增强后的表示。在 ImageNet-256 上,DRoRAE 将 rFID 从 0.57 降低到 0.29,并将生成 FID 从 1.74 提高到 1.65(结合 AutoGuidance 使用),这些增益也转移到了文本到图像合成任务中。此外,我们发现融合容量与重建质量之间存在对数线性缩放定律(R²=0.86),确定了表征丰富度作为视觉标记化器的一个可预测缩放的新维度,类似于 NLP 中的词汇表大小。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10780) 查看 PDF (https://arxiv.org/pdf/2605.10780) GitHub2 (https://github.com/zhuzil/DRoRAE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10780)
在你的智能体中获取这篇论文:
hf papers read 2605\.10780
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.10780 以从该页面链接。
包含此论文的集合0
没有包含此论文的集合
将这篇论文添加到集合 (https://huggingface.co/new-collection) 以从该页面链接。
相似文章
增强多模态推理以对抗视觉退化
本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。
Echo-LoRA:通过跨层表示注入实现参数高效微调
本文介绍了 Echo-LoRA,这是一种新的参数高效微调方法,它将来自深层源层的跨层表示注入到浅层 LoRA 模块中,从而在不增加推理开销的情况下提升性能。
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
表征先于像素:语义引导的分层视频预测
Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。