Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由

Hugging Face Daily Papers 论文

摘要

本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。

多模态大语言模型(MLLMs)通常继承为单模态文本建模设计的深度对称Transformer主干,并对图像和语言令牌施加相同的计算。这种设计忽略了一个关键的模态不对称性:图像和文本令牌在信息密度、冗余度和所需推理深度方面存在显著差异。通过对 LLaVA-1.5 的逐层分析,我们观察到视觉令牌倾向于在中间层饱和。具体来说,文本到图像的注意力从第 0 层的 0.68 下降到第 4 层的 0.07,并在第 18 层之后稳定在 0.04 附近,而文本令牌则继续受益于深度语义处理。这些发现表明架构对称性与深度异步模态演化之间存在不匹配,导致冗余的视觉计算以及在深度任务特定适应期间感知表示可能发生漂移。受此启发,我们提出了双路径视觉令牌路由(DPVR),这是一种面向高效 MLLMs 的模态不对称路由框架。其核心实例 DPVR-LF(晚期层融合)在饱和点将视觉令牌路由到一个单层可训练的侧分支,运行一个十三层纯文本前向过程(跳过深层堆叠中的图像位置),并仅在最后一层重新融合视觉和文本流。DPVR-LF 仅需约 3% 的可训练参数,即可在标准基准上保持具有竞争力的多模态性能,同时减少深层 Transformer 堆叠中的视觉计算量。该结果挑战了视觉令牌必须遍历所有深层语言模型层的传统假设,并表明单一的晚期融合层就足以在 LLaVA 风格的多模态大语言模型中维持强大的感知能力。
查看原文
查看缓存全文

缓存时间: 2026/06/10 09:44

论文页面 - 后期层融合足矣:视觉饱和下多模态大语言模型的双路径视觉Token路由

来源:https://huggingface.co/papers/2606.09131

摘要

研究揭示,多模态模型中的视觉token和文本token异步演化,导致计算效率低下;一种新的非对称路由框架在保持性能的同时减少了视觉处理开销。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%20models)(MLLMs)通常继承为单模态文本建模设计的深度对称Transformer骨干 (https://huggingface.co/papers?q=Transformer%20backbone),并对图像和语言token统一施加相同的计算。这种设计忽略了关键的模态不对称性 (https://huggingface.co/papers?q=modality%20asymmetry):图像和文本token (https://huggingface.co/papers?q=text%20tokens) 在信息密度、冗余度和所需推理深度上存在显著差异。通过对LLaVA-1.5进行逐层分析 (https://huggingface.co/papers?q=layer-wise%20analysis),我们观察到视觉token (https://huggingface.co/papers?q=vision%20tokens) 在中间层趋于饱和。具体来说,文本到图像的注意力 (https://huggingface.co/papers?q=text-to-image%20attention) 从第0层的0.68下降到第4层的0.07,并在第18层后稳定在0.04附近,而文本token (https://huggingface.co/papers?q=text%20tokens) 则持续受益于深层语义处理。这些发现表明架构对称性与深度异步模态演化之间存在不匹配,导致冗余的视觉计算以及深度任务特定适应过程中知觉表征 (https://huggingface.co/papers?q=perceptual%20representations) 可能的漂移。受此启发,我们提出了双路径视觉Token路由 (https://huggingface.co/papers?q=Dual-Path%20Vision%20Token%20Routing)(DPVR),一种用于高效MLLMs的模态非对称路由框架。其核心实例DPVR-LF (https://huggingface.co/papers?q=DPVR-LF)(后期层融合 (https://huggingface.co/papers?q=Late-Layer%20Fusion)),将视觉token (https://huggingface.co/papers?q=vision%20tokens) 在饱和点路由到一个单层可训练侧分支 (https://huggingface.co/papers?q=trainable%20side%20branch),在深层堆栈中运行一个跳过图像位置的十三层纯文本前向传播,并仅在最后一层重新融合视觉和文本流。DPVR-LF (https://huggingface.co/papers?q=DPVR-LF) 仅使用约3%的可训练参数,在标准基准上保持了有竞争力的多模态性能,同时减少了深层Transformer堆栈 (https://huggingface.co/papers?q=deep%20Transformer%20stack) 中的视觉计算。该结果挑战了视觉token (https://huggingface.co/papers?q=vision%20tokens) 必须遍历所有深层语言模型层的传统假设,并表明单一的后期融合层足以在LLaVA风格MLLMs中维持强大的知觉能力。

查看arXiv页面 (https://arxiv.org/abs/2606.09131)查看PDF (https://arxiv.org/pdf/2606.09131)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09131)

在你的智能体中获取该论文:

hf papers read 2606.09131

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型关联该论文

在模型README.md中引用arxiv.org/abs/2606.09131以在此页面建立关联。

引用该论文的数据集0

没有数据集关联该论文

在数据集README.md中引用arxiv.org/abs/2606.09131以在此页面建立关联。

引用该论文的Spaces0

没有Space关联该论文

在Space README.md中引用arxiv.org/abs/2606.09131以在此页面建立关联。

包含该论文的收藏集0

没有收藏集包含该论文

将该论文添加至收藏集 (https://huggingface.co/new-collection)以在此页面建立关联。

相似文章

超越最后一层:用于视觉标记化的多层表示融合

Hugging Face Daily Papers

本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL

本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。