Late-Layer Fusion 足矣:视觉饱和下多模态大语言模型的双路径视觉令牌路由
摘要
本文提出 DPVR-LF,一种面向多模态大语言模型(MLLM)的模态不对称路由框架,该框架在视觉令牌饱和点将其路由到轻量级侧分支,并执行晚期融合,从而在减少视觉计算量的同时保持具有竞争力的性能。
查看缓存全文
缓存时间: 2026/06/10 09:44
论文页面 - 后期层融合足矣:视觉饱和下多模态大语言模型的双路径视觉Token路由
来源:https://huggingface.co/papers/2606.09131
摘要
研究揭示,多模态模型中的视觉token和文本token异步演化,导致计算效率低下;一种新的非对称路由框架在保持性能的同时减少了视觉处理开销。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20large%20language%20models)(MLLMs)通常继承为单模态文本建模设计的深度对称Transformer骨干 (https://huggingface.co/papers?q=Transformer%20backbone),并对图像和语言token统一施加相同的计算。这种设计忽略了关键的模态不对称性 (https://huggingface.co/papers?q=modality%20asymmetry):图像和文本token (https://huggingface.co/papers?q=text%20tokens) 在信息密度、冗余度和所需推理深度上存在显著差异。通过对LLaVA-1.5进行逐层分析 (https://huggingface.co/papers?q=layer-wise%20analysis),我们观察到视觉token (https://huggingface.co/papers?q=vision%20tokens) 在中间层趋于饱和。具体来说,文本到图像的注意力 (https://huggingface.co/papers?q=text-to-image%20attention) 从第0层的0.68下降到第4层的0.07,并在第18层后稳定在0.04附近,而文本token (https://huggingface.co/papers?q=text%20tokens) 则持续受益于深层语义处理。这些发现表明架构对称性与深度异步模态演化之间存在不匹配,导致冗余的视觉计算以及深度任务特定适应过程中知觉表征 (https://huggingface.co/papers?q=perceptual%20representations) 可能的漂移。受此启发,我们提出了双路径视觉Token路由 (https://huggingface.co/papers?q=Dual-Path%20Vision%20Token%20Routing)(DPVR),一种用于高效MLLMs的模态非对称路由框架。其核心实例DPVR-LF (https://huggingface.co/papers?q=DPVR-LF)(后期层融合 (https://huggingface.co/papers?q=Late-Layer%20Fusion)),将视觉token (https://huggingface.co/papers?q=vision%20tokens) 在饱和点路由到一个单层可训练侧分支 (https://huggingface.co/papers?q=trainable%20side%20branch),在深层堆栈中运行一个跳过图像位置的十三层纯文本前向传播,并仅在最后一层重新融合视觉和文本流。DPVR-LF (https://huggingface.co/papers?q=DPVR-LF) 仅使用约3%的可训练参数,在标准基准上保持了有竞争力的多模态性能,同时减少了深层Transformer堆栈 (https://huggingface.co/papers?q=deep%20Transformer%20stack) 中的视觉计算。该结果挑战了视觉token (https://huggingface.co/papers?q=vision%20tokens) 必须遍历所有深层语言模型层的传统假设,并表明单一的后期融合层足以在LLaVA风格MLLMs中维持强大的知觉能力。
查看arXiv页面 (https://arxiv.org/abs/2606.09131)查看PDF (https://arxiv.org/pdf/2606.09131)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09131)
在你的智能体中获取该论文:
hf papers read 2606.09131
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型关联该论文
在模型README.md中引用arxiv.org/abs/2606.09131以在此页面建立关联。
引用该论文的数据集0
没有数据集关联该论文
在数据集README.md中引用arxiv.org/abs/2606.09131以在此页面建立关联。
引用该论文的Spaces0
没有Space关联该论文
在Space README.md中引用arxiv.org/abs/2606.09131以在此页面建立关联。
包含该论文的收藏集0
没有收藏集包含该论文
将该论文添加至收藏集 (https://huggingface.co/new-collection)以在此页面建立关联。
相似文章
LoMo: 局部模态替换以实现更深层的视觉-语言融合
LoMo 提出了一种数据整理方法,将单模态提示重新表述为交错的多模态序列,以改善视觉-语言模型中的跨模态表示对齐,在多个基准测试上取得了持续的性能提升。
从感知到决策:多模态大语言模型中听觉与视觉感知的信息流
本文研究了音频与视觉信息在音频-视觉大语言模型(AVLLMs)中的流动方式,揭示了AVLLMs根据输入配置采取顺序或并行路由,并且某些token在信息传输后可被丢弃以提高效率。
超越最后一层:用于视觉标记化的多层表示融合
本文提出了 DRoRAE,这是一种通过融合预训练视觉编码器中的多层特征(而非仅依赖最后一层)来改善视觉标记化的方法。该方法在 ImageNet 上展示了重构和生成质量的显著提升,并确立了融合容量与性能之间的缩放定律。
LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。
基于查询的跨模态投影器增强 Mamba 多模态大语言模型
本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。