基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL 论文

摘要

本文提出了一种基于查询的跨模态投影器,通过交叉注意力机制对视觉标记进行压缩,以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量,并消除了手动设计二维扫描顺序的需求。

arXiv:2606.04719v1 公告类型:新论文 摘要:Transformer 相对于输入长度的二次方复杂度给大语言模型(LLMs)带来了难以承受的计算负担。相比之下,选择性扫描结构化状态空间模型 Mamba 能够有效应对这一计算挑战。本文探索了一种基于查询的跨模态投影器,通过交叉注意力机制根据输入对视觉标记进行压缩,从而提升 Mamba 在视觉语言建模中的效率。这一创新性投影器还消除了在将原始图像特征转换为 Mamba LLM 输入序列时手动设计二维扫描顺序的需求。在多个视觉语言理解基准测试上的实验结果表明,所提出的跨模态投影器有效增强了基于 Mamba 的多模态大语言模型,在性能和吞吐量方面均取得了提升。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:17

# 基于查询的跨模态投影器增强 Mamba 多模态大语言模型

来源:https://arxiv.org/html/2606.04719

SooHwan Eom1 Jay Shim1 Gwanhyeong Koo1 Haebin Na1 Mark A\. Hasegawa\-Johnson2 Sungwoong Kim3 Chang D\. Yoo1††感谢:通讯作者 1韩国科学技术院 / 韩国 2伊利诺伊大学厄巴纳-香槟分校 / 美国 3高丽大学 / 韩国 1\{sean1105, shimjay17, kookie, sunbean0511, cd\_yoo\}@kaist\.ac\.kr 2jhasegaw@illinois\.edu 3swkim01@korea\.ac\.kr

###### 摘要

Transformer 相对于输入长度的二次方复杂度给大语言模型(LLMs)带来了难以为继的计算负担。相比之下,选择性扫描结构化状态空间模型(即 Mamba)能够有效应对这一计算挑战。本文探索了一种基于查询的跨模态投影器,旨在通过交叉注意力机制根据输入压缩视觉 token,从而增强 Mamba 在视觉-语言建模中的效率。该创新性投影器还消除了将原始图像特征转换为 Mamba LLM 输入序列时需要手动设计 2D 扫描顺序的需求。在多个视觉-语言理解基准上的实验结果表明,所提出的跨模态投影器能够增强基于 Mamba 的多模态大语言模型,同时提升性能与吞吐量。

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

## 1 引言

多模态大语言模型(MLLMs)旨在将大语言模型(LLMs)的能力扩展至多种模态,包括文本和图像。通过将视觉信息融合到文本域,MLLMs 能够有效利用纯文本预训练 LLM 强大的语言生成与逻辑推理能力。这种整合在解决现实世界中的视觉-语言问题方面已展现出巨大潜力,应用场景多样,如视觉问答(VQA)和多模态对话响应生成。

这一进步的核心在于 TransformerVaswani et al\.\(2017 (https://arxiv.org/html/2606.04719#bib.bib11)\),该架构由堆叠的注意力机制层构成,能够扩展至超过 1000 亿参数。得益于其捕获长程依赖关系的能力与灵活性,Transformer 能够更好地表征不同模态,成为 MLLMs 的基础模型。然而,Transformer 也因其核心注意力机制而存在固有瓶颈。自注意力的计算与内存复杂度随序列长度呈二次方增长,对输入序列长度构成限制。近期研究致力于扩展 Transformer 的上下文窗口以突破这一限制,但计算负担的挑战依然存在。

为解决这一问题,状态空间模型(SSM)Gu et al\.\(2021 (https://arxiv.org/html/2606.04719#bib.bib2),2022a (https://arxiv.org/html/2606.04719#bib.bib4),2022b (https://arxiv.org/html/2606.04719#bib.bib5)\); Fu et al\.\(2023 (https://arxiv.org/html/2606.04719#bib.bib7)\) 作为一种高效捕获长程依赖关系的替代架构被广泛研究。SSM 可视为卷积神经网络(CNNs)与循环神经网络(RNNs)的结合,既支持并行训练,又具备快速推理能力。SSM 领域的最新进展是 MambaGu and Dao \(2023 (https://arxiv.org/html/2606.04719#bib.bib1)\),它引入了基于输入的门控机制以实现选择性扫描,并采用硬件感知算法实现高效计算。Mamba 在达到甚至超越先进 Transformer 性能的同时,实现了更快的训练和推理速度,从而被广泛应用于多个领域,包括图像Zhu et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib30)\); Liu et al\.\(2024b (https://arxiv.org/html/2606.04719#bib.bib31)\)、语音Jiang et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib33)\); Li and Guo \(2024 (https://arxiv.org/html/2606.04719#bib.bib34)\) 以及视频处理Li et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib35)\)。将 Mamba 架构用于 MLLM 基础模型已有所探索Qiao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib10)\); Zhao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib9)\),但尚未得到充分研究。此外,在使用 Mamba 将视觉信息对齐至文本域方面,最有效的方法仍缺乏深入理解。

参见图1:模型对比,包括 \(a\) LLaVALiu et al\.\(2023a (https://arxiv.org/html/2606.04719#bib.bib25)\)、\(b\) BLIP\-2Li et al\.\(2023a (https://arxiv.org/html/2606.04719#bib.bib23)\)、\(c\) CobraZhao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib9)\)、\(d\) VL\-MambaQiao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib10)\) 以及 \(e\) 我们的方法。关键差异源于 LLM 主干架构的选择、投影器架构的设计,以及是否引入可学习查询以提供灵活性。在上述架构基础上,我们提出了一种用于跨模态投影的非平凡 Mamba 架构,用于连接预训练视觉编码器与基于 Mamba 的 LLM。受查询 Transformer(Q\-Former)Li et al\.\(2023a (https://arxiv.org/html/2606.04719#bib.bib23)\) 启发,我们利用可学习查询,通过交替堆叠 Mamba 序列建模层与跨模态注意力,将图像特征中的视觉信息投影为一维因果 token。我们的架构设计出于三个核心目标:\(1\) 消除对 2D 视觉扫描顺序的启发式选择;\(2\) 有效且动态地对投影视觉特征序列长度进行下采样;\(3\) 通过采用专为基于 Mamba 的多模态建模定制的结构,增强文本-图像对齐效果。我们进一步提出了将预训练 Mamba LLM 主干通过所提投影器连接至视觉编码器的 MLLM。先前模型与本文方法的整体对比如图1 (https://arxiv.org/html/2606.04719#S1.F1) 所示。

我们的贡献总结如下:

- •我们提出了 Querying Mamba,一种基于 Mamba 模块与跨模态注意力的多模态连接器,能够自适应灵活地对视觉 token 长度进行下采样。
- •我们提出了基于 Querying Mamba 与预训练 Mamba LLM 的 MLLM。我们对整合这些模型的各组件选择进行了细致探索,以提升 Mamba 在多模态建模中的效能。
- •我们利用多模态理解基准进行了全面的实验评估,以评估所提模型的性能与鲁棒性。

## 2 相关工作

### 2\.1 状态空间模型(SSMs)与 Mamba

当前的状态空间模型受经典状态空间模型启发,后者将连续系统表示为通过隐式潜在状态映射一维函数或序列的模型。线性状态空间层(LSSL)Gu et al\.\(2021 (https://arxiv.org/html/2606.04719#bib.bib2)\) 是深度 SSM 的最早尝试之一,旨在通过堆叠多个 SSM 层来提升序列建模性能。尽管 LSSL 展示了深度 SSM 在处理长程依赖方面的潜力,但其高昂的计算与内存成本使其缺乏实用性。

结构化状态空间模型(S4)Gu et al\.\(2022a (https://arxiv.org/html/2606.04719#bib.bib4)\) 通过将潜在矩阵分解为低秩项与正规项进行重参数化,从而突破了这一瓶颈。这一创新催生了多种变体架构,如对角化状态空间(DSS)Gupta et al\.\(2022 (https://arxiv.org/html/2606.04719#bib.bib6)\) 和 S4DGu et al\.\(2022b (https://arxiv.org/html/2606.04719#bib.bib5)\),通过对角化实现了更高效、更简洁的计算。然而,S4 及其变体无法记忆特定的历史 token 或在序列中比较不同 token——而这些能力对语言建模至关重要。Hungry Hungry Hippos(H3)Fu et al\.\(2023 (https://arxiv.org/html/2606.04719#bib.bib7)\) 旨在通过在序列维度引入一维卷积来弥补 S4 的上述不足,使 SSM 能够通过移位输入序列来比较和记忆历史 token。

最新工作 MambaGu and Dao \(2023 (https://arxiv.org/html/2606.04719#bib.bib1)\) 在 S4 基础上进一步改进,引入了利用输入相关潜在状态参数的选择机制,使模型具备内容感知能力,从而能够选择性地聚焦于相关信息。Mamba 还融合了 H3 中的一维卷积移位机制,以及类似于长短期记忆网络(LSTM)Hochreiter and Schmidhuber \(1997 (https://arxiv.org/html/2606.04719#bib.bib16)\) 的门控机制,增强了其处理长序列的鲁棒性与灵活性。通过并行关联扫描与硬件感知实现,Mamba 实现了高效的训练与推理,达到甚至超越了先进 Transformer 的能力。

Mamba 的成功推动了其在不同领域的多种应用。例如,已有多项研究尝试将 Mamba 应用于语音分离Li and Guo \(2024 (https://arxiv.org/html/2606.04719#bib.bib34)\); Jiang et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib33)\)。在计算机视觉领域,Vision Mamba(Vim)Zhu et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib30)\) 和 V\-MambaLiu et al\.\(2024b (https://arxiv.org/html/2606.04719#bib.bib31)\) 采用双向 SSM,通过 Mamba 中的一维序列建模处理二维图像数据。SiMBAPatro and Agneeswaran \(2024 (https://arxiv.org/html/2606.04719#bib.bib32)\) 通过在 Mamba 块中引入通道混合层进一步提升了性能,类似于 Transformer 块中前馈网络的作用。

### 2\.2 多模态大语言模型

随着 ChatGPTOuyang et al\.\(2022 (https://arxiv.org/html/2606.04719#bib.bib17)\)(又称 InstructGPT)的推出,大语言模型(LLMs)已成为处理现实世界自然语言处理任务的主流方法。这些模型通常具有数十亿参数,并在大规模语料库上训练,不仅擅长生成语言响应,还具备处理需要逻辑理解和推理任务的能力。尽管 InstructGPT 尚未公开发布,研究社区已积极开发开源 LLMsTouvron et al\.\(2023 (https://arxiv.org/html/2606.04719#bib.bib18)\); Gunasekar et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib19)\); Li et al\.\(2023c (https://arxiv.org/html/2606.04719#bib.bib20)\); Zhang et al\.\(2022 (https://arxiv.org/html/2606.04719#bib.bib21)\),这些模型已展现出与 InstructGPT 相当的性能。这一进展推动了预训练 LLM 在多样化应用场景中的各种适配与改进。

其中一项显著进展是多模态大语言模型(MLLMs)的发展,这类模型利用预训练 LLM 处理多模态数据,超越了原有的纯文本域,整合了理解文本和视觉输入的能力。LLaVALiu et al\.\(2023a (https://arxiv.org/html/2606.04719#bib.bib25)\)、BLIPLi et al\.\(2022 (https://arxiv.org/html/2606.04719#bib.bib24),2023a (https://arxiv.org/html/2606.04719#bib.bib23)\) 和 GPT\-4OpenAI \(2024 (https://arxiv.org/html/2606.04719#bib.bib26)\) 等模型在需要精细视觉-语言融合的任务中展现了出色性能。这些模型采用基于 Transformer 的框架,以有效处理长程依赖见长。然而,这些基于 Transformer 的框架所固有的高计算需求与缓慢推理速度已成为近期研究的关注焦点,推动了更高效的 Mamba 架构在 MLLMs 中的应用。由此诞生了 CobraZhao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib9)\) 和 VL\-MambaQiao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib10)\) 等模型,为提升 MLLM 部署效率提供了颇具前景的路径。

CobraZhao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib9)\) 将状态空间模型用于多模态任务,充分利用 Mamba 架构的线性可扩展性。它通过融合 DINOv2Oquab et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib42)\) 和 SigLIPZhai et al\.\(2023 (https://arxiv.org/html/2606.04719#bib.bib43)\) 的输出,引入了一种创新的视觉编码方式,从而生成能够有效捕获空间和语义特性的视觉表征。这些输出随后经过可学习的投影器模块处理,该模块通过多层感知机将视觉表征的维度调整至与 Mamba LLM 匹配,从而实现视觉与文本特征的对齐。这种方法使 Cobra 仅需相当规模的 3B Transformer LLM(如 TinyLLaVAZhou et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib28)\) 或 MobileVLM v2Chu et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib29)\))30% 的时间,即可完成相同数量的输出 token 生成。

类似地,VL\-MambaQiao et al\.\(2024 (https://arxiv.org/html/2606.04719#bib.bib10)\) 在预训练 Mamba 框架基础上构建,并引入了新颖的多模态连接器(MMC)架构。该连接器包含视觉选择性扫描(VSS)模块和两个线性层,用于增强视觉编码器所提取图像块之间的因果关系。此外,该论文还评估了双向扫描机制(BSM,对图像块进行前向和后向扫描)与交叉扫描机制(CSM,同时进行前后向和上下向扫描)之间的性能差异,并建议优先选用简单的 BSM,因为两种扫描方式的效果相近。

然而,Cobra 和 VL\-Mamba 中使用的先前投影器模块存在局限性:这些连接器在视觉 token 数量上缺乏灵活性,导致视觉 token 输入较长,且需要依赖手动设计的扫描机制来赋予图像块之间的因果关系。

参见图2:Querying Mamba(左)与基于所提设计的多模态 Mamba LLM(右)的整体架构。Querying Mamba 将由预训练视觉编码器(附加双向 Mamba 层)编码的视觉信息,通过交叉注意力机制投影至具有因果 Mamba 先验的可学习查询中。投影后的视觉特征作为预训练 Mamba LLM 的视觉 token 输入。

## 3 方法

本节首先回顾结构化状态空间模型与 Mamba 的基础概念(第3\.1节 (https://arxiv.org/html/2606.04719#S3.SS1))。随后,详细介绍跨模态 Mamba 投影器的设计,该投影器将二维视觉信息提取为一维因果 token 序列(第3\.2节 (https://arxiv.org/html/2606.04719#S3.SS2))。最后,描述基于所提 Q\-Mamba 的多模态 Mamba 两阶段微调方法(第3\.3节 (https://arxiv.org/html/2606.04719#S3.SS3))。

### 3\.1 预备知识

状态空间模型(SSMs)Gu et al\.\(2021 (https://arxiv.org/html/2606.04719#bib.bib2),2022a (https://arxiv.org/html/2606.04719#bib.bib4)\); Smith et al\.\(2023 (https://arxiv.org/html/2606.04719#bib.bib8)\) 表示线性时不变系统,该系统通过隐式潜在状态将连续一维函数或序列 x\(t\)∈R 映射至相应响应

相似文章

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。

通过宽基线匹配激发MLLMs中的复杂空间推理

Hugging Face Daily Papers

本文介绍了ReasonMatch-Bench,一个用于多模态大语言模型中宽基线匹配的基准,并提出了动态对应强化学习(DCRL)以提升空间推理能力。实验表明,该方法在基准测试上取得了显著提升,同时保持了通用性能。