从感知到决策：多模态大语言模型中听觉与视觉感知的信息流

arXiv cs.AI 2026/06/10 04:00 论文

摘要

本文研究了音频与视觉信息在音频-视觉大语言模型（AVLLMs）中的流动方式，揭示了AVLLMs根据输入配置采取顺序或并行路由，并且某些token在信息传输后可被丢弃以提高效率。

arXiv:2606.10147v1 公告类型：新摘要：多模态大语言模型（MLLMs）能够听和看，但音频和视觉信号在网络中如何传输以形成答案？尽管它们在研究和实际应用中的作用日益增强，但音频和视觉标记影响最终预测的内部路径仍知之甚少。本研究考察了音频-视觉大语言模型（AVLLMs）内部的音频-视觉信息流，追踪了AVLLMs在两种输入配置（音频-视频和多模态交错音频-视觉项目）下如何路由、利用和整合音频与视觉信息。我们发现，对于音频-视频，AVLLMs遵循为VLMs和VideoLLMs建立的顺序信息流路径，音频和视觉贡献沿着该路径按任务对各模态的依赖比例流动。在多个交错音频-视觉项目的情况下，路由转变为不同的并行流。此外，我们证明一旦音频-视觉及其他类型的token将其信息传输给LLM后，可以丢弃这些token，对模型预测影响极小甚至略有改善，这一结论在多个任务和数据集上泛化，从而实现更高效的推理。这些发现适用于多个模型和规模（Qwen2.5-Omni和Video-SALMONN2 Plus的3B和7B规模），并提出了关于这些流结构为何出现的假设。总之，这些结果首次清晰描绘了AVLLMs如何在网络内部协调声音与视觉，为音频-视觉及更广泛MLLMs在可解释性、设计和效率方面的下一波进展奠定了基础。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:13

# 从感知到决策：多模态大语言模型中听觉与视觉感知的信息流 来源：https://arxiv.org/html/2606.10147 Wish Suharitdamrong¹ & Muhammad Awais¹,² & Xiatian Zhu¹,² & Sara Atito¹,² ¹萨里大学以人为本人工智能研究所（PAI），英国萨里大学 ²视觉、语音与信号处理中心（CVSSP），英国萨里大学 ###### 摘要 多模态大语言模型（MLLMs）既能听又能看，但音频和视觉信号究竟如何在网络中传播以形成答案？尽管它们在研究和实际应用中日益重要，但音频和视觉令牌影响最终预测的内部路径仍然鲜为人知。在本研究中，我们考察了音视频大语言模型（AVLLMs）内部的音视频信息流，追踪了在两种输入配置下——即音视频视频和多个交错音视频项——AVLLMs 如何路由、利用和整合音频与视觉信息。我们发现，对于音视频视频，AVLLMs 遵循先前为 VLM 和 VideoLLM 建立的顺序信息流路径，音频和视觉贡献沿此路径流动，其比例取决于任务对各模态的依赖程度。在包含多个交错音视频项的设置中，这种路由转向不同的并行流。此外，我们证明，一旦音视频及其他类型的令牌将其信息传递给 LLM，即可丢弃它们，这对模型预测影响极小，甚至略有改善，且这一结论在多个任务和数据集上具有泛化性，从而实现更高效的推理。这些发现适用于多个模型和不同规模（Qwen2.5-Omni 和 Video-SALMONN2 Plus，3B 和 7B 规模），并引导我们提出关于这些流结构产生原因的相关假设。综合这些结果，我们首次清晰地描绘了 AVLLMs 如何在网络内部协调声音与视觉信息，并为音视频及更广泛 MLLMs 下一波可解释性、设计和效率提升奠定了基础。 ## 1 引言 多模态大语言模型（MLLMs）[Team et al. (2023); Hurst et al. (2024)] 发展迅速，能够同时处理听觉和视觉信息，使机器感知更接近人类感知。早期研究分别发展各模态，形成了专门的视觉语言模型（VLMs）[Liu et al. (2024); Li et al. (2024a); An et al. (2025); Bai et al. (2025); Tong et al. (2024); Zhang et al. (2025a); Wang et al. (2025)] 和音频语言模型（ALMs）[Gong et al. (2023); Tang et al. (2023); Ghosh et al. (2024); Goel et al. (2025); Chu et al. (2024)]，各自在其目标模态内有效运作。近年来的音视频大语言模型（AVLLMs）[Xu et al. (2025a); Tang et al. (2025); Xu et al. (2025b); Fu et al. (2025); Cheng et al. (2024); Team (2026)] 整合视觉和听觉输入，实现统一的音视频理解。这些模型能回答关于音视频场景的问题，并转录视觉相关的语音，这些任务需要跨音频和视觉模态的跨模态推理。这些模型涵盖多种输入格式，从单张图像、视频或音频片段，到音视频视频和多个交错音视频项，覆盖多样化的现实场景。围绕这些模型，一个活跃的研究领域已经形成，包括在丰富复杂场景下测试音视频理解的基准 [Yang et al. (2025); Li et al. (2025a); Zhou et al. (2025); Li et al. (2024b)]、参数高效微调方法 [Wei et al. (2025)]、基于适配的令牌压缩 [Gong et al. (2025); Ding et al. (2026)]，以及推理时无需训练的令牌压缩 [Tao et al. (2025); Li and Huang (2026)]。与此同时，机理可解释性在揭示 LLM 内部机制方面取得了显著进展 [Nanda et al. (2023); Elhage et al. (2021); Rai et al. (2024); Geva et al. (2023)]。类似技术近期已扩展到 MLLM [Basu et al. (2024); Nikankin et al. (2025); Neo et al. (2024); Zhang et al. (2025b); Kim et al. (2025); Kaduri et al. (2025); Selvakumar et al. (2026)]。特别地，注意力剔除已被用于追踪 VLM 中图像输入的跨模态信息流 [Zhang et al. (2025b)] 以及 VideoLLM 中视频输入的时空信息流 [Kim et al. (2025)]。除这些机理研究外，多图像输入处理在 VLM 中已得到积极研究，揭示了失败模式并推动了缓解策略。跨图像信息泄露被确定为一种核心失败模式，即不同图像的视觉内容在输出中纠缠 [Park et al. (2025)]。分隔令牌已被研究并用作限制这种纠缠的机制 [Lee et al. (2026)]。多图像任务性能也被证明随着输入图像数量增加而下降 [Das et al. (2026)]。

尽管 AVLLM 通过整合声音和视觉为机器感知引入了新维度，但音视频整合的内部机制仍未得到充分研究。关于 AVLLM 的并行工作 [Selvakumar et al. (2026)] 考察了音视频字幕，并报告跨模态整合集中在深层。相比之下，VLM [Zhang et al. (2025b)] 和 VideoLLM [Kim et al. (2025)] 的信息流研究将跨模态整合定位于较早到中间层，其中视觉信息仅通过语言令牌流向预测。AVLLM 中的信息流是遵循这些 VLM 和 VideoLLM 的发现，还是有所不同，以及 AVLLM 如何沿此流分布其对音频与视觉输入的依赖，仍是悬而未决的问题。尤其，先前未有工作考察 MLLM 中音频在信息流中的作用，也不清楚音频是否与视觉信息表现相似，还是遵循不同的路径。此外，在多输入交错配置中，先前 VLM 工作描述了模型在多图像输入上的行为 [Park et al. (2025); Lee et al. (2026); Das et al. (2026)]，但底层信息流尚未被考察，无论对于多图像输入还是对于音频项与视觉项交错出现的更广泛情况。

在本研究中，我们追踪了音频和视觉信息如何在 AVLLM 中共同流动以形成预测，在两种输入配置中描绘了这些路径，并刻画了各模态沿路径的贡献方式。我们的关键发现如下：

- **音视频信息未到达深层：** 后期层的视频注意力被不成比例地吸引注意力的注意力伪影所主导，使注意力分配成为信息流的不可靠指标。
- **任务需求引导模型的音视频流：** 每个模态对预测的贡献以及音频与视频之间的交互强度随任务需求变化，根据回答问题所需的视觉、听觉或音视频对齐内容而定。
- **多个独立音视频输入通过并行路径路由：** 与文本交错的独立音频和视觉项沿多条并行路径将信息路由到预测，而非像单一音视频视频那样沿单条顺序路径。
- **令牌在信息转移后可被丢弃：** 一旦令牌内容被传递，即可将其丢弃，对准确率影响极小甚至略有提升。我们在任务和数据集上以及跨输入配置中展示了这一点，每种令牌类型在其信息传递完成的特定层被丢弃。

## 2 音视频大语言模型（AVLLM）基础

##### 多模态令牌化与序列构建：
AVLLM 通过自回归 Transformer 处理带有音频轨道的视频以及文本指令，输入为交错的令牌序列。设视频帧为 \(\mathcal{V} \in \mathbb{R}^{T \times H \times W \times 3}\)，包含 \(T\) 帧，空间分辨率为 \(H \times W\)。这些帧经过视觉编码器和投影器产生 \(N_V\) 个维度为 \(d\) 的视频令牌；音频轨道通过音频编码器处理为 \(N_A\) 个相同维度的音频令牌；文本指令被令牌化为 \(N_T\) 个文本令牌。对于单个音视频视频输入，AVLLM 通过将音频和视频令牌在固定时间窗口内交错排列，保持时间对齐。设 \(C\) 表示窗口数量，\(\mathbf{V}_c\) 和 \(\mathbf{A}_c\) 为第 \(c\) 个窗口内的视觉和音频令牌。结合系统提示、视频、音频和问题片段，语言模型的完整输入序列为：

\[
\mathcal{I} = \Big[ \underbrace{\hbox{\pagecolor{sysbg}$s_1,\ldots,s_{N_S}$}}_{\text{系统}} ;\; \underbrace{\hbox{\pagecolor{vidbg}$\mathbf{V}_1$},\hbox{\pagecolor{audbg}$\mathbf{A}_1$} ;\; \ldots ;\; \hbox{\pagecolor{vidbg}$\mathbf{V}_C$},\hbox{\pagecolor{audbg}$\mathbf{A}_C$}}_{\text{单个音视频视频}} ;\; \underbrace{\hbox{\pagecolor{qbg}$q_1,\ldots,q_{N_Q}$}}_{\text{问题}} \Big],
\tag{1}
\]

其中 \(s_1,\ldots,s_{N_S}\) 为系统提示令牌，\(q_1,\ldots,q_{N_Q}\) 为问题令牌，总序列长度为 \(N = N_S + N_V + N_A + N_Q\)。除单个音视频视频设置外，AVLLM 还处理包含多个独立音频和视觉项并与文本交错的多输入序列，我们将在第 5 节中描述这些情况。

##### 因果自注意力：
在每一 Transformer 层 \(\ell\)，隐藏状态 \(\mathbf{H}^\ell \in \mathbb{R}^{N \times d}\) 被投影为查询、键和值矩阵：
\[
\mathbf{Q}^\ell = \mathbf{H}^\ell \mathbf{W}_Q^\ell, \quad \mathbf{K}^\ell = \mathbf{H}^\ell \mathbf{W}_K^\ell, \quad \mathbf{V}^\ell = \mathbf{H}^\ell \mathbf{W}_V^\ell,
\]
其中 \(\mathbf{W}_Q^\ell, \mathbf{W}_K^\ell, \mathbf{W}_V^\ell \in \mathbb{R}^{d \times d_h}\) 为可学习参数，\(d_h\) 为每头维度。注意力输出为：
\[
\mathrm{Attention}(\mathbf{Q}^\ell, \mathbf{K}^\ell, \mathbf{V}^\ell) = \mathrm{softmax}\!\left( \frac{\mathbf{Q}^\ell (\mathbf{K}^\ell)^\top}{\sqrt{d_h}} + \mathbf{M} \right) \mathbf{V}^\ell,
\tag{2}
\]
其中 \(\mathbf{M} \in \mathbb{R}^{N \times N}\) 为因果掩码，强制自回归解码。

## 3 注意力模式揭示了信息流的什么？

为了追踪音视频信息如何到达预测，一个自然的起点是考察模型将注意力投向何处。我们在多项选择问答（MCQ）任务上进行，其中预测为单个令牌（答案字母），使用 Qwen2.5-Omni [Xu et al. (2025a)] 3B 规模作为研究模型。我们检查这最后一个令牌（即第一个生成的、形成预测的令牌）的注意力分配。具体地，我们追踪其跨层和跨令牌类别（系统提示、视频、音频、用户指令）的分配。图 1（左）显示，在网络大部分层中，最后一个令牌主要关注语言令牌（系统提示和用户指令），而对多模态令牌的注意力随层数加深而减弱。然而，对视频的注意力在第 31 层急剧上升，并持续到最后一层。

![图 1：对视频的注意力在第 31 层急剧上升。](左) 每层最后一个令牌的注意力分配，按令牌类别划分。（中、右）Qwen2.5-Omni 3B 在第 30 层和第 31 层的注意力图，第 31 层的视觉注意力沉陷由红色箭头标出。

表 1：在后期层（31-35）掩蔽对视频和音频令牌的注意力，AV-SpeakerBench 准确率保持不变或略有提升。

| 掩码 | 准确率 |
|---|---|
| 原始因果掩码 | 42.24 |
| 对最后一个令牌掩蔽视频 | 42.24 |
| 对所有文本掩蔽视频 | 42.31 |
| 对所有文本掩蔽视频和音频 | 42.52 |

为了理解这一峰值出现的原因，我们检查第 30 层和第 31 层的注意力图（图 1 中、右）。这一峰值由一组稀疏的视觉令牌驱动，这些令牌通常位于帧的第一个视觉位置，在第 31 层受到集中注意力，但在第 30 层不存在。这种视觉令牌的行为与 Kang et al. (2025) 和 Luo et al. (2025) 中识别的视觉注意力沉陷相匹配，图 2 确认了沉陷令牌的特性：这些令牌的 \(L_2\) 范数通常远大于序列中其余部分，并激活相同的隐藏状态。

从感知到决策：多模态大语言模型中听觉与视觉感知的信息流

相似文章

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

Late-Layer Fusion 足矣：视觉饱和下多模态大语言模型的双路径视觉令牌路由

当视觉为声音代言

观看、记忆、推理：基于MLLMs的人类视角视频理解

大型视觉-语言模型在注意力机制中迷失

提交意见反馈