大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI 2026/05/08 04:00 论文

摘要

这篇研究论文利用信息论分析了大型视觉-语言模型（LVLM）的内部机制，揭示了注意力机制可能存在冗余，而前馈网络才是推动语义创新的关键。作者证明，将学习到的注意力权重替换为随机值仍可获得相当的性能，这表明当前模型“在注意力中迷失”。

arXiv:2605.05668v1 公告类型：new 摘要：尽管训练范式快速发展，大型视觉-语言模型（LVLM）的解码器骨干仍根本基于带残差连接的Transformer架构。因此，厘清内部模块的不同角色对于理解模型机制和指导架构优化至关重要。虽然先前的统计方法提供了有价值的基于归因的见解，但它们往往缺乏统一的理论基础。为了弥合这一差距，我们提出了一个基于信息论和几何学的统一框架，以量化残差更新的几何和熵性质。应用该统一框架揭示了一个根本的功能解耦：注意力机制充当侧重于重新配置的子空间保留算子，而前馈网络（FFN）则作为驱动语义创新的子空间扩展算子。引人注目的是，进一步的实验表明，在大多数数据集上，将学习到的注意力权重替换为预定义值（例如高斯噪声），相对于原始模型可以获得相当甚至更优的性能。这些结果暴露了当前机制中的严重资源错配和冗余，表明最先进的LVLM有效地“在注意力中迷失”，而非高效地利用视觉上下文。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:30

# 大型视觉-语言模型在注意力中迷失

来源：https://arxiv.org/html/2605.05668
作者：Ye Tian, Mengyu Yang, Huahui Yi, Liang Lin, Xiaoshuai Hao, Kun Wang, Wendong Wang

###### 摘要

尽管训练范式迅速发展，大型视觉-语言模型（LVLMs）的解码器骨干网络仍然根本性地基于残差连接 Transformer 架构。因此，解析内部模块的不同角色对于理解模型机制和指导架构优化至关重要。虽然先前的统计方法提供了宝贵的基于归因的见解，但它们往往缺乏统一的理论基础。为了弥补这一差距，我们提出了一个基于信息论和几何学的统一框架，以量化残差更新的几何和熵性质。应用这一统一框架揭示了一个根本性的功能解耦：注意力机制充当专注于重组的子空间保持算子，而前馈网络（FFNs）则作为推动语义创新的子空间扩展算子。引人注目的是，进一步的实验表明，用预定义值（例如高斯噪声）替换学习到的注意力权重，在大多数数据集上相对于原始模型产生了相当甚至更优的性能。这些结果暴露了当前机制中严重的分配不当和冗余，表明最先进的 LVLMs 实际上是“在注意力中迷失”，而非有效地利用视觉上下文。我们的代码公开在 [此链接](https://github.com/Lrbomchz/vlms_lost_in_attn)。

机器学习，ICML

## 1 引言

大型视觉-语言模型（LVLMs）通过扩展基于 Transformer 的序列建模以联合处理自然语言和视觉信号，已从大型语言模型（LLMs）快速演变而来 (Vaswani et al., 2017)。早期的视觉-语言表示学习（例如对比预训练）建立了强大的图像-文本对齐，后来的 LVLMs 可将其作为视觉接地接口加以利用 (Radford et al., 2021)。随后的 LVLMs 越来越多地统一预训练的视觉编码器与 LLM 骨干网络，从而实现少样本多模态泛化和大规模指令遵循行为 (Alayrac et al., 2022; Li et al., 2023a; Liu et al., 2023; Hao et al., 2025)。与此同时，面向推理的范式进一步赋予这些模型改进的深思熟虑和问题解决行为 (Wei et al., 2022; Jaech et al., 2024; Guo et al., 2025; Zhang et al., 2025b; Tan et al., 2025)。

尽管架构和训练创新步伐飞快，主流的 LVLM 家族仍然根本性地基于 Transformer 架构 (Vaswani et al., 2017)。从可解释性的角度来看，标准 Transformer 层由两个核心子模块组成，即多头自注意力和前馈网络（FFN），每个子模块都被残差连接包裹，使得每个子模块产生一个加法更新，并写回共享的残差流表示中 (Vaswani et al., 2017; Elhage et al., 2021; Skean et al., 2025)。一个常见的工作假设是，注意力块是上下文推理的主要基质，实现了上下文依赖的算法，如归纳/基于复制的机制 (Olsson et al., 2022)。相比之下，FFNs 常被描述为存储和检索分布关联，表现得像键-值内存，其激活模式可以诱导类似于浅层 n-gram 延续的下一个 token 分布 (Geva et al., 2021; Edelman et al., 2024)。

为了探究这种模块化假设，注意力可解释性工作主要采取统计视角，将注意力相关信号视为可测量的代理，并通过经验分布进行功能归因 (Zhou et al., 2024; Kahardipraja et al., 2025)、相关性 (Jain and Wallace, 2019; Abnar and Zuidema, 2020) 以及受控干预 (Serrano and Smith, 2019; Nam et al., 2025)。最近，这一统计工具箱已扩展至 LVLM 解码器中的视觉注意力，其中注意力将文本链接到视觉 token。实证分析揭示了诸如“视觉注意力汇” (Kang et al., 2025) 和“视觉注意力漂移” (Liu et al., 2025; Guan et al., 2026) 等系统现象，这些现象共同表明模型通常对真正具有信息量的视觉证据分配不足的注意力。

鉴于这些进展，LVLM 模块级可解释性仍然缺乏一个统一的信息论和几何框架，以表征并明确对比不同子模块在多模态设置下对表示结构的贡献。相比之下，LLM 的表示分析文献已经使用这些透镜来评估深度上的表示质量 (Razzhigaev et al., 2024; Wei et al., 2024) 并研究联合动态 (Skean et al., 2025; Tian et al., 2023)。这一差距促使我们将这些原则性的透镜引入 LVLM 分析，以解决缺失的视角并实现模块特定和模态基础的比较。

为了弥合这一理论差距，我们提出了一个基于信息论和微分几何的统一框架，以量化和对比 LVLM 残差流计算中的模块级功能贡献。通过采用表示空间的流形假设 (Bengio et al., 2013)，我们引入了两个互补的指标：表示信息差异（RID）和混合信息增益（MixIG）。这些指标将残差更新的贡献分解为两种不同的几何效应：创新，量化扩展语义子空间或改变谱复杂性的外部信息注入；以及重组，测量现有支撑内信息的熵重新分布。

我们在涵盖三种主流架构的 15 个最先进的 LVLMs 上进行了广泛实验，并在多模态基准测试套件上进行了评估。我们的分析揭示了两点深刻的见解：首先，我们在 Transformer 残差流计算中定量验证了尖锐的功能解耦：注意力主要执行保持现有表示支撑的熵重组，而 FFNs 通过引入新的语义方向主导创新。基于这种分工，我们进一步诊断了当前 LVLMs 的系统性病理：解码器视觉注意力通常未能对与问题相关的视觉证据执行有意义的混合，反而表现出大量的冗余，经常在与信息更新贡献有限的交互模式中迷失。

我们的主要贡献总结如下：

*   **理论框架**：我们提出了基于流形假设的严格形式化定义来表示信息。我们引入 RID 和 MixIG 作为双重指标，以量化残差更新的几何和熵影响，为探测表示动态提供通用工具。
*   **模块级可解释性**：我们提供了 Transformer 块内不同角色的定量解释。我们证明注意力和 FFNs 在正交 regime 下运作——重组与创新——从而以几何证据证实了模块化假设。
*   **实证诊断**：我们发现了 LVLM 设计中的关键低效之处。我们的结果强调，尽管架构规模扩大，当前模型在视觉处理中仍遭受严重的信息冗余，表明视觉 token 的集成往往计算昂贵但信息稀疏。

## 2 相关工作

**LLMs 的可解释性**。大量工作研究了 LLM 表示中编码了什么信息以及它们在网络的何处出现 (Belinkov and Glass, 2019)。早期工作在中间隐藏状态上使用轻量级线性探针 (Conneau et al., 2018; Hewitt and Manning, 2019; Belrose et al., 2023)。随后的基于解码的努力，如 tuned lens，将隐藏状态映射到词汇分布 (Belrose et al., 2023)。除了探针和解码，稀疏特征学习方法，包括 transcoders (Dunefsky et al., 2024) 和稀疏自编码器 (Cunningham et al., 2023)，将表示映射到稀疏且更离散的特征空间 (Ameisen et al., 2025)。

**图 1：我们可解释性框架概述**：(a) LVLM 残差流；(b) $\mathbf{X}$ 中的表示信息，其中 SVD 产生谱 $\mathcal{S}_{\mathbf{X}}$ 和语义支撑 $\mathcal{D}_{\mathbf{X}}$；(c) $\Delta \mathbf{X}$ 的更新级效应，由 RID 量化创新和 MixIG 量化重组；(d) 逐层功能分解，揭示了正交的分工，其中注意力表现为子空间保持算子，FFNs 作为子空间扩展算子。

**模块可解释性**。模块可解释性探讨内部 Transformer 组件是否提供模型行为有意义的解释。对于注意力，基础研究表明原始注意力权重可能是不可靠的归因信号 (Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019)。为了更好地捕捉注意力介导影响的积累，注意力展平（attention rollout）和注意力流估计层间的传播 (Abnar and Zuidema, 2020; Kim et al., 2025)。最近的工作超越了 token 级重要性，通过结合基于数据集的归因与因果验证，转向头部级功能 (Nam et al., 2025; Kahardipraja et al., 2025; Zhou et al., 2024; Du et al., 2025)。互补地，基于参数的方法推断头部功能，而无需每次提示的推理追踪 (Elhelo and Geva, 2025)。与此同时，面向模块的分析表明前馈层可以作为键-值内存 (Geva et al., 2021; Qiu et al., 2024)。相比之下，我们的工作提供了一个统一的信息论和几何框架，以量化不同残差流更新如何通过创新与重组做出贡献，从而实现超出单纯归因的直接模块级比较。

**LLM 可解释性中的信息论**。信息论视角从信息的保留、压缩和表示中的冗余方面框架化可解释性。一条路线关注表示质量评估，使用信息量和几何动机的度量，如熵和基于秩的量，以评估嵌入是否保留任务相关的结构 (Agrawal et al., 2022; Deb and Ogunfunmi, 2025; Li et al., 2025)。第二条路线使用这些度量进行逐层分析，旨在表征表示属性如何随网络变化 (Skean et al., 2025; Ali et al., 2025)。第三条路线强调压缩和冗余减少作为一种模型级能力，可能与性能和扩展趋势相关 (Wei et al., 2024; Yue et al., 2024; Havrilla and Liao, 2024)。然而，现有的信息论工作很少为模块本身提供模块级可解释性 (Lai et al., 2021)，特别是在 LVLM 设置中。

总体而言，我们通过在 LVLMs 中将模块级残差流更新与每个更新作为表示上可观察的创新-重组分解进行操作化，将其连接到信息论和几何学。该框架将先前基于统计的模块级功能归因转化为可测量的信息流陈述，并揭示当前 LVLMs 中的注意力分数包含大量冗余。具体而言，我们用随机噪声替换部分学习到的注意力分数，发现尽管这一步骤是标准自注意力中的主要计算瓶颈（其成本随序列长度二次方缩放），模型性能在很大程度上得以保留。

## 3 残差流的统一可解释性框架

在本节中，我们首先在 3.1 节介绍符号和研究问题。然后在 3.2 节从信息论和几何角度形式化表示信息。最后，在 3.3 节中，我们开发用于评估残差流更新的定量指标。

### 3.1 预备知识

#### 3.1.1 动机与符号

考虑一个输入 $\mathcal{I}$，例如视觉和语言 token 的序列。一个多模块神经网络将 $\mathcal{I}$ 映射到隐藏状态矩阵 $\mathbf{X} \in \mathbb{R}^{S \times H}$，其中 $S$ 是 token 长度，$H$ 是隐藏维度。在整个前向传递过程中，表示通过残差连接进行更新。在每一步，一个模块产生一个加法更新 $\Delta \mathbf{X}$，得到 $\mathbf{X}_{\text{new}} = \mathbf{X}_{\text{old}} + \Delta \mathbf{X}$。

这种残差更新视角提出了三个逐步精细化的问题：

1.  **RQ1**：我们应该如何量化所包含的信息

大型视觉-语言模型在注意力机制中迷失

相似文章

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

从大型语言模型的序列内部离散中学习不确定性

多模态大语言模型内部视觉表征的因果探针

论大语言模型的固有可解释性：设计原则和架构调查

提交意见反馈