视觉-语言模型中可靠性的所在：注意力、隐藏状态与因果电路的机制研究

arXiv cs.AI 2026/05/12 04:00 论文

摘要

本文通过证明注意力图的尖锐度并非视觉-语言模型正确性的良好预测指标，挑战了“注意力-置信度假设”。相反，研究表明，隐藏状态的几何特征和自一致性更能反映模型的可靠性，并揭示了晚期融合模型与早期融合模型在架构上的显著差异。

arXiv:2605.08200v1 公告类型：新论文摘要：一种普遍存在的直觉认为，当视觉-语言模型（VLMs）的注意力图看起来尖锐时，它们是最值得信赖的：将注意力集中在被查询区域应意味着一个自信且校准良好的答案。我们直接测试了这一“注意力-置信度假设”。我们使用统一的机制分析管道——VLM 可靠性探针（VRP）——对三个开源权重 VLM 家族（LLaVA-1.5、PaliGemma、Qwen2-VL；参数规模为 3-7B）进行工具化分析，将注意力结构、生成动态和隐藏状态几何特征与单一的正确性标签进行对比。研究得出了三项结果。（i）注意力结构对正确性的预测能力近乎为零（在合并的 n=3,090 数据集中，R_pb(C_k,y)=0.001，95% 置信区间 [-0.034, 0.036]；R_pb(H_s,y)=-0.012，[-0.047, 0.024]），尽管注意力对于特征提取仍然具有因果必要性（掩码前 30% 的图像块会使准确率下降 8.2-11.3 个百分点，p<0.001）。（ii）可靠性在计算的后期才变得清晰可见：单一隐藏状态线性探针在 POPE 基准测试中对三个模型家族中的两个达到了 AUROC>0.95，且在 K=10 时的自一致性是我们测量的最强的行为预测指标，尽管其推理成本增加了 10 倍（R_pb=0.43）。（iii）因果神经元级消融实验揭示了一个鲜明的架构分歧，这对直接监控设计具有启示意义：晚期融合的 LLaVA 将可靠性集中在脆弱的晚期瓶颈上（在消融前 5 个探针神经元后，物体识别准确率下降 8.3 个百分点），而早期融合的 PaliGemma 和 Qwen2-VL 则将可靠性广泛分布，在峰值层隐藏维度损失约 50% 的情况下，准确率退化仍控制在 <=1 个百分点。结论虽然简短但意义重大：在 3-7B 参数的 VLMs 中，通过隐藏状态几何特征、逐层边际形成以及稀疏的晚期电路来评估可靠性，比依赖注意力图的尖锐度更为可靠。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:11

# 视觉-语言模型中的可靠性栖居何处：注意力、隐藏状态与因果电路的机制性研究

来源：https://arxiv.org/html/2605.08200
Logan Mann¹,∗ Ajit Saravanan¹ Ishan Dave² Shikhar Shiromani³ Saadullah Ismail⁴ Yi Xia⁴ Emily Huang⁵
¹加州大学圣塔芭芭拉分校 ²加州大学伯克利分校 ³NVIDIA ⁴Algoverse AI Research ⁵布朗大学
∗通讯作者：[email protected]

###### 摘要

一种普遍存在的直觉认为，视觉-语言模型（VLMs）在注意力图看起来“锐利”时最值得信赖：对查询区域集中注意力应意味着自信且校准良好的答案。我们直接检验这一*注意力-置信度假设*（Attention–Confidence Assumption）。我们使用统一的机制性管道——*VLM可靠性探针*（Vrp）——对三个开放权重的 VLM 系列（LLaVA-1.5, PaliGemma, Qwen2-VL；3-7B 参数）进行仪器化分析，将注意力结构、生成动态和隐藏状态几何与单一正确性标签进行比较。研究得出三个结果：（i）注意力结构是正确性的近零预测因子（在合并的 $n=3,090$ 子集上，$R_{\mathrm{pb}}(C_k, y)=0.001$，95% CI $[-0.034, 0.036]$；$R_{\mathrm{pb}}(H_s, y)=-0.012$，CI $[-0.047, 0.024]$），尽管注意力对于特征提取仍然是*因果上*必要的（前 30% 的 patch 掩码使准确率下降 8.2–11.3 pp，$p<0.001$）。（ii）可靠性在计算的后期才变得可识别：在 POPE 基准上，针对其中两个系列，单个隐藏状态线性探针达到 AUROC > 0.95，而在 $10\times$ 推理成本下，$K=10$ 时的自一致性（self-consistency）是我们测量的最强行为预测因子（$R_{\mathrm{pb}}=0.43$）。（iii）因果性的神经元级消融揭示了明显的架构分裂，这对直接监控设计具有启示意义：晚期融合的 LLaVA 将可靠性集中在脆弱的晚期瓶颈上（前 5 个探针神经元消融后，物体识别准确率下降 8.3 pp），而早期融合的 PaliGemma 和 Qwen2-VL 则将其广泛分布，并能吸收峰值层隐藏维度约 50% 的破坏，且退化幅度 $\le 1$ pp。结论虽窄但后果深远：在 3-7B 的 VLM 中，相比于注意力图的锐利度，隐藏状态几何、逐层边际形成以及稀疏的晚期电路能更可靠地反映可靠性。

††脚注：被*ICLR 2026 多模态推理研讨会*录用。

## 1 引言

视觉-语言模型可以回答关于图像的复杂组合性问题，但经常产生*流畅*的错误：自信、结构良好但与其声称描述的像素不符的答案 [18 (https://arxiv.org/html/2605.08200#bib.bib1), 3 (https://arxiv.org/html/2605.08200#bib.bib3), 27 (https://arxiv.org/html/2605.08200#bib.bib4)]。在错误代价高昂的场景中部署（如科学图像分析、医疗分诊、机器人感知），我们需要同时*预测正确性*且*机制上可解释*的可靠性信号。这提出了一个尖锐的可解释性问题：在 VLM 内部，区分正确答案与错误答案的信息在哪里？

一个自然且视觉上直观的假设是，可靠性存在于注意力中。交叉注意力图易于提取和可视化，并常被视为观察模型“使用”什么来生成答案的窗口 [12 (https://arxiv.org/html/2605.08200#bib.bib16), 29 (https://arxiv.org/html/2605.08200#bib.bib17)]。我们将这种直觉的操作化称为*注意力-置信度假设*：**如果 VLM 将其视觉注意力集中在相关区域，生成的答案应更值得信赖；分散的注意力应表示较低的可靠性**。注意力-置信度假设比（有充分支持的）注意力在计算中因果参与的声明更强。它还进一步要求注意力的*结构*（其锐利度、碎片化或熵）与模型正确的概率相校准。

我们直面检验这一假设。我们引入了*VLM 可靠性探针*（Vrp），这是一个统一的机制性管道，对三个开放 VLM 系列（LLaVA-1.5-7B, PaliGemma-3B, Qwen2-VL-7B）进行仪器化，并在相同的输入和相同的正确性标签下，将注意力结构与生成动态和隐藏状态读出进行比较。Vrp 通过前向钩子提取交叉注意力张量、隐藏状态和每 token 置信度；将注意力简化为每层空间向量和结构摘要（熵 $H_s$、次要成分计数 $C_k$）；应用 logit lens [22 (https://arxiv.org/html/2605.08200#bib.bib22)] 跟踪正确 token 何时在残差流中首次与竞争者分离；训练 $L_1$ 正则化线性探针以定位稀疏的可靠性电路；并通过有针对性的神经元消融和 patch 掩码验证发现。

#### 发现。

跨系列出现了三个结果。（i）注意力*结构*是正确性的近零预测因子，尽管注意力对于特征提取仍然是因果必要的；基于 32 个注意力层的监督非线性集成最高仅达到 AUROC=0.725。（ii）可靠性仅在后期变得可识别：logit-lens 真实边际在堆栈深处达到峰值，并由 MLP 残差贡献主导（~70–82%），且针对 LLaVA 和 Qwen2-VL，POPE 基准上的单个隐藏状态探针达到 AUROC > 0.95。（iii）架构以不同方式组织这些信号——LLaVA 将其集中在脆弱的晚期瓶颈中，而 PaliGemma 和 Qwen2-VL 将其分布在广阔的流形上，对大规模消融具有鲁棒性。

#### 贡献。

我们（i）在三个 VLM 系列和四个基准的统一协议下提出并证伪了注意力-置信度假设；（ii）使用 logit-lens 轨迹、$L_1$ 正则化神经元探针和残差更新分析，映射可靠性*何时以及何地*变得线性可解码；（iii）提供因果证据——负向（前 $k$ 个和随机消融，MLP 旁路）和正向（前 30% patch 掩码）——表明所定位的电路不仅仅是相关性的，并记录了系列间显著的鲁棒性不对称；以及（iv）扩展了迄今为止主要应用于纯文本模型的探针文献 [4 (https://arxiv.org/html/2605.08200#bib.bib24), 21 (https://arxiv.org/html/2605.08200#bib.bib25), 10 (https://arxiv.org/html/2605.08200#bib.bib26)]，论证 VLM 监控设计应优先选择基于隐藏状态和一致性的信号，而非注意力图启发式方法。

## 2 相关工作

#### 视觉-语言模型与幻觉基准。

大型 VLM 建立在对比学习和编码器-解码器视觉-语言预训练之上，并结合强大的语言骨干，实现了指令遵循和开放式多模态生成 [23 (https://arxiv.org/html/2605.08200#bib.bib7), 16 (https://arxiv.org/html/2605.08200#bib.bib5), 1 (https://arxiv.org/html/2605.08200#bib.bib6), 18 (https://arxiv.org/html/2605.08200#bib.bib1), 6 (https://arxiv.org/html/2605.08200#bib.bib2), 3 (https://arxiv.org/html/2605.08200#bib.bib3), 27 (https://arxiv.org/html/2605.08200#bib.bib4)]。它们的流畅性使得可靠性难以判断：模型生成的答案自信满满，但在图像中的依据薄弱。这一担忧推动了针对对象幻觉和多模态评估的基准驱动工作，包括 POPE, LLaVA-Bench, MME, SEED-Bench, MM-Vet 和 CHAIR 系列 [17 (https://arxiv.org/html/2605.08200#bib.bib8), 31 (https://arxiv.org/html/2605.08200#bib.bib9), 7 (https://arxiv.org/html/2605.08200#bib.bib10), 15 (https://arxiv.org/html/2605.08200#bib.bib11), 30 (https://arxiv.org/html/2605.08200#bib.bib12), 24 (https://arxiv.org/html/2605.08200#bib.bib13)]。这些基准确立了模型*何处*失败；但它们本身并未定位与失败相关的计算*位于何处*。

#### 注意力作为解释。

注意力是否是模型行为的忠实解释在 NLP 领域一直存在争议 [12 (https://arxiv.org/html/2605.08200#bib.bib16), 29 (https://arxiv.org/html/2605.08200#bib.bib17), 25 (https://arxiv.org/html/2605.08200#bib.bib18)]。对于 VLMs，最近的证据表明正确的定位和正确的回答可以分离：模型经常关注正确的区域，但对其推理错误 [19 (https://arxiv.org/html/2605.08200#bib.bib20)]。基于显著性和归因的可解释性 [5 (https://arxiv.org/html/2605.08200#bib.bib19)] 提供了更精细的空间映射，但在不同系列中，注意力的*任何*空间摘要是否能预测正确性这一问题尚未得到清晰解答。我们要解决正是这个问题。

#### 机制性可解释性与真实性探针。

越来越多的文献从模型状态中读取正确性或真实性的证据。Burns 等人 [4 (https://arxiv.org/html/2605.08200#bib.bib24)] 在无监督情况下发现了语言模型中与真实信念相关的线性方向；Marks 和 Tegmark [21 (https://arxiv.org/html/2605.08200#bib.bib25)] 表明真实和虚假陈述在残差流的低维几何中分离；Geva 等人 [10 (https://arxiv.org/html/2605.08200#bib.bib26), 9 (https://arxiv.org/html/2605.08200#bib.bib27)] 将 MLP 层的作用特征化为促进词汇空间中 token 的关键-值记忆。logit lens [22 (https://arxiv.org/html/2605.08200#bib.bib22)] 和调优透镜变体 [2 (https://arxiv.org/html/2605.08200#bib.bib23)] 提供了残差流的逐层读出。迄今为止，这些工具主要应用于纯文本模型。Long 等人 [20 (https://arxiv.org/html/2605.08200#bib.bib21)] 通过视觉集成点（Visual Integration Point）引入了对 VLM 的隐藏状态视角。我们的工作将这些视角结合在一个明确的机制性管道中，在单一的跨系列 VLM 可靠性分析中比较注意力结构、逐层隐藏状态读出、稀疏单元级探针和因果干预。

#### 行为可靠性。

自一致性 [28 (https://arxiv.org/html/2605.08200#bib.bib29)] 聚合采样推理路径间的一致性；语义熵 [14 (https://arxiv.org/html/2605.08200#bib.bib30)] 和 p(True) 自我评估 [13 (https://arxiv.org/html/2605.08200#bib.bib31)] 将其扩展到自由形式输出。我们将自一致性作为强大的行为基线纳入，并将其与单次内部读出直接进行比较。

## 3 VLM 可靠性探针

我们使用前向钩子对每个模型进行仪器化，记录（i）每个解码器层 $l$ 和头 $h$ 的交叉注意力张量 $A^{(l,h)} \in \mathbb{R}^{T \times S}$（其中 $T$ 是生成的答案 token 数量，$S$ 是图像 patch 数量），（ii）每一层的残差隐藏状态 $h^{(\ell)} \in \mathbb{R}^d$，以及（iii）每 token 的输出概率。从这些信号中，我们推导出三族指标；见图 1 (https://arxiv.org/html/2605.08200#S3.F1)。该管道旨在解耦两个相互竞争的假设：

H1：结构假设。可靠性植根于视觉编码器注意力的空间连贯性，即*模型如何“看”*。

H2：机制-一致性假设。可靠性源于生成动态和晚期隐藏状态的几何结构，即*模型收敛向什么*。

### 3.1 阶段 1：来自注意力的结构指标

对于每一层 $l$，我们对头和答案 token 位置上的 $A^{(l,h)}$ 进行平均，以获得图像 patch 上的单个空间向量 $m^{(l)} \in \mathbb{R}^S$，然后归一化为概率分布 $\tilde{m}^{(l)}$。我们用两个结构量来总结这个分布：

$$
H_s^{(l)} = -\sum_{s=1}^{S} \tilde{m}_s^{(l)} \log \tilde{m}_s^{(l)} \quad \text{(空间熵)} \tag{1}
$$

$$
C_k^{(l)} = K_{\mathrm{tot}}^{(l)} - 1 \quad \text{(次要成分计数)}. \tag{2}
$$

为了计算 $K_{\mathrm{tot}}^{(l)}$，我们在前 30% 的注意力质量处对 $\tilde{m}^{(l)}$ 进行阈值处理，在 patch 网格上进行二值化，并在 4-邻接下计算连通分量，这镜像了基于注意力的可解释性中使用的显著性阈值惯例 [5 (https://arxiv.org/html/2605.08200#bib.bib19)]。$K_{\mathrm{tot}}^{(l)}=1$ 对应于单个连续焦点，因此 $C_k^{(l)}=0$。在全文中，除非明确注明，否则我们报告 $C_k$ 而非 $K_{\mathrm{tot}}$，以便“零”对应于最大聚焦的情况。我们还跟踪逐层注意力演化增量 $\Delta H_s^{(l)} = H_s^{(l)} - H_s^{(l-1)}$，以表征注意力如何通过堆栈变锐或扩散。作为鲁棒性检查，我们使用 DBSCAN 变体（$\varepsilon=1.5$, $\mathrm{min\_samples}=3$）重新运行所有注意力分析；结果在 $R_{\mathrm{pb}}$ 上相差在 $\pm 0.01$ 以内。

### 3.2 阶段 2：通过 Logit Lens 和探针的机制性读出

令 $W_U \in \mathbb{R}^{|V| \times d}$ 表示反嵌入矩阵，令 $z_\ell = W_U \, \mathrm{LN}(h^{(\ell)}) \in \mathbb{R}^{|V|}$ 为层 $\ell$ 的 logit-lens 投影 [22 (https://arxiv.org/html/2605.08200#bib.bib22)]，其中 $\mathrm{LN}$ 是应用于残差流的模型最后一层归一化。我们定义*真实边际*（truth margin）：

$$
\Delta M_\ell = z_\ell(y^\star) - \max_{y \neq y^\star} z_\ell(y), \tag{3}
$$

其中 $y^\star$ 是我们评估协议（§4 (https://arxiv.org/html/2605.08200#S4)）下的参考答案 token。对于封闭式基准（POPE, yes/no），$y^\star$ 是明确的；对于开放式基准，我们遵循 §4 (https://arxiv.org/html/2605.08200#S4) 中的协议，并使用规范化 ground-truth 答案字符串的第一个内容 token，这镜像了最近多模态模型 logit-lens 分析中采用的惯例 [20 (https://arxiv.org/html/2605.08200#bib.bib21)]。

在每一层，我们 additionally 训练一个学习到的探针 $f_\ell: \mathbb{R}^d \to [0,1]$，仅从 $h^{(\ell)}$ 预测二元正确性。我们报告两种变体：（a）带有 $L_2$ 正则化的逻辑探针（密集），以及（b）带有 $\lambda=0.1$ 的 $L_1$ 正则化的逻辑探针（稀疏）。稀疏探针选择紧凑的单元，我们将其用于 §5.3 (https://arxiv.org/html/2605.08200#S5.SS3) 中的神经元级和因果消融分析。为了归因 $\Delta M_\ell$ 的逐层增长，我们将层 $\ell$ 的残差更新分解为其 MLP 和注意力贡献，并按照 Geva 等人 [9 (https://arxiv.org/html/2605.08200#bib.bib27)] 的方法报告其相对幅度。

### 3.3 阶段 3：来自生成动态的行为指标

对于每个示例，我们在核采样下（$p=0.9, T=0.7$）抽取 $K=10$ 个样本 $\{y_1, \dots, y_K\}$。我们将自一致性计算为多数答案的支持度：

$$
\mathrm{SC} = \max_a \frac{1}{K} \sum_{k=1}^{K} \mathbf{1}[\, \Phi(y_k) = a \,], \tag{4}
$$

其中 $\Phi$ 是一个规范化函数，它将小写化并去除标点符号...

视觉-语言模型中可靠性的所在：注意力、隐藏状态与因果电路的机制研究

相似文章

大型视觉-语言模型在注意力机制中迷失

视觉-语言模型中提示诱导幻觉的机制研究

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

架构而非规模：大语言模型中的电路局部化

幻觉作为轨迹承诺：Transformer生成中非对称吸引子动力学的因果证据

提交意见反馈