视觉-语言模型中可靠性的所在:注意力、隐藏状态与因果电路的机制研究
摘要
本文通过证明注意力图的尖锐度并非视觉-语言模型正确性的良好预测指标,挑战了“注意力-置信度假设”。相反,研究表明,隐藏状态的几何特征和自一致性更能反映模型的可靠性,并揭示了晚期融合模型与早期融合模型在架构上的显著差异。
arXiv:2605.08200v1 公告类型:新论文
摘要:一种普遍存在的直觉认为,当视觉-语言模型(VLMs)的注意力图看起来尖锐时,它们是最值得信赖的:将注意力集中在被查询区域应意味着一个自信且校准良好的答案。我们直接测试了这一“注意力-置信度假设”。我们使用统一的机制分析管道——VLM 可靠性探针(VRP)——对三个开源权重 VLM 家族(LLaVA-1.5、PaliGemma、Qwen2-VL;参数规模为 3-7B)进行工具化分析,将注意力结构、生成动态和隐藏状态几何特征与单一的正确性标签进行对比。研究得出了三项结果。(i)注意力结构对正确性的预测能力近乎为零(在合并的 n=3,090 数据集中,R_pb(C_k,y)=0.001,95% 置信区间 [-0.034, 0.036];R_pb(H_s,y)=-0.012,[-0.047, 0.024]),尽管注意力对于特征提取仍然具有因果必要性(掩码前 30% 的图像块会使准确率下降 8.2-11.3 个百分点,p<0.001)。(ii)可靠性在计算的后期才变得清晰可见:单一隐藏状态线性探针在 POPE 基准测试中对三个模型家族中的两个达到了 AUROC>0.95,且在 K=10 时的自一致性是我们测量的最强的行为预测指标,尽管其推理成本增加了 10 倍(R_pb=0.43)。(iii)因果神经元级消融实验揭示了一个鲜明的架构分歧,这对直接监控设计具有启示意义:晚期融合的 LLaVA 将可靠性集中在脆弱的晚期瓶颈上(在消融前 5 个探针神经元后,物体识别准确率下降 8.3 个百分点),而早期融合的 PaliGemma 和 Qwen2-VL 则将可靠性广泛分布,在峰值层隐藏维度损失约 50% 的情况下,准确率退化仍控制在 <=1 个百分点。结论虽然简短但意义重大:在 3-7B 参数的 VLMs 中,通过隐藏状态几何特征、逐层边际形成以及稀疏的晚期电路来评估可靠性,比依赖注意力图的尖锐度更为可靠。
查看缓存全文
缓存时间: 2026/05/12 07:11
# 视觉-语言模型中的可靠性栖居何处:注意力、隐藏状态与因果电路的机制性研究 来源:https://arxiv.org/html/2605.08200 Logan Mann¹,∗ Ajit Saravanan¹ Ishan Dave² Shikhar Shiromani³ Saadullah Ismail⁴ Yi Xia⁴ Emily Huang⁵ ¹加州大学圣塔芭芭拉分校 ²加州大学伯克利分校 ³NVIDIA ⁴Algoverse AI Research ⁵布朗大学 ∗通讯作者:[email protected] ###### 摘要 一种普遍存在的直觉认为,视觉-语言模型(VLMs)在注意力图看起来“锐利”时最值得信赖:对查询区域集中注意力应意味着自信且校准良好的答案。我们直接检验这一*注意力-置信度假设*(Attention–Confidence Assumption)。我们使用统一的机制性管道——*VLM可靠性探针*(Vrp)——对三个开放权重的 VLM 系列(LLaVA-1.5, PaliGemma, Qwen2-VL;3-7B 参数)进行仪器化分析,将注意力结构、生成动态和隐藏状态几何与单一正确性标签进行比较。研究得出三个结果:(i)注意力结构是正确性的近零预测因子(在合并的 $n=3,090$ 子集上,$R_{\mathrm{pb}}(C_k, y)=0.001$,95% CI $[-0.034, 0.036]$;$R_{\mathrm{pb}}(H_s, y)=-0.012$,CI $[-0.047, 0.024]$),尽管注意力对于特征提取仍然是*因果上*必要的(前 30% 的 patch 掩码使准确率下降 8.2–11.3 pp,$p<0.001$)。(ii)可靠性在计算的后期才变得可识别:在 POPE 基准上,针对其中两个系列,单个隐藏状态线性探针达到 AUROC > 0.95,而在 $10\times$ 推理成本下,$K=10$ 时的自一致性(self-consistency)是我们测量的最强行为预测因子($R_{\mathrm{pb}}=0.43$)。(iii)因果性的神经元级消融揭示了明显的架构分裂,这对直接监控设计具有启示意义:晚期融合的 LLaVA 将可靠性集中在脆弱的晚期瓶颈上(前 5 个探针神经元消融后,物体识别准确率下降 8.3 pp),而早期融合的 PaliGemma 和 Qwen2-VL 则将其广泛分布,并能吸收峰值层隐藏维度约 50% 的破坏,且退化幅度 $\le 1$ pp。结论虽窄但后果深远:在 3-7B 的 VLM 中,相比于注意力图的锐利度,隐藏状态几何、逐层边际形成以及稀疏的晚期电路能更可靠地反映可靠性。 ††脚注:被*ICLR 2026 多模态推理研讨会*录用。 ## 1 引言 视觉-语言模型可以回答关于图像的复杂组合性问题,但经常产生*流畅*的错误:自信、结构良好但与其声称描述的像素不符的答案 [18 (https://arxiv.org/html/2605.08200#bib.bib1), 3 (https://arxiv.org/html/2605.08200#bib.bib3), 27 (https://arxiv.org/html/2605.08200#bib.bib4)]。在错误代价高昂的场景中部署(如科学图像分析、医疗分诊、机器人感知),我们需要同时*预测正确性*且*机制上可解释*的可靠性信号。这提出了一个尖锐的可解释性问题:在 VLM 内部,区分正确答案与错误答案的信息在哪里? 一个自然且视觉上直观的假设是,可靠性存在于注意力中。交叉注意力图易于提取和可视化,并常被视为观察模型“使用”什么来生成答案的窗口 [12 (https://arxiv.org/html/2605.08200#bib.bib16), 29 (https://arxiv.org/html/2605.08200#bib.bib17)]。我们将这种直觉的操作化称为*注意力-置信度假设*:**如果 VLM 将其视觉注意力集中在相关区域,生成的答案应更值得信赖;分散的注意力应表示较低的可靠性**。注意力-置信度假设比(有充分支持的)注意力在计算中因果参与的声明更强。它还进一步要求注意力的*结构*(其锐利度、碎片化或熵)与模型正确的概率相校准。 我们直面检验这一假设。我们引入了*VLM 可靠性探针*(Vrp),这是一个统一的机制性管道,对三个开放 VLM 系列(LLaVA-1.5-7B, PaliGemma-3B, Qwen2-VL-7B)进行仪器化,并在相同的输入和相同的正确性标签下,将注意力结构与生成动态和隐藏状态读出进行比较。Vrp 通过前向钩子提取交叉注意力张量、隐藏状态和每 token 置信度;将注意力简化为每层空间向量和结构摘要(熵 $H_s$、次要成分计数 $C_k$);应用 logit lens [22 (https://arxiv.org/html/2605.08200#bib.bib22)] 跟踪正确 token 何时在残差流中首次与竞争者分离;训练 $L_1$ 正则化线性探针以定位稀疏的可靠性电路;并通过有针对性的神经元消融和 patch 掩码验证发现。 #### 发现。 跨系列出现了三个结果。(i)注意力*结构*是正确性的近零预测因子,尽管注意力对于特征提取仍然是因果必要的;基于 32 个注意力层的监督非线性集成最高仅达到 AUROC=0.725。(ii)可靠性仅在后期变得可识别:logit-lens 真实边际在堆栈深处达到峰值,并由 MLP 残差贡献主导(~70–82%),且针对 LLaVA 和 Qwen2-VL,POPE 基准上的单个隐藏状态探针达到 AUROC > 0.95。(iii)架构以不同方式组织这些信号——LLaVA 将其集中在脆弱的晚期瓶颈中,而 PaliGemma 和 Qwen2-VL 将其分布在广阔的流形上,对大规模消融具有鲁棒性。 #### 贡献。 我们(i)在三个 VLM 系列和四个基准的统一协议下提出并证伪了注意力-置信度假设;(ii)使用 logit-lens 轨迹、$L_1$ 正则化神经元探针和残差更新分析,映射可靠性*何时以及何地*变得线性可解码;(iii)提供因果证据——负向(前 $k$ 个和随机消融,MLP 旁路)和正向(前 30% patch 掩码)——表明所定位的电路不仅仅是相关性的,并记录了系列间显著的鲁棒性不对称;以及(iv)扩展了迄今为止主要应用于纯文本模型的探针文献 [4 (https://arxiv.org/html/2605.08200#bib.bib24), 21 (https://arxiv.org/html/2605.08200#bib.bib25), 10 (https://arxiv.org/html/2605.08200#bib.bib26)],论证 VLM 监控设计应优先选择基于隐藏状态和一致性的信号,而非注意力图启发式方法。 ## 2 相关工作 #### 视觉-语言模型与幻觉基准。 大型 VLM 建立在对比学习和编码器-解码器视觉-语言预训练之上,并结合强大的语言骨干,实现了指令遵循和开放式多模态生成 [23 (https://arxiv.org/html/2605.08200#bib.bib7), 16 (https://arxiv.org/html/2605.08200#bib.bib5), 1 (https://arxiv.org/html/2605.08200#bib.bib6), 18 (https://arxiv.org/html/2605.08200#bib.bib1), 6 (https://arxiv.org/html/2605.08200#bib.bib2), 3 (https://arxiv.org/html/2605.08200#bib.bib3), 27 (https://arxiv.org/html/2605.08200#bib.bib4)]。它们的流畅性使得可靠性难以判断:模型生成的答案自信满满,但在图像中的依据薄弱。这一担忧推动了针对对象幻觉和多模态评估的基准驱动工作,包括 POPE, LLaVA-Bench, MME, SEED-Bench, MM-Vet 和 CHAIR 系列 [17 (https://arxiv.org/html/2605.08200#bib.bib8), 31 (https://arxiv.org/html/2605.08200#bib.bib9), 7 (https://arxiv.org/html/2605.08200#bib.bib10), 15 (https://arxiv.org/html/2605.08200#bib.bib11), 30 (https://arxiv.org/html/2605.08200#bib.bib12), 24 (https://arxiv.org/html/2605.08200#bib.bib13)]。这些基准确立了模型*何处*失败;但它们本身并未定位与失败相关的计算*位于何处*。 #### 注意力作为解释。 注意力是否是模型行为的忠实解释在 NLP 领域一直存在争议 [12 (https://arxiv.org/html/2605.08200#bib.bib16), 29 (https://arxiv.org/html/2605.08200#bib.bib17), 25 (https://arxiv.org/html/2605.08200#bib.bib18)]。对于 VLMs,最近的证据表明正确的定位和正确的回答可以分离:模型经常关注正确的区域,但对其推理错误 [19 (https://arxiv.org/html/2605.08200#bib.bib20)]。基于显著性和归因的可解释性 [5 (https://arxiv.org/html/2605.08200#bib.bib19)] 提供了更精细的空间映射,但在不同系列中,注意力的*任何*空间摘要是否能预测正确性这一问题尚未得到清晰解答。我们要解决正是这个问题。 #### 机制性可解释性与真实性探针。 越来越多的文献从模型状态中读取正确性或真实性的证据。Burns 等人 [4 (https://arxiv.org/html/2605.08200#bib.bib24)] 在无监督情况下发现了语言模型中与真实信念相关的线性方向;Marks 和 Tegmark [21 (https://arxiv.org/html/2605.08200#bib.bib25)] 表明真实和虚假陈述在残差流的低维几何中分离;Geva 等人 [10 (https://arxiv.org/html/2605.08200#bib.bib26), 9 (https://arxiv.org/html/2605.08200#bib.bib27)] 将 MLP 层的作用特征化为促进词汇空间中 token 的关键-值记忆。logit lens [22 (https://arxiv.org/html/2605.08200#bib.bib22)] 和调优透镜变体 [2 (https://arxiv.org/html/2605.08200#bib.bib23)] 提供了残差流的逐层读出。迄今为止,这些工具主要应用于纯文本模型。Long 等人 [20 (https://arxiv.org/html/2605.08200#bib.bib21)] 通过视觉集成点(Visual Integration Point)引入了对 VLM 的隐藏状态视角。我们的工作将这些视角结合在一个明确的机制性管道中,在单一的跨系列 VLM 可靠性分析中比较注意力结构、逐层隐藏状态读出、稀疏单元级探针和因果干预。 #### 行为可靠性。 自一致性 [28 (https://arxiv.org/html/2605.08200#bib.bib29)] 聚合采样推理路径间的一致性;语义熵 [14 (https://arxiv.org/html/2605.08200#bib.bib30)] 和 p(True) 自我评估 [13 (https://arxiv.org/html/2605.08200#bib.bib31)] 将其扩展到自由形式输出。我们将自一致性作为强大的行为基线纳入,并将其与单次内部读出直接进行比较。 ## 3 VLM 可靠性探针 我们使用前向钩子对每个模型进行仪器化,记录(i)每个解码器层 $l$ 和头 $h$ 的交叉注意力张量 $A^{(l,h)} \in \mathbb{R}^{T \times S}$(其中 $T$ 是生成的答案 token 数量,$S$ 是图像 patch 数量),(ii)每一层的残差隐藏状态 $h^{(\ell)} \in \mathbb{R}^d$,以及(iii)每 token 的输出概率。从这些信号中,我们推导出三族指标;见图 1 (https://arxiv.org/html/2605.08200#S3.F1)。该管道旨在解耦两个相互竞争的假设: H1:结构假设。可靠性植根于视觉编码器注意力的空间连贯性,即*模型如何“看”*。 H2:机制-一致性假设。可靠性源于生成动态和晚期隐藏状态的几何结构,即*模型收敛向什么*。 ### 3.1 阶段 1:来自注意力的结构指标 对于每一层 $l$,我们对头和答案 token 位置上的 $A^{(l,h)}$ 进行平均,以获得图像 patch 上的单个空间向量 $m^{(l)} \in \mathbb{R}^S$,然后归一化为概率分布 $\tilde{m}^{(l)}$。我们用两个结构量来总结这个分布: $$ H_s^{(l)} = -\sum_{s=1}^{S} \tilde{m}_s^{(l)} \log \tilde{m}_s^{(l)} \quad \text{(空间熵)} \tag{1} $$ $$ C_k^{(l)} = K_{\mathrm{tot}}^{(l)} - 1 \quad \text{(次要成分计数)}. \tag{2} $$ 为了计算 $K_{\mathrm{tot}}^{(l)}$,我们在前 30% 的注意力质量处对 $\tilde{m}^{(l)}$ 进行阈值处理,在 patch 网格上进行二值化,并在 4-邻接下计算连通分量,这镜像了基于注意力的可解释性中使用的显著性阈值惯例 [5 (https://arxiv.org/html/2605.08200#bib.bib19)]。$K_{\mathrm{tot}}^{(l)}=1$ 对应于单个连续焦点,因此 $C_k^{(l)}=0$。在全文中,除非明确注明,否则我们报告 $C_k$ 而非 $K_{\mathrm{tot}}$,以便“零”对应于最大聚焦的情况。我们还跟踪逐层注意力演化增量 $\Delta H_s^{(l)} = H_s^{(l)} - H_s^{(l-1)}$,以表征注意力如何通过堆栈变锐或扩散。作为鲁棒性检查,我们使用 DBSCAN 变体($\varepsilon=1.5$, $\mathrm{min\_samples}=3$)重新运行所有注意力分析;结果在 $R_{\mathrm{pb}}$ 上相差在 $\pm 0.01$ 以内。 ### 3.2 阶段 2:通过 Logit Lens 和探针的机制性读出 令 $W_U \in \mathbb{R}^{|V| \times d}$ 表示反嵌入矩阵,令 $z_\ell = W_U \, \mathrm{LN}(h^{(\ell)}) \in \mathbb{R}^{|V|}$ 为层 $\ell$ 的 logit-lens 投影 [22 (https://arxiv.org/html/2605.08200#bib.bib22)],其中 $\mathrm{LN}$ 是应用于残差流的模型最后一层归一化。我们定义*真实边际*(truth margin): $$ \Delta M_\ell = z_\ell(y^\star) - \max_{y \neq y^\star} z_\ell(y), \tag{3} $$ 其中 $y^\star$ 是我们评估协议(§4 (https://arxiv.org/html/2605.08200#S4))下的参考答案 token。对于封闭式基准(POPE, yes/no),$y^\star$ 是明确的;对于开放式基准,我们遵循 §4 (https://arxiv.org/html/2605.08200#S4) 中的协议,并使用规范化 ground-truth 答案字符串的第一个内容 token,这镜像了最近多模态模型 logit-lens 分析中采用的惯例 [20 (https://arxiv.org/html/2605.08200#bib.bib21)]。 在每一层,我们 additionally 训练一个学习到的探针 $f_\ell: \mathbb{R}^d \to [0,1]$,仅从 $h^{(\ell)}$ 预测二元正确性。我们报告两种变体:(a)带有 $L_2$ 正则化的逻辑探针(密集),以及(b)带有 $\lambda=0.1$ 的 $L_1$ 正则化的逻辑探针(稀疏)。稀疏探针选择紧凑的单元,我们将其用于 §5.3 (https://arxiv.org/html/2605.08200#S5.SS3) 中的神经元级和因果消融分析。为了归因 $\Delta M_\ell$ 的逐层增长,我们将层 $\ell$ 的残差更新分解为其 MLP 和注意力贡献,并按照 Geva 等人 [9 (https://arxiv.org/html/2605.08200#bib.bib27)] 的方法报告其相对幅度。 ### 3.3 阶段 3:来自生成动态的行为指标 对于每个示例,我们在核采样下($p=0.9, T=0.7$)抽取 $K=10$ 个样本 $\{y_1, \dots, y_K\}$。我们将自一致性计算为多数答案的支持度: $$ \mathrm{SC} = \max_a \frac{1}{K} \sum_{k=1}^{K} \mathbf{1}[\, \Phi(y_k) = a \,], \tag{4} $$ 其中 $\Phi$ 是一个规范化函数,它将小写化并去除标点符号...
相似文章
大型视觉-语言模型在注意力机制中迷失
这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。
视觉-语言模型中提示诱导幻觉的机制研究
本文通过机制分析研究视觉-语言模型中的提示诱导幻觉,识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉,揭示了该故障模式背后的模型特定机制。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
架构而非规模:大语言模型中的电路局部化
本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。
幻觉作为轨迹承诺:Transformer生成中非对称吸引子动力学的因果证据
本文提供因果证据表明自回归语言模型中的幻觉源于由非对称吸引子动力学驱动的早期轨迹承诺。通过在Qwen2.5-1.5B上进行同提示分叉和激活补丁实验,证明幻觉轨迹在首个token处分叉,并在模型各层间展现强烈的因果非对称性。