视觉默认、先验覆盖:视觉-语言模型中感知-知识冲突的因果机制
摘要
本文研究视觉-语言模型如何解决视觉证据与世界知识之间的冲突,揭示了视觉基础是默认的,而先验知识依赖于一小部分位于后层的注意力头。作者在三个VLM系列上进行因果分析,展示了一种不对称结构:消融这些头部会使得预测从基于知识的答案转向基于视觉的答案。
arXiv:2606.28273v1 公告类型:新
摘要:视觉-语言模型必须在视觉证据与记忆的世界知识发生冲突时调和两者。它们如何解决这一冲突决定了多模态系统的可靠性,然而先前的研究仅从行为层面描述了这一过程,缺乏组件层面的因果解释。我们结合了三种粒度的激活修补(残差流、注意力头和MLP子层)与模型组件消融研究及机制分析。在三个VLM系列中,我们发现视觉基础是默认出现的,而先验基础依赖于一小部分因果必要的注意力头(2.5-4.8%),这些头集中在网络的后半部分。这些头部使得模型能够从存储的世界知识中给出答案(例如,草莓的“红色”),即使视觉输入与之冲突。消融这些头部会在先验知识提示下将68-96%的预测从基于知识的答案翻转为基于视觉的答案,但仅改变0.8-7.5%的基于视觉的预测,从而建立了一种非对称的因果结构。识别出的头部可分为路由头(调节信息流)和写入头(直接将答案标记投影到残差流中)。这种结构在多个模型系列和规模上一致,揭示了VLM中感知-知识冲突背后的稀疏因果回路。
查看缓存全文
缓存时间: 2026/06/29 05:25
# 视觉默认,先验覆盖:视觉语言模型中感知-知识冲突的因果机制
来源:https://arxiv.org/html/2606.28273
Niclas Lietzow¹、Danielle Bitterman²、Carsten Eickhoff¹、William Rudman³、Michal Golovanevsky² ¹蒂宾根大学²哈佛大学³德克萨斯大学奥斯汀分校 联系方式:niclas\.lietzow@student\.uni\-tuebingen\.de https://github.com/nlietzow/vision-default-prior-override.git
###### 摘要
当视觉证据与记忆中的世界知识发生冲突时,视觉语言模型必须调和二者。模型如何解决这一冲突决定了多模态系统的可靠性,然而先前的研究仅从行为层面描述这种冲突,缺乏组件级别的因果解释。我们结合三种粒度(残差流、注意力头和MLP子层)的激活修补、模型组件消融实验和机制分析,在三个VLM系列中发现:视觉基础默认出现,而先验基础依赖于集中在网络后半部分的一小组因果必要的注意力头(占2.5–4.8%)。这些注意力头使得模型能够从存储的世界知识中给出答案(例如,草莓的“红色”),尽管视觉输入与之冲突。消融这些头会导致在先验知识提示下68–96%的预测从基于知识翻转为基于视觉的答案,但仅改变0.8–7.5%的视觉基础预测,揭示了一种不对称的因果结构。所识别出的头进一步分解为调节信息流的**路由头**和直接将答案令牌投影到残差流中的**写入头**。这种结构在不同模型系列和规模中保持一致,揭示了VLM中感知-知识冲突背后的稀疏因果电路。
视觉默认,先验覆盖:视觉语言模型中感知-知识冲突的因果机制
Niclas Lietzow¹、Danielle Bitterman²、Carsten Eickhoff¹、William Rudman³、Michal Golovanevsky² ¹蒂宾根大学²哈佛大学³德克萨斯大学奥斯汀分校 联系方式:niclas\.lietzow@student\.uni\-tuebingen\.de https://github.com/nlietzow/vision-default-prior-override.git
## 1 引言
参考图注 图1:视觉语言模型以非对称方式解决感知-知识冲突:视觉基础默认出现,而先验知识依赖于稀疏的后期路由和写入注意力头。
最近的研究越来越多地质疑视觉语言模型如何平衡感知证据与记忆中的世界知识,尤其是在两者冲突时(Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1);Hua等人,2025 (https://arxiv.org/html/2606.28273#bib.bib3);Ortu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib4);Zhang等人,2025 (https://arxiv.org/html/2606.28273#bib.bib12))。例如,当展示一张视觉冲突的图像(如蓝色草莓)并询问“这个草莓是什么颜色?”时,VLM通常能正确回答“蓝色”。然而,当询问“草莓通常是什么颜色?”——这个问题应依赖于先验知识而非图像——模型往往继续根据观察到的视觉输入做出回应(Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1))。这表明,即使提示需要基于知识的答案,视觉证据也可能错误地覆盖已学习的语义知识。理解这种交互对于提高多模态系统的可靠性至关重要,特别是在确定模型应何时信任视觉输入而非检索到的世界知识方面。
感知-知识冲突已从几个互补的角度进行了研究。先前的工作将冲突定位到网络的中后期层(Hua等人,2025 (https://arxiv.org/html/2606.28273#bib.bib3);Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1)),识别出候选的路由头(Hua等人,2025 (https://arxiv.org/html/2606.28273#bib.bib3);Ortu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib4)),并展示了激活层面的干预可以将模型在视觉基础和先验基础模式之间切换(Ortu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib4);Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1))。其他研究表明视觉信息在后期层退化(Liu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib18)),同时部分可从可解释的令牌表示中恢复(Neo等人,2025 (https://arxiv.org/html/2606.28273#bib.bib15)),并且冲突下的模态选择遵循可预测的不确定性动态(Zhang等人,2025 (https://arxiv.org/html/2606.28273#bib.bib12))。这些发现刻画了冲突发生的**位置**,并表明行为**可以被控制**,但它们并未解释VLM解决视觉证据与存储知识之间冲突的底层机制。
1. 1.我们首次提供了VLM中感知-知识冲突的组件级别因果解释,识别出调解决策的特定注意力头和MLP子层。这些组件分解为早期调节信息流的**路由头**和后期直接将答案令牌投影到残差流中的**写入头**。
2. 2.我们在所有评估模型中发现了一种不对称的因果结构:视觉基础默认出现,而先验基础依赖于由稀疏的2.5–4.8%注意力头(集中在网络后半部分)进行的主动注入。消融这些头在先验基础下翻转了68–96%的冲突预测,但在视觉基础下仅翻转0.8–7.5%。MLP子层表现出相同的方向不对称性,但幅度显著较弱,这与放大器的角色而非主要路由角色一致。
3. 3.我们展示了这种路由-写入电路在三个架构不同的VLM系列和多个模型规模(Qwen-VL 3B/7B、LLaVA-NeXT 7B、PaliGemma 3B/10B)中具有泛化性。然而,路由实现因架构而异:Qwen-VL和LLaVA-NeXT重新分配图像与文本令牌之间的注意力,而PaliGemma通过所关注表示之间的差异进行路由。这些结果揭示了一个共享的因果架构,支配着VLM如何解决所见与所知之间的冲突。
## 2 相关工作
#### VLM中的感知-知识冲突。
最近的工作从行为、表示和干预的角度研究了VLM中的感知-知识冲突。多项研究表明,在反事实输入下,VLM经常用冲突的视觉证据覆盖记忆中的世界知识(Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1);Ortu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib4);Zhang等人,2025 (https://arxiv.org/html/2606.28273#bib.bib12))。其他工作将冲突定位到网络的中后期层(Hua等人,2025 (https://arxiv.org/html/2606.28273#bib.bib3);Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1)),即使视觉信息在后期层退化,视觉表示仍然部分可解释(Liu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib18))。相关性分析在图像与标题(Hua等人,2025 (https://arxiv.org/html/2606.28273#bib.bib3))以及事实与反事实(Ortu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib4))的设定中识别出候选路由头,而激活层面的干预表明,模型行为可以在**视觉**基础(遵循视觉证据)和**先验**基础(遵循存储的世界知识)之间切换(Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1))。基于不确定性的框架进一步预测冲突下哪种模态占主导(Zhang等人,2025 (https://arxiv.org/html/2606.28273#bib.bib12))。
然而,现有方法 largely 仍是行为性或相关性层面的。导向向量方法操纵激活而不识别负责的电路,而相关性分析无法确立因果必要性。
Nooralahzadeh等人(2026 (https://arxiv.org/html/2606.28273#bib.bib21))通过残差流修补向因果分析迈进一步,但研究的是互补设定:模型尽管有视觉提示却从先验知识回答。我们则研究更常见的场景:视觉证据覆盖先验知识,同时以每个头和每个MLP为粒度进行更精细的干预。与单模态语言模型中观察到的参数与检索冲突相对平衡的权衡(Jin等人,2024 (https://arxiv.org/html/2606.28273#bib.bib28))不同,我们在VLM中发现一个强烈的不对称结构:视觉基础默认出现,而先验知识需要主动覆盖。
#### VLM的机制可解释性。
VLM中的机制可解释性建立在为语言模型开发的框架之上,包括用于识别模型行为稀疏中介者的因果中介分析(Vig等人,2020 (https://arxiv.org/html/2606.28273#bib.bib9))、用于定位事实关联的因果追踪(Meng等人,2023 (https://arxiv.org/html/2606.28273#bib.bib5))以及Logit Lens——将中间表示投影到词汇空间以检查其编码的令牌级信息(nostalgebraist,2020 (https://arxiv.org/html/2606.28273#bib.bib20))。关于激活修补的方法论工作进一步强调,分布内破坏和logit差异指标是因果干预研究的可靠选择(Zhang和Nanda,2024 (https://arxiv.org/html/2606.28273#bib.bib10))。
Palit等人(2023 (https://arxiv.org/html/2606.28273#bib.bib29))将激活修补引入VLM的文本解码器,而Golovanevsky等人(2025b (https://arxiv.org/html/2606.28273#bib.bib2))将激活修补推广到图像和文本表示上的并行因果干预,发现图像和文本编码器之间存在共享的注意力头。Jiang等人(2025 (https://arxiv.org/html/2606.28273#bib.bib11))进一步将Logit-Lens式分析扩展到VLM图像令牌。其他机制分析识别出视觉Transformer中稀疏的任务特定注意力头(Hoje等人,2024 (https://arxiv.org/html/2606.28273#bib.bib16)),通过因果追踪定位多模态模型中的事实检索(Basu等人,2024 (https://arxiv.org/html/2606.28273#bib.bib19)),分析语义图像编辑下的头重要性(Wang等人,2026 (https://arxiv.org/html/2606.28273#bib.bib27)),并将CLIP视觉编码器中的组合失败与MLP层中的神经元级叠加联系起来(Aravindan等人,2025 (https://arxiv.org/html/2606.28273#bib.bib17))。
#### 多模态信息路由。
最近的工作研究了VLM如何在视觉和文本模态之间路由信息,包括哪些层处理图像令牌(Neo等人,2025 (https://arxiv.org/html/2606.28273#bib.bib15))、文本复制的位置(Rudman等人,2026 (https://arxiv.org/html/2606.28273#bib.bib30))、跨模态注意力模式如何发展(Kaduri等人,2024 (https://arxiv.org/html/2606.28273#bib.bib14))以及模态特定电路在何处分化(Nikankin等人,2025 (https://arxiv.org/html/2606.28273#bib.bib13))。Liu等人(2025 (https://arxiv.org/html/2606.28273#bib.bib18))发现,中间层的图像值令牌编码了足够的信息用于感知任务,但视觉信息在后期层退化,那里与输入无关的键令牌主动抑制感知。这些发现表明,后期层组件在多模态仲裁和信息路由中扮演核心角色。
我们的结果将这些表示层面的发现与底层路由机制联系起来,识别出决定VLM在冲突下遵循视觉证据还是先验知识的稀疏组件。
## 3 方法
### 3.1 任务设定
我们使用Visual-Counterfact数据集(Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1)),该数据集包含469张反事实颜色图像:日常物品被重新着色以与世界知识冲突(例如,蓝色草莓、橙色大象),每张图像配有一个颜色识别问题。存在两种图像变体:**原版**(真实世界颜色)和**反事实**(重新着色)。我们在两种基础模式下评估模型:**视觉**(“这里的\{物体\}是什么颜色?”)——提示模型报告所见;**先验**(“\{一个(n)物体\}通常是什么颜色?”)——询问记忆中的世界知识。我们将视觉提示下的前向传播称为**视觉基础**,将先验提示下的称为**先验基础**。冲突条件是在反事实图像上进行先验基础:模型看到蓝色草莓,但被问草莓通常是什么颜色。此时,视觉证据和记忆知识产生竞争性答案(参见表1(https://arxiv.org/html/2606.28273#S4.T1)中的示例提示和图像变体)。
我们评估五个模型规模,跨越三个架构不同的VLM系列:Qwen-VL-2.5(3B, 7B)(Wang等人,2024 (https://arxiv.org/html/2606.28273#bib.bib6))、基于Mistral主干的LLaVA-NeXT 7B(Liu等人,2024 (https://arxiv.org/html/2606.28273#bib.bib7))以及基于Gemma 2主干的PaliGemma(3B, 10B)(Steiner等人,2024 (https://arxiv.org/html/2606.28273#bib.bib8))。参数范围从3B到10B。这些模型是先前关于反事实和冲突解决VLM设定的可解释性工作的标准测试平台(Golovanevsky等人,2025a (https://arxiv.org/html/2606.28273#bib.bib1), b (https://arxiv.org/html/2606.28273#bib.bib2); Ortu等人,2025 (https://arxiv.org/html/2606.28273#bib.bib4); Hua等人,2025 (https://arxiv.org/html/2606.28273#bib.bib3)),支持与现有文献的直接比较。所有模型通过NNsight访问(Fiotto-Kaufman等人,2025 (https://arxiv.org/html/2606.28273#bib.bib26)),该工具在前向传播期间提供激活级别的读写访问,无需修改模型代码。
所有定量分析仅限于**正确冲突**的示例:未修改模型在反事实图像上,视觉基础下产生反事实颜色,先验基础下产生原始颜色,且各自匹配预期答案(参见表3(https://arxiv.org/html/2606.28273#A1.T3))。这确保每个测量都反映真实的冲突解决,而非来自模型已经在一种或两种基础模式下失败的示例噪声。
### 3.2 激活修补
我们在最后一个令牌位置(模型生成其答案的位置)以两种交换方向(P2V和V2P,定义如下)进行激活修补,以识别哪些组件携带因果决定冲突解决方式的信息。先前的工作将该位置确定为修补指令微调模型最显著的位置(Golovanevsky等人,2025b (https://arxiv.org/html/2606.28273#bib.bib2); Minder等人,2025 (https://arxiv.org/html/2606.28273#bib.bib22))。
#### 符号。
对于每个反事实图像,令 x_V 和 x_P 分别表示视觉和先验基础下的模型输入(相同图像,不同提示),令 logit_t(x) 表示模型在输入 x 上干净前向传播时令牌 t 的最后一个令牌 logit。我们用 a_c(x) 表示在该干净前向传播期间最后一个令牌位置组件 c 处的激活,并定义修补运行 logit
[公式表示,原文本中此处公式未完整给出,根据上下文补充]
[由于原文本中公式部分在翻译指令给出的文本中未完整显示,此处保持原样并标注翻译说明]
[根据用户指令,仅翻译已提供的文本内容,未提供公式部分内容,故未翻译公式相关文本。但原文中有一段被截断的公式定义,这里根据上下文合理补充翻译]
l̃_t_c(x | x′)相似文章
看见不等于共享:一些视觉-语言模型在非对称对话中高估共同基础
本文研究了视觉-语言模型在非对称对话中能否区分潜在共同基础与已确立共同基础。在MapTask数据上的实验表明,提供任务相关的地图内容(视觉或文本)会使模型倾向于过度预测对齐,因为它们依赖于静态指示范例而非通过对话历史追踪共同基础的确立过程。
看见不等于共享:一些视觉语言模型在不对称对话中高估共同基础
本文研究了视觉语言模型中的一种偏差,即模型在对话中高估了共同理解,将感知访问与沟通基础相混淆。研究结果对对话系统和VLM评估具有启示意义。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
看见不等于知道:VLMs 知道何时不应回答空间问题吗(以及原因)?
本文介绍了 SpatialUncertain,这是一个用于评估视觉语言模型能否识别因遮挡或视角模糊而无法回答空间问题的基准,揭示了模型过度自信和回避行为不佳的问题。
视觉-语言模型中可靠性的所在:注意力、隐藏状态与因果电路的机制研究
本文通过证明注意力图的尖锐度并非视觉-语言模型正确性的良好预测指标,挑战了“注意力-置信度假设”。相反,研究表明,隐藏状态的几何特征和自一致性更能反映模型的可靠性,并揭示了晚期融合模型与早期融合模型在架构上的显著差异。