拆解病态捷径:用于忠实LVLM解码的因果框架

arXiv cs.AI 论文

摘要

本文揭示了大视觉语言模型中的幻觉是由一种动态结构错位引起的,其中某些注意力头充当风险中介,与视觉证据解耦,转而锁定语言先验。作者提出了Fox,一种无需训练的因果干预框架,能够诊断并物理切断这些病态捷径,在忠实解码中实现了最先进的性能。

arXiv:2606.27596v1 公告类型: cross 摘要:大视觉语言模型(LVLMs)展现出复杂的推理能力,但仍易受目标幻觉的影响。与流行的注意力强度假设不同,我们揭示了一种更深层次的动态结构错位:幻觉是在决策关键步骤中触发的,其中特定的注意力头充当风险中介,与视觉证据解耦,转而锁定语言先验。这建立了一条绕过视觉基础的病态捷径。为了瓦解这一捷径,我们提出了Fox(通过表达修正实现忠实与观测流),一种无需训练的推理时框架。Fox使用视觉注意力熵探针来无监督地定位风险中介,从而诊断结构错位。然后,我们通过数值logit饱和执行针对性的因果干预,从物理上切断捷径路径。最后,一种冲突门控协作解码策略协调了干预的忠实性与观测的流畅性。大量实验表明,Fox达到了最先进的性能,在保留语言丰富性的同时,比SID高出29.1%。代码可在 https://github.com/Cc2021start/Fox 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:29

# 拆解病态捷径:一种面向忠实LVLM解码的因果框架

来源:https://arxiv.org/html/2606.27596

###### 摘要

大型视觉语言模型(LVLMs)展现出复杂的推理能力,但仍易受对象幻觉(object hallucination)的影响。与主流的注意力强度假设不同,我们揭示了一种更深层的动态结构错位:幻觉是在决策关键步骤中触发的,此时特定的注意力头(作为风险中介)从视觉证据中解耦,转而锁定语言先验。这建立了一条绕过视觉依据的病态捷径(pathological shortcut)。为拆解这一现象,我们提出 Fox(通过表达修正实现忠实性与观察流),一个无需训练、推理时即可运行的框架。Fox 利用视觉注意力熵探针来无监督地定位风险中介,诊断结构错位。随后,我们通过数值 logit 饱和执行针对性的因果干预,物理上切断捷径路径。最后,一种冲突门控协作解码策略协调了干预的忠实性与观察的流畅性。大量实验表明,Fox 实现了最先进的性能,在 CHAIR 指标上超过 SID 达 29.1%,同时保留了语言的丰富性。代码可在 https://github.com/Cc2021start/Fox 获取。

大型视觉语言模型,幻觉缓解,因果干预,忠实解码

参见图 1:我们工作的动机。(a) 全局视觉注意力幅度 mV,tail 和分布缺乏识别幻觉的判别能力。(b) 虽然全局幅度增强(绿色)未能抑制决策关键步骤中系统指令上的病态峰值,但我们对风险中介的结构性干预(蓝色)消除了这一捷径,恢复了视觉依据。(c) 与跨所有层的粗粒度增强(左)不同,Fox 对已诊断的风险中介执行稀疏、精准的手术式干预(右),物理上切断了先验驱动的捷径。

## 1 引言

大型视觉语言模型(LVLMs)在多模态推理中展现出卓越的能力[Liu et al., 2023; Wan et al., 2025]。尽管取得了这些进步,它们仍频繁遭受对象幻觉——生成与视觉证据相矛盾的内容[Leng et al., 2024a; Nie et al., 2025]。这在安全关键领域(如医学影像或具身AI)构成了严重风险[Wang et al., 2023; Tian et al., 2024],因为单个幻觉 token 可能引发灾难性推理失败。当前的缓解策略通常分为训练时对齐[Bai et al., 2025; Liu et al., 2024a] 或推理时干预[Leng et al., 2024b; An et al., 2025; Li et al., 2025; Fazli et al., 2025]。虽然基于训练的方法计算成本高昂,但推理时干预因其模型无关的效率而受到关注[Zhang et al., 2025; Chen et al., 2024; Che et al., 2025]。尽管技术细节各异,大多数现有方法共享一个共同前提,我们称之为注意力强度假设:幻觉主要归因于视觉注意力的数量不足[Chen et al., 2025]。因此,这些方法试图通过机械放大视觉信号(如 PAI [Liu et al., 2024b])或抑制语言先验[Leng et al., 2024b] 来纠正失败。然而,这种直觉在实践中并不完整,尤其对于基于全局幅度增强的策略。如图 1(a) 所示,mV,tail 表示视觉注意力幅度,即分配给图像 token 的总注意力权重。一项控制分析显示,幻觉输出与正常输出的全局视觉注意力幅度并无统计上显著的减少,其分布大部分重叠。这种判别能力的缺失表明,仅关注强度会忽略幻觉的底层结构错位。因此,决定性的失败不仅在于分配了多少视觉质量,还在于在内容生成时刻,最终预测被路由到了何处。更多细节参见附录 A.1 和 A.2。受此启发,我们将焦点从全局幅度转移到决策关键步骤中触发的瞬态病理现象。我们观察到,幻觉是由特定的注意力头(即风险中介)驱动的,这些头在模型进行内容生成时精确地功能性地从视觉证据中解耦。如图 1(b) 所示,一种简单的全局增强策略(如 PAI [Liu et al., 2024b])成功地增加了总注意力容量,但未能消除系统指令上局部的、病态的峰值。这种持续的结构偏差建立了一条捷径,使潜在语言先验绕过视觉依据主导输出。从因果角度看,这些头充当了不可靠的中介,通过虚假依赖重新路由影响。如图 1(c) 所示,解决这一问题需要从统一的 token 级调整转向稀疏的、头级的因果干预。

为拆解这种病态结构,我们提出 Fox(通过表达修正实现忠实性与观察流),一个基于结构因果模型(SCM)的无需训练框架。我们将解码重新表述为一个因果过程,其中特定决策关键步骤处的注意力头充当中介。具体来说,我们引入视觉注意力熵作为一种无监督探针,以精确定位表现出高视觉不确定性的风险中介。一旦检测到,我们通过 do 算子——实现为数值 logit 饱和——执行有针对性的干预,物理上切断捷径路径,迫使模型依赖直接的视觉证据。最后,为协调干预的忠实性与语言流畅性,我们实施一种冲突门控协作解码策略,动态融合观察分布和干预分布。我们的主要贡献总结如下:

- **我们挑战了主流的注意力强度假设,揭示了幻觉源于动态结构错位。** 我们识别了风险中介——在决策关键步骤处与视觉输入结构上断开连接的稀疏头——为 LVLM 失败提供了一种新的机制性视角。
- **我们提出了 Fox,一个基于 SCM 的原则性推理时框架。** 通过将决策关键步骤与视觉注意力熵探针相交,我们实现了精确、无监督的定位,并通过 do 算子驱动的抑制消除了病态捷径。
- **大量实验表明,Fox 显著优于现有基线,在 CHAIR 上实现了 22.9% 的提升,并在缓解幻觉的同时保留了描述的丰富性。**

参见图 2:LVLM 解码路径的结构因果模型(SCM)。(a) 观察 SCM:潜在中介 H 定位于决策关键步骤。稳定中介 HS 保持视觉依据,而风险中介 HR 从语言先验 Xsys 到输出 Yt 触发一条病态捷径(红色箭头)。(b) 干预 SCM:通过应用 do(HR),我们切断捷径。最终输出由观察分布 Pobs 和干预分布 Pdo 动态协调。

## 2 相关工作

**LVLMs 中的幻觉缓解。** 现有策略通常分为训练时对齐 [Sun et al., 2023; Zhou et al., 2024] 和推理时干预 [Zhu et al., 2026; Tong et al., 2025; Yu et al., 2026]。鉴于重训练成本高昂,近期研究倾向于推理时方法:对比解码方法如 VCD [Leng et al., 2024b] 和 ICD [Wang et al., 2024] 通过负约束惩罚语言先验,而重加权方法 [Liu et al., 2024b; Zou et al., 2024] 机械放大视觉信号。更精细的研究,如 OPERA [Huang et al., 2024b] 和 SEVI [Zhao et al., 2025],试图通过惩罚过度信任或强调特定语义层来调控生成。然而,它们主要依赖于注意力强度假设,将注意力幅度视为忠实性的主要代理。与这些基于强度的启发式方法不同,我们认为幻觉源于动态结构错位。通过将焦点从全局幅度转移到决策关键步骤处的视觉注意力熵,我们区分了有效推理与自信但错位的幻觉,提供了更精确的诊断粒度。

**多模态推理中的因果推断。** 结构因果模型(SCMs)为视觉语言任务中的去偏和可解释性提供了严格框架 [Pearl, 2009]。相关工作使用不变学习、mixup、生成句子和图对比预训练来缓解偏见或丰富预训练模型 [Zhou et al., 2023; Mao et al., 2023; Yu et al., 2023, 2024, 2025a, 2025c],而双模态去偏将这一原则扩展到文本到图像生成 [Yu et al., 2025b]。近期研究如 CausalMM [Zhou et al., 2025] 和 Huang et al. (2024a) 采用 SCM 分析幻觉,通常利用输入级反事实——如掩码图像区域或 token——来估计因果效应。虽然对事后诊断有效,但这些输入级扰动通常过于粗略,无法纠正模型内部的推理动态。相反,我们将内部注意力头重新表述为动态中介。这使我们能够在模型到达决策关键查询时,直接通过 do 算子对潜在信息流进行手术式干预。通过在网络内部物理切断病态捷径路径而不是改变外部输入,Fox 实现了原则性的、无需训练的视觉依据恢复。

## 3 预备知识

**问题形式化。** 我们考虑一个 LVLM Fθ,处理多模态输入 X,分为三个语义子空间:视觉 Xvis(索引 Ivis)、系统指令 Xsys(Isys)和文本历史 Xtxt(Itxt)。模型自回归生成 Y = {y1, ..., yL},其中下一个 token 的概率为 P(yt | X, y<t)。典型的 LVLM 使用注意力头矩阵进行跨模态融合。在第 t 步解码时,倒数第二层 Transformer 层输出隐藏状态 h,每个头 h 贡献注意力权重 a_{t,h}。我们定义视觉注意力熵(VAE)来量化每个头对视觉输入的依赖不确定性。

**决策关键步骤。** 在 LVLM 的因果过程中,并非所有步骤对视觉依据同等重要。内容承载步骤(如名词或动词的生成)相比于功能步骤(如助词)对视觉证据的依赖更强。我们在时间上定位决策关键步骤,记作 T_critical,在这些步骤中,最大概率 token 与视觉相关内容(如图像 token)有高注意力关联。具体来说,我们使用注意力突出来识别这些步骤。

## 4 方法

**4.1 视觉注意力熵探针**

为无监督定位风险中介,我们引入视觉注意力熵(VAE)。对于第 t 步的第 h 个头,其视觉注意力熵定义为:

VAE_{t,h} = - sum_i a_{t,h}^{(i)} * log a_{t,h}^{(i)}

其中 i 遍历视觉 token 索引。高 VAE 值表示该头对视觉输入的注意力分布分散,即高不确定性。我们在决策关键步骤中,选择 VAE 超过预定义阈值 τ_ent 的头作为风险中介。

**4.2 因果干预:do 算子**

一旦识别出风险中介 H_R,我们执行因果干预 do(H_R = h*),其中 h* 是一个破坏性的隐藏状态值。具体实现中,我们使用数值 logit 饱和:将风险中介的 logit 输出替换为一个极端值(如 -inf),从而物理上切断该头对后续层的贡献。这迫使模型绕过病态捷径,依赖其他稳定的中介 H_S 进行视觉依据。

**4.3 冲突门控协作解码**

干预可能损害语言流畅性。为此,我们设计冲突门控协作解码。我们同时计算观察分布 P_obs 和干预分布 P_do。然后,我们测量两个分布的差异 JSD(P_obs || P_do)。如果差异小(共识区域),我们增加干预权重以巩固证据;如果差异大(冲突区域),我们根据差异大小动态调节干预权重,确保忠实性而不牺牲流畅性。最终 token 从融合分布中采样。

## 5 实验

**模型和基线。** 我们在三个代表性 LVLM 上实验:LLaVA-1.5 [Liu et al., 2023]、Shikra [Chen et al., 2023] 和 InstructBLIP [Dai et al., 2023]。我们将 Fox 与五种推理时方法比较:ICD [Wang et al., 2024]、VCD [Leng et al., 2024b]、OPERA [Huang et al., 2024b]、SID [Huo et al., 2025] 和 CausalMM [Zhou et al., 2025]。

**基准。** 我们在三个标准基准上评估:POPE [Li et al., 2023] 用于对象存在性验证;CHAIR [Rohrbach et al., 2018] 用于字幕中的幻觉率(报告 CHAIR_S 和 CHAIR_I);MME [Fu et al., 2025] 用于全面感知评估(报告 Accuracy 和 Accuracy+)。此外,我们使用 GPT-4V 作为整体评判者评估开放式生成质量 [Huang et al., 2024b]。

**实现细节。** (内容待完整)

相似文章

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。