拆解病态捷径：用于忠实LVLM解码的因果框架

arXiv cs.AI 2026/06/29 04:00 论文

摘要

本文揭示了大视觉语言模型中的幻觉是由一种动态结构错位引起的，其中某些注意力头充当风险中介，与视觉证据解耦，转而锁定语言先验。作者提出了Fox，一种无需训练的因果干预框架，能够诊断并物理切断这些病态捷径，在忠实解码中实现了最先进的性能。

arXiv:2606.27596v1 公告类型: cross 摘要：大视觉语言模型（LVLMs）展现出复杂的推理能力，但仍易受目标幻觉的影响。与流行的注意力强度假设不同，我们揭示了一种更深层次的动态结构错位：幻觉是在决策关键步骤中触发的，其中特定的注意力头充当风险中介，与视觉证据解耦，转而锁定语言先验。这建立了一条绕过视觉基础的病态捷径。为了瓦解这一捷径，我们提出了Fox（通过表达修正实现忠实与观测流），一种无需训练的推理时框架。Fox使用视觉注意力熵探针来无监督地定位风险中介，从而诊断结构错位。然后，我们通过数值logit饱和执行针对性的因果干预，从物理上切断捷径路径。最后，一种冲突门控协作解码策略协调了干预的忠实性与观测的流畅性。大量实验表明，Fox达到了最先进的性能，在保留语言丰富性的同时，比SID高出29.1%。代码可在 https://github.com/Cc2021start/Fox 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:29

# 拆解病态捷径：一种面向忠实LVLM解码的因果框架

来源：https://arxiv.org/html/2606.27596

###### 摘要

大型视觉语言模型（LVLMs）展现出复杂的推理能力，但仍易受对象幻觉（object hallucination）的影响。与主流的注意力强度假设不同，我们揭示了一种更深层的动态结构错位：幻觉是在决策关键步骤中触发的，此时特定的注意力头（作为风险中介）从视觉证据中解耦，转而锁定语言先验。这建立了一条绕过视觉依据的病态捷径（pathological shortcut）。为拆解这一现象，我们提出 Fox（通过表达修正实现忠实性与观察流），一个无需训练、推理时即可运行的框架。Fox 利用视觉注意力熵探针来无监督地定位风险中介，诊断结构错位。随后，我们通过数值 logit 饱和执行针对性的因果干预，物理上切断捷径路径。最后，一种冲突门控协作解码策略协调了干预的忠实性与观察的流畅性。大量实验表明，Fox 实现了最先进的性能，在 CHAIR 指标上超过 SID 达 29.1%，同时保留了语言的丰富性。代码可在 https://github.com/Cc2021start/Fox 获取。

大型视觉语言模型，幻觉缓解，因果干预，忠实解码

参见图 1：我们工作的动机。(a) 全局视觉注意力幅度 mV,tail 和分布缺乏识别幻觉的判别能力。(b) 虽然全局幅度增强（绿色）未能抑制决策关键步骤中系统指令上的病态峰值，但我们对风险中介的结构性干预（蓝色）消除了这一捷径，恢复了视觉依据。(c) 与跨所有层的粗粒度增强（左）不同，Fox 对已诊断的风险中介执行稀疏、精准的手术式干预（右），物理上切断了先验驱动的捷径。

## 1 引言

大型视觉语言模型（LVLMs）在多模态推理中展现出卓越的能力[Liu et al., 2023; Wan et al., 2025]。尽管取得了这些进步，它们仍频繁遭受对象幻觉——生成与视觉证据相矛盾的内容[Leng et al., 2024a; Nie et al., 2025]。这在安全关键领域（如医学影像或具身AI）构成了严重风险[Wang et al., 2023; Tian et al., 2024]，因为单个幻觉 token 可能引发灾难性推理失败。当前的缓解策略通常分为训练时对齐[Bai et al., 2025; Liu et al., 2024a] 或推理时干预[Leng et al., 2024b; An et al., 2025; Li et al., 2025; Fazli et al., 2025]。虽然基于训练的方法计算成本高昂，但推理时干预因其模型无关的效率而受到关注[Zhang et al., 2025; Chen et al., 2024; Che et al., 2025]。尽管技术细节各异，大多数现有方法共享一个共同前提，我们称之为注意力强度假设：幻觉主要归因于视觉注意力的数量不足[Chen et al., 2025]。因此，这些方法试图通过机械放大视觉信号（如 PAI [Liu et al., 2024b]）或抑制语言先验[Leng et al., 2024b] 来纠正失败。然而，这种直觉在实践中并不完整，尤其对于基于全局幅度增强的策略。如图 1(a) 所示，mV,tail 表示视觉注意力幅度，即分配给图像 token 的总注意力权重。一项控制分析显示，幻觉输出与正常输出的全局视觉注意力幅度并无统计上显著的减少，其分布大部分重叠。这种判别能力的缺失表明，仅关注强度会忽略幻觉的底层结构错位。因此，决定性的失败不仅在于分配了多少视觉质量，还在于在内容生成时刻，最终预测被路由到了何处。更多细节参见附录 A.1 和 A.2。受此启发，我们将焦点从全局幅度转移到决策关键步骤中触发的瞬态病理现象。我们观察到，幻觉是由特定的注意力头（即风险中介）驱动的，这些头在模型进行内容生成时精确地功能性地从视觉证据中解耦。如图 1(b) 所示，一种简单的全局增强策略（如 PAI [Liu et al., 2024b]）成功地增加了总注意力容量，但未能消除系统指令上局部的、病态的峰值。这种持续的结构偏差建立了一条捷径，使潜在语言先验绕过视觉依据主导输出。从因果角度看，这些头充当了不可靠的中介，通过虚假依赖重新路由影响。如图 1(c) 所示，解决这一问题需要从统一的 token 级调整转向稀疏的、头级的因果干预。

为拆解这种病态结构，我们提出 Fox（通过表达修正实现忠实性与观察流），一个基于结构因果模型（SCM）的无需训练框架。我们将解码重新表述为一个因果过程，其中特定决策关键步骤处的注意力头充当中介。具体来说，我们引入视觉注意力熵作为一种无监督探针，以精确定位表现出高视觉不确定性的风险中介。一旦检测到，我们通过 do 算子——实现为数值 logit 饱和——执行有针对性的干预，物理上切断捷径路径，迫使模型依赖直接的视觉证据。最后，为协调干预的忠实性与语言流畅性，我们实施一种冲突门控协作解码策略，动态融合观察分布和干预分布。我们的主要贡献总结如下：

- **我们挑战了主流的注意力强度假设，揭示了幻觉源于动态结构错位。** 我们识别了风险中介——在决策关键步骤处与视觉输入结构上断开连接的稀疏头——为 LVLM 失败提供了一种新的机制性视角。
- **我们提出了 Fox，一个基于 SCM 的原则性推理时框架。** 通过将决策关键步骤与视觉注意力熵探针相交，我们实现了精确、无监督的定位，并通过 do 算子驱动的抑制消除了病态捷径。
- **大量实验表明，Fox 显著优于现有基线，在 CHAIR 上实现了 22.9% 的提升，并在缓解幻觉的同时保留了描述的丰富性。**

参见图 2：LVLM 解码路径的结构因果模型（SCM）。(a) 观察 SCM：潜在中介 H 定位于决策关键步骤。稳定中介 HS 保持视觉依据，而风险中介 HR 从语言先验 Xsys 到输出 Yt 触发一条病态捷径（红色箭头）。(b) 干预 SCM：通过应用 do(HR)，我们切断捷径。最终输出由观察分布 Pobs 和干预分布 Pdo 动态协调。

## 2 相关工作

**LVLMs 中的幻觉缓解。** 现有策略通常分为训练时对齐 [Sun et al., 2023; Zhou et al., 2024] 和推理时干预 [Zhu et al., 2026; Tong et al., 2025; Yu et al., 2026]。鉴于重训练成本高昂，近期研究倾向于推理时方法：对比解码方法如 VCD [Leng et al., 2024b] 和 ICD [Wang et al., 2024] 通过负约束惩罚语言先验，而重加权方法 [Liu et al., 2024b; Zou et al., 2024] 机械放大视觉信号。更精细的研究，如 OPERA [Huang et al., 2024b] 和 SEVI [Zhao et al., 2025]，试图通过惩罚过度信任或强调特定语义层来调控生成。然而，它们主要依赖于注意力强度假设，将注意力幅度视为忠实性的主要代理。与这些基于强度的启发式方法不同，我们认为幻觉源于动态结构错位。通过将焦点从全局幅度转移到决策关键步骤处的视觉注意力熵，我们区分了有效推理与自信但错位的幻觉，提供了更精确的诊断粒度。

**多模态推理中的因果推断。** 结构因果模型（SCMs）为视觉语言任务中的去偏和可解释性提供了严格框架 [Pearl, 2009]。相关工作使用不变学习、mixup、生成句子和图对比预训练来缓解偏见或丰富预训练模型 [Zhou et al., 2023; Mao et al., 2023; Yu et al., 2023, 2024, 2025a, 2025c]，而双模态去偏将这一原则扩展到文本到图像生成 [Yu et al., 2025b]。近期研究如 CausalMM [Zhou et al., 2025] 和 Huang et al. (2024a) 采用 SCM 分析幻觉，通常利用输入级反事实——如掩码图像区域或 token——来估计因果效应。虽然对事后诊断有效，但这些输入级扰动通常过于粗略，无法纠正模型内部的推理动态。相反，我们将内部注意力头重新表述为动态中介。这使我们能够在模型到达决策关键查询时，直接通过 do 算子对潜在信息流进行手术式干预。通过在网络内部物理切断病态捷径路径而不是改变外部输入，Fox 实现了原则性的、无需训练的视觉依据恢复。

## 3 预备知识

**问题形式化。** 我们考虑一个 LVLM Fθ，处理多模态输入 X，分为三个语义子空间：视觉 Xvis（索引 Ivis）、系统指令 Xsys（Isys）和文本历史 Xtxt（Itxt）。模型自回归生成 Y = {y1, ..., yL}，其中下一个 token 的概率为 P(yt | X, y<t)。典型的 LVLM 使用注意力头矩阵进行跨模态融合。在第 t 步解码时，倒数第二层 Transformer 层输出隐藏状态 h，每个头 h 贡献注意力权重 a_{t,h}。我们定义视觉注意力熵（VAE）来量化每个头对视觉输入的依赖不确定性。

**决策关键步骤。** 在 LVLM 的因果过程中，并非所有步骤对视觉依据同等重要。内容承载步骤（如名词或动词的生成）相比于功能步骤（如助词）对视觉证据的依赖更强。我们在时间上定位决策关键步骤，记作 T_critical，在这些步骤中，最大概率 token 与视觉相关内容（如图像 token）有高注意力关联。具体来说，我们使用注意力突出来识别这些步骤。

## 4 方法

**4.1 视觉注意力熵探针**

为无监督定位风险中介，我们引入视觉注意力熵（VAE）。对于第 t 步的第 h 个头，其视觉注意力熵定义为：

VAE_{t,h} = - sum_i a_{t,h}^{(i)} * log a_{t,h}^{(i)}

其中 i 遍历视觉 token 索引。高 VAE 值表示该头对视觉输入的注意力分布分散，即高不确定性。我们在决策关键步骤中，选择 VAE 超过预定义阈值 τ_ent 的头作为风险中介。

**4.2 因果干预：do 算子**

一旦识别出风险中介 H_R，我们执行因果干预 do(H_R = h*)，其中 h* 是一个破坏性的隐藏状态值。具体实现中，我们使用数值 logit 饱和：将风险中介的 logit 输出替换为一个极端值（如 -inf），从而物理上切断该头对后续层的贡献。这迫使模型绕过病态捷径，依赖其他稳定的中介 H_S 进行视觉依据。

**4.3 冲突门控协作解码**

干预可能损害语言流畅性。为此，我们设计冲突门控协作解码。我们同时计算观察分布 P_obs 和干预分布 P_do。然后，我们测量两个分布的差异 JSD(P_obs || P_do)。如果差异小（共识区域），我们增加干预权重以巩固证据；如果差异大（冲突区域），我们根据差异大小动态调节干预权重，确保忠实性而不牺牲流畅性。最终 token 从融合分布中采样。

## 5 实验

**模型和基线。** 我们在三个代表性 LVLM 上实验：LLaVA-1.5 [Liu et al., 2023]、Shikra [Chen et al., 2023] 和 InstructBLIP [Dai et al., 2023]。我们将 Fox 与五种推理时方法比较：ICD [Wang et al., 2024]、VCD [Leng et al., 2024b]、OPERA [Huang et al., 2024b]、SID [Huo et al., 2025] 和 CausalMM [Zhou et al., 2025]。

**基准。** 我们在三个标准基准上评估：POPE [Li et al., 2023] 用于对象存在性验证；CHAIR [Rohrbach et al., 2018] 用于字幕中的幻觉率（报告 CHAIR_S 和 CHAIR_I）；MME [Fu et al., 2025] 用于全面感知评估（报告 Accuracy 和 Accuracy+）。此外，我们使用 GPT-4V 作为整体评判者评估开放式生成质量 [Huang et al., 2024b]。

**实现细节。** （内容待完整）

拆解病态捷径：用于忠实LVLM解码的因果框架

相似文章

FADE：通过减少语言先验主导性来缓解大型视觉语言模型中的幻觉

从架构到输出：大型语言模型中幻觉的结构根源及数据的放大作用

大型视觉-语言模型在注意力机制中迷失

LLMs为何在结构化知识上产生幻觉：对线性化表示推理的机制分析

转码器追踪视觉语言模型中的视觉定位与幻觉现象

提交意见反馈