模态冲突幻觉中注意力头不平衡的因果证据

arXiv cs.AI 2026/05/20 04:00 论文
multimodal hallucination attention causal-intervention mechanistic-interpretability mllm modality-conflict
摘要
本文识别了MLLMs中不平衡的注意力头组，这些头组驱动或抵抗模态冲突幻觉，并提出了MACI（模态冲突感知因果干预），一种仅在检测到冲突时抑制幻觉驱动头的因果干预方法，在五个模型上实现了大幅的幻觉减少。
arXiv:2605.19250v1 Announce Type: new 摘要: 模态冲突幻觉发生在多模态大语言模型（MLLMs）优先考虑错误的文本前提而不是矛盾的视觉证据时。为了理解为什么视觉证据在生成过程中无法占据主导地位，我们采用机制视角，考察哪些内部组件驱动或抵抗这一失败。我们使用路径修补（path patching）对五个开源MLLMs进行了头级因果分析，并识别出两组具有相反因果作用的注意力头：幻觉驱动头（hallucination-driving heads）和幻觉抵抗头（hallucination-resisting heads）。我们发现了一致的不对称性：驱动效应分布更广且总权重更大，而抵抗效应集中在少数高重要性的头上。消融实验进一步证实了这些组在生成过程中发挥相反作用：分布式的驱动影响和局部化的抵抗共同形成了一种不平衡的路由结构，使生成偏向错误的假设。受此发现启发，我们提出了MACI（模态冲突感知因果干预，Modality-conflict-Aware Causal Intervention），一种条件性干预方法，仅在检测到冲突时抑制因果识别的幻觉驱动头。在五个MLLMs上，MACI在MMMC基准测试中实现了与推理时基线相比最大的幻觉减少，并且具有有利的幻觉-准确率权衡，并且零样本迁移到SCI-SemanticConflict测试。
查看原文
查看缓存全文
缓存时间: 2026/05/20 08:28
# 模态冲突幻觉中注意力头不平衡的因果证据
来源：https://arxiv.org/html/2605.19250
11institutetext:南京大学 新型软件技术国家重点实验室, 中国
22institutetext:南京大学 人工智能学院, 中国
22email:\{jinrui\_jiang, wuzt\}@smail\.nju\.edu\.cn, \{wuz, daixinyu\}@nju\.edu\.cn###### 摘要

模态冲突幻觉发生在多模态大语言模型优先考虑错误的文本前提而非矛盾的视觉证据时。为了理解为什么视觉证据在生成过程中未能胜出，我们从机制角度出发，考察哪些内部组件驱动或抵抗这种失败。我们使用路径修补对五个开源多模态大语言模型进行注意力头级因果分析，识别出具有相反因果角色的两组注意力头：幻觉驱动头和幻觉抵抗头。我们发现一个一致的不对称性：驱动效应分布更广泛且总权重更大，而抵抗效应集中在少数高重要性头上。消融实验进一步证实，这两组在生成过程中发挥相反作用：分布式驱动影响和局部化抵抗共同形成一种不平衡的路由结构，使生成偏向错误的文本前提。受此发现启发，我们提出MACI（模态冲突感知因果干预），一种仅在检测到冲突时抑制因果识别出的幻觉驱动头的条件性干预。在五个多模态大语言模型上，MACI在MMMC基准上实现了相比所比较的推理时基线最大的幻觉减少，并具有有利的幻觉-准确性权衡，且零样本迁移至SCI-SemanticConflict测试。

## 1 引言

当错误的文本前提与视觉证据相矛盾时，就会产生模态冲突，例如当问题预设了图像中不存在的物体时。这构成了多模态大语言模型中幻觉的常见来源：在这种冲突下，模型往往生成与文本前提一致而非与视觉证据一致的答案，先前报告显示，在测试模型中幻觉率超过40%[22 (https://arxiv.org/html/2605.19250#bib.bib1)]。

现有的推理时方法如VCD[10 (https://arxiv.org/html/2605.19250#bib.bib5)]、ICD[18 (https://arxiv.org/html/2605.19250#bib.bib4)]和OPERA[9 (https://arxiv.org/html/2605.19250#bib.bib14)]在输出或解码层面减轻幻觉，但它们对模态冲突失败背后的内部因果过程提供的见解有限。先前工作表明，模态冲突信号可以从中间层线性解码[14 (https://arxiv.org/html/2605.19250#bib.bib12)]，但这并不能解释哪些内部组件驱动模型走向错误的文本前提或抵消这种倾向。

这激发了对竞争性文本和视觉信号在生成过程中如何被选择和传播的路由级分析。由于注意力头在Transformer中中介信息流[4 (https://arxiv.org/html/2605.19250#bib.bib17),21 (https://arxiv.org/html/2605.19250#bib.bib16)]，它们为测试哪些组件驱动或抵抗模态冲突幻觉提供了自然的单元。为了超越相关证据并识别单个头的因果贡献，我们应用路径修补[16 (https://arxiv.org/html/2605.19250#bib.bib25),17 (https://arxiv.org/html/2605.19250#bib.bib3)]，这是一种在注意力头级别进行因果归因的机制可解释性技术。

通过在五个开源多模态大语言模型上应用这种头级因果分析，我们识别出具有相反因果角色的两组注意力头：幻觉驱动头，它将生成偏向错误的文本前提，以及幻觉抵抗头，它抵消这种偏向。至关重要的是，这两组在两个维度上不对称：驱动效应分布在更多层和头上且总权重更大，而抵抗效应集中在一小组高重要性头上。这种不对称性为视觉证据在冲突下可能无法胜出的机制提供了因果证据。

作为概念验证，我们提出MACI¹（模态冲突感知因果干预），一种条件性的推理时干预，利用抵抗头的激活来检测冲突，并仅在必要时抑制驱动头。我们的贡献如下：

- • 我们提供了模态冲突幻觉的头级因果证据，识别出幻觉驱动头和幻觉抵抗头，并揭示了五个多模态大语言模型中一致的双重不对称性。
- • 我们通过生成时消融（包括随机头对照）验证了识别出的头，并表明消融目标识别出的驱动头也能减少属性/关系冲突和SCI-SemanticConflict测试上的幻觉。
- • 我们提出MACI，一种概念验证的条件性干预，它从抵抗头激活中检测冲突，并仅在必要时抑制驱动头。在五个模型上，MACI在MMMC上实现了相比比较的推理时基线中最大的幻觉减少，并零样本迁移至SCI-SemanticConflict。

¹代码将在论文被接收后公开。

## 2 相关工作

**模态冲突。** 先前工作已确定模态冲突是多模态大语言模型的一种独特失败模式[22 (https://arxiv.org/html/2605.19250#bib.bib1),3 (https://arxiv.org/html/2605.19250#bib.bib18)]。遵循MMMC²（https://huggingface.co/datasets/ustc-zhangzm/MMMC）[22 (https://arxiv.org/html/2605.19250#bib.bib1)]，该基准形式化了物体、属性和关系冲突，我们研究那些与真实视觉证据相矛盾的错误文本前提，而非视错觉或语言先验冲突[7 (https://arxiv.org/html/2605.19250#bib.bib13)]或上下文参数冲突[25 (https://arxiv.org/html/2605.19250#bib.bib2)]。据我们所知，MMMC是唯一专门为此设定设计的已建立的基准；我们还使用了SCI的SemanticConflict子集（中等划分）³（https://huggingface.co/datasets/sci-benchmark/self-contradictory/viewer/vision-language-4）[6 (https://arxiv.org/html/2605.19250#bib.bib19)]，表示为SCI-SemanticConflict，其物体替换构造提供了一个独立的类似测试。Nguyen等人[14 (https://arxiv.org/html/2605.19250#bib.bib12)]分析了内部冲突信号，但未明确哪些组件因果地驱动或减轻模态冲突幻觉。

**机制可解释性。** 机制可解释性旨在识别因果支持模型行为的内部组件。因果中介分析[16 (https://arxiv.org/html/2605.19250#bib.bib25)]、因果追踪[13 (https://arxiv.org/html/2605.19250#bib.bib6)]和路径修补[17 (https://arxiv.org/html/2605.19250#bib.bib3)]已揭示语言模型中因果重要的组件。在多模态大语言模型中，因果追踪已被用于研究视觉-语言信息流[4 (https://arxiv.org/html/2605.19250#bib.bib17),21 (https://arxiv.org/html/2605.19250#bib.bib16)]，但尚未应用于模态冲突下注意力头级别的因果归因。

**推理时缓解。** VCD、ICD和OPERA在解码过程中减少幻觉[10 (https://arxiv.org/html/2605.19250#bib.bib5),18 (https://arxiv.org/html/2605.19250#bib.bib4),9 (https://arxiv.org/html/2605.19250#bib.bib14)]，但未识别内部因果机制。头级方法也已被探索[20 (https://arxiv.org/html/2605.19250#bib.bib22),19 (https://arxiv.org/html/2605.19250#bib.bib15),8 (https://arxiv.org/html/2605.19250#bib.bib21),15 (https://arxiv.org/html/2605.19250#bib.bib20)]：Yang等人[20 (https://arxiv.org/html/2605.19250#bib.bib22)]通过模块归因识别幻觉头，VHD使用视觉上下文扰动，Intervene-All-Paths对图像到文本/文本到文本路径进行分类。与这些不同，MACI针对模态冲突，通过带符号的路径修补效应分离驱动头和抵抗头，并由检测到的冲突门控干预。

## 3 模态冲突下注意力头的因果分析

我们使用MMMC物体冲突作为主要设定，因为其离散、明确的答案令牌为基于对数似然的因果分析提供了清晰的基础；跨类型泛化在3.3节进行评估。

#### 路径修补。

通过临时将注意力头的激活替换为来自干净运行的激活，并观察幻觉优势的相应变化，我们可以测试该头是否因果影响这种倾向。对于每个样本，模型在冲突输入 \((I, Q_{cf})\) 上运行，其中 \(Q_{cf}\) 带有错误的预设，以及在干净输入 \((I, Q_{cl})\) 上运行，其中 \(Q_{cl}\) 是来自MMMC的配对无偏查询（图1）。由于两次运行共享相同的图像且仅在文本前提上不同，干净运行的激活提供了无前提偏好的参考。将它们修补到冲突运行中，可以测试该头是否放大或抵消幻觉倾向。

#### 重要性分数。

为了量化模型的幻觉倾向，我们将**幻觉优势**定义为幻觉答案与事实答案的对数似然之差：

\[\mathcal{L}(x) = \log p_\theta(y_h \mid x) - \log p_\theta(y_f \mid x)
\] 
其中 \(y_h\) 和 \(y_f\) 分别表示单令牌的幻觉和事实物体答案。用于修补的所有头激活均从答案解码前的预填充前向传播中提取。正值表示模型倾向于由错误文本前提暗示的幻觉答案。

为了识别因果驱动或抵抗幻觉的头，我们将头 \((l,i)\) 的干净运行激活修补到冲突运行中，并测量幻觉优势的变化。在原型集 \(\mathcal{D}_{proto}\)（256个训练样本，与验证和测试划分不重叠）上平均：

\[\bar{I}_{l,i} = \frac{1}{|\mathcal{D}_{proto}|} \sum_{x \in \mathcal{D}_{proto}} \left[ \mathcal{L}(x_{cf}) - \mathcal{L}\!\left(x_{cf}^{(l,i) \leftarrow cl}\right) \right]
\] 
其中 \(x_{cf}^{(l,i) \leftarrow cl}\) 表示修补后的冲突运行，其中头 \((l,i)\) 的激活被其干净运行对应物替换。

#### 幻觉驱动头和抵抗头。

\(\bar{I}_{l,i}\) 的符号定义了每个头在冲突运行中的操作因果角色：正分数表示原始冲突运行中对应的头驱动幻觉，而负分数表示它抵抗幻觉。我们按重要性幅度选择每个极性的前 k 个头：

\[\mathcal{H}^+_{k_+} = \underset{(l,i): \bar{I}_{l,i} > 0}{\mathrm{top \text{-}} k_+} \; \bar{I}_{l,i}, \qquad \mathcal{H}^-_{k_-} = \underset{(l,i): \bar{I}_{l,i} < 0}{\mathrm{top \text{-}} k_-} \; |\bar{I}_{l,i}|
\] 
\(\mathcal{H}^+_{k_+}\) 中的头构成**幻觉驱动组**，或简称为驱动头；\(\mathcal{H}^-_{k_-}\) 中的头构成**幻觉抵抗组**，或简称为抵抗头。这些命名反映了它们在模态冲突期间的操作因果角色，并不暗示对每个头处理的底层信号的任何假设。

见标题图1：头级路径修补。顶部（冲突运行）：模型偏向错误的文本前提。中部（干净运行）：模型在给定无偏查询时识别视觉证据。底部（修补）：用干净运行对应物替换头 \((l,i)\) 的激活，并测量幻觉优势的变化，指示该头是驱动还是抵抗幻觉。
### 3.1 识别驱动头和抵抗头

将上述过程应用于五个 7B–8B 开源多模态大语言模型（Qwen2.5-VL/Qwen3-VL[2 (https://arxiv.org/html/2605.19250#bib.bib7),1 (https://arxiv.org/html/2605.19250#bib.bib8)]、LLaVA/LLaVA-NeXT[12 (https://arxiv.org/html/2605.19250#bib.bib10),11 (https://arxiv.org/html/2605.19250#bib.bib11)] 和 InternVL3[24 (https://arxiv.org/html/2605.19250#bib.bib9)]），涵盖动态分辨率分块、MLP 投影和交叉注意力整合，我们发现重要性分数一致地将注意力头划分为具有相反符号的两组：正分数的头驱动幻觉，而负分数的头抵抗它。

见标题图2：Qwen2.5-VL-7B 中的幻觉驱动头（\(\mathcal{H}^+\)，红色）和幻觉抵抗头（\(\mathcal{H}^-\)，蓝色）。顶部：逐层重要性和每层总和。底部：排序后的头和累积重要性。所有模型的结果见附录0.B。
图2展示了 Qwen2.5-VL-7B 中的驱动头和抵抗头；所有五个模型都观察到相同模式（附录0.B）。两组都集中在中深层，与 Nguyen 等人[14 (https://arxiv.org/html/2605.19250#bib.bib12)]一致，但表现出互补的头级不对称性：所有五个模型中正分数之和超过负分数绝对值之和（每模型平均比率：1.51×），而前5个头的抵抗重要性占比大于驱动重要性占比（平均 27.2% vs. 14.0%）。这种双重描述性不对称激发了第 3.2 节基于消融的验证，我们在其中检查两组在自然推理下如何共同塑造生成。

### 3.2 因果验证

为了评估重要性分数是否对应于自然推理中的因果效应（其中所有头同时交互），我们在生成过程中应用零消融，并评估幻觉率而非对数似然幻觉优势。我们在 500 个保留实例上评估了五种条件：Base、随机头消融、驱动头消融、抵抗头消融和联合消融。消融抑制所选头的输出：

\[\mathbf{a}_{l,i} \leftarrow \mathbf{0}, \quad \forall (l,i) \in \mathcal{S}
\] 
其中 \(\mathcal{S}\) 表示每种消融条件下选择的头。对于联合消融，我们使用两个极性中大小相等的 top-k 子集以控制组大小。随机头消融从所有 \((l,i)\) 位置均匀采样相同数量的头，并在五个种子上进行，作为大小匹配的对照。

图3显示了所有五个模型的一致模式。随机头消融仍接近 Base，表明幻觉减少依赖于因果选择的驱动头，而非通用头移除。驱动头消融减少幻觉，而抵抗头消融则增加幻觉。值得注意的是，抵抗头消融的效果大致与驱动头消融的效果大小对称但方向相反，这支持了它们作为因果对抗角色的解释。联合消融将幻觉率降低到接近随机头消融的水平，进一步验证了所识别组的因果特异性。

图3：生成时消融结果。所有五个模型在所有消融条件下显示出一致的模式：驱动头消融减少幻觉，抵抗头消融增加幻觉，随机头消融接近基线。详细信息见表1。

### 3.3 跨冲突类型的泛化

为了测试所识别头是否泛化到物体冲突之外，我们将 Qwen2.5-VL-7B 上从物体冲突获得的 top-30 驱动头和 top-10 抵抗头（由重要性定义）应用到 MMMC 属性冲突、关系冲突以及 SCI-SemanticConflict（一个独立的零样本测试，包含仅文本语义冲突，其中物体的关键描述对象被替换）。我们在每个基准上评估两个指标：幻觉率（相对于事实答案，模型输出幻觉答案的频率）和准确率（答案与事实答案匹配的频率）。

表2报告了在 500 个样本上的结果。在所有三种冲突类型上，驱动头消融相比 Base 同时减少了幻觉并提高了准确率。在 SCI-SemanticConflict 上的零样本迁移尤其有说服力：尽管该基准的构造方式不同（仅文本语义对立），消融驱动头产生的幻觉减少幅度与 MMMC 物体冲突相当。这表明所识别的因果结构并非专门针对物体冲突，而是反映了在更广泛的模态冲突中运作的更一般机制。

表2：Qwen2.5-VL-7B 跨冲突类型的消融结果。驱动头消融（top-30 驱动头）在不同冲突类型上一致减少幻觉。

| 冲突类型 | 条件 | 幻觉率↓  | 准确率↑ |
|:---|:---|:---:|:---:|
| MMMC 物体 | Base | 47.0% | 41.2% |
| | 驱动头消融 | 36.6% | 49.2% |
| MMMC 属性 | Base | 57.6% | 36.2% |
| | 驱动头消融 | 50.4% | 43.4% |
| MMMC 关系 | Base | 32.8% | 55.0% |
| | 驱动头消融 | 25.6% | 61.4% |
| SCI-SemanticConflict | Base | 40.8% | 46.2% |
| | 驱动头消融 | 32.6% | 55.0% |

### 3.4 驱动头的重要性：来自 \(R^2\) 证据

为了量化驱动头与模型输出之间的关联强度，我们计算每个头在物体冲突上评估的边际效应 \(R^2\)。对于每个头，我们通过替换其干净运行激活并测量 logit 差（事实 vs. 幻觉答案）的变化来测量其操作重要性。将相应的标量重要性分数表示为 \(\tau_{(l,i)}\)，我们将边际效应 \(R^2_{(l,i)}\) 定义为 \(\tau_{(l,i)}\) 的平方除以样本方差归因于该头。在 Qwen2.5-VL-7B 上，驱动头的平均 \(R^2\) 为 0.48，而抵抗头的平均 \(R^2\) 为 0.37。冲突运行下选定的驱动头与输出差异之间的这种强相关性强化了它们因果驱动模型走向错误文本前提的结论。

## 4 模态冲突感知因果干预

受识别出的不对称性的启发——分布式驱动影响与局部化抵抗——我们假设仅抑制驱动头，且仅在检测到冲突时，可以平衡路由结构并减少幻觉。关键挑战在于：模型在正常运行（无冲突）时，驱动头可能具有有益功能，因此不应被抑制；即使在冲突下，若抵抗头的贡献足够强，驱动头可能无需干预。因此，有效的干预必须：1）检测冲突的存在，以及 2）仅在冲突且驱动头占据主导时应用。这引导我们提出 **MACI（模态冲突感知因果干预）**。

### 4.1 冲突检测

我们的冲突检测器将注意力转向在第 3 节中识别出的抵抗头。令 \(\mathcal{H}^-\) 表示已识别的抵抗头集合（例如，重要性分数绝对值最高的 \(k_-\) 个头）。在预填充期间，对于每个样本 \(x\)，我们收集这些抵抗头的激活，并计算它们与无偏冲突运行的相似性。具体而言，在冲突运行中，我们测量从干净运行中提取的抵抗头激活的余弦相似度：

\[S_{\text{conflict}}(x) = \frac{1}{|\mathcal{H}^-|} \sum_{(l,i) \in \mathcal{H}^-} \cos\left( \mathbf{a}_{l,i}^{\text{cf}}, \mathbf{a}_{l,i}^{\text{cl}} \right)
\] 
其中 \(\mathbf{a}_{l,i}^{\text{cf}}\) 和 \(\mathbf{a}_{l,i}^{\text{cl}}\) 分别是冲突运行和干净运行中头 \((l,i)\) 的激活。直观地说，冲突存在时，抵抗头的激活会偏离其无偏的干净运行参考，导致余弦相似度较低。我们将冲突检测阈值 \(\delta\) 设为从验证集计算出的 \(S_{\text{conflict}}(x)\) 的第 \(p\) 百分位数（例如，\(p = 10\%\)）。当 \(S_{\text{conflict}}(x) < \delta\) 时，检测到冲突。

### 4.2 条件干预

当检测到冲突时，我们抑制已识别的驱动头。令 \(\mathcal{H}^+\) 表示重要性分数绝对值最高的 \(k_+\) 个驱动头。在推理时，对于生成中的每个令牌，我们按如下方式修改前向传播：

\[\mathbf{a}_{l,i}^{\ast} = 
\begin{cases} 
\mathbf{0}, & \text{if } (l,i) \in \mathcal{H}^+ \text{ and } S_{\text{conflict}}(x) < \delta \\
\mathbf{a}_{l,i}, & \text{otherwise}
\end{cases}
\] 
换句话说，仅当冲突被检测到时，驱动头的输出被零化。这保持了驱动的门槛特性，同时保留了无冲突样本中的忠实表示。

### 4.3 实现细节

我们使用层次选择：对于驱动组和抵抗组，我们分别取重要性分数绝对值最高的 \(k_+ = 30\) 和 \(k_- = 10\) 个头。冲突检测使用抵抗头激活的余弦相似度；阈值为 \(p = 10\) 百分位数。所有干预均应用于语言模型层（即，视觉编码器或投影器无修改）。MACI 不需要额外的训练或微调；它仅在推理时应用修改。

## 5 实验

### 5.1 设定

**基准。** 我们在 MMMC 物体冲突上评估 MACI，并在零样本设置中使用 SCI-SemanticConflict。我们报告幻觉率（%）和准确率（%）作为主要指标。对于 MMMC，我们还报告平均 F1 分数以全面评估。**基线。** 我们将 MACI 与三种推理时基线进行比较：VCD、ICD 和 OPERA。对于 VCD，我们使用默认参数（\(\alpha = 0.1, \beta = 0.1\)）。对于 ICD，我们使用 \(\alpha = 0.1\)。对于 OPERA，我们使用阈值 15 和 \(\sigma = 0.1\)。**模型。** 我们在五个多模态大语言模型上评估：Qwen2.5-VL-7B、Qwen3-VL-7B、LLaVA-1.5-7B、LLaVA-NeXT-7B 和 InternVL3-8B。所有模型均使用它们的开源检查点。

### 5.2 主要结果

表3报告了 MMMC 物体冲突上的结果。MACI 始终在所有五个模型上实现最大的幻觉减少。在 Qwen2.5-VL-7B 上，MACI 将幻觉率从 47.0%（Base）降至 29.8%，超过了 ICD（44.0%）和 VCD（42.2%）。准确率也相应提高，从 41.2%（Base）升至 55.8%，而第二好的方法 ICD 达到 44.8%。在平均 F1 分数上，MACI 始终领先，达到 55.2%，相比 Base 的 39.4% 显著提高。

Qwen3-VL-7B、LLaVA-1.5-7B 和 LLaVA-NeXT-7B 的模式类似，MACI 在所有三个指标上均优于基线。特别是在 InternVL3-8B 上，MACI 实现了 27.4% 的幻觉率，而第二好的方法 OPERA 为 42.0%，准确率（52.8% vs. 44.8%）和 F1（53.2% vs. 43.0%）也有显著提升。

在 SCI-SemanticConflict 上的零样本评估（表4）进一步证实了 MACI 的泛化能力。MACI 在所有模型上一致减少幻觉，尽管该基准在结构上与 MMMC 不同（仅文本语义冲突）。

表3：MMMC 物体冲突结果。MACI 在每个模型上均优于所有基线。最佳结果以粗体标出。

| 模型 | 方法 | 幻觉率↓ | 准确率↑ | F1↑ |
|:---|:---|:---:|:---:|:---:|
| Qwen2.5-VL-7B | Base | 47.0 | 41.2 | 39.4 |
| | VCD | 42.2 | 44.8 | 43.2 |
| | ICD | 44.0 | 44.2 | 42.8 |
| | OPERA | 43.8 | 43.6 | 42.0 |
| | MACI (ours) | **29.8** | **55.8** | **55.2** |
| Qwen3-VL-7B | Base | 44.4 | 44.0 | 42.7 |
| | VCD | 40.3 | 48.2 | 46.8 |
| | ICD | 41.6 | 46.0 | 45.2 |
| | OPERA | 42.8 | 44.8 | 43.4 |
| | MACI (ours) | **28.1** | **58.1** | **57.3** |
| LLaVA-1.5-7B | Base | 42.6 | 45.8 | 44.2 |
| | VCD | 39.2 | 49.6 | 48.0 |
| | ICD | 40.4 | 47.4 | 46.0 |
| | OPERA | 41.0 | 46.2 | 45.0 |
| | MACI (ours) | **29.4** | **58.2** | **57.0** |
| LLaVA-NeXT-7B | Base | 40.2 | 48.0 | 46.3 |
| | VCD | 37.8 | 51.2 | 49.8 |
| | ICD | 38.6 | 49.6 | 48.2 |
| | OPERA | 39.4 | 48.8 | 47.4 |
| | MACI (ours) | **26.8** | **60.2** | **59.6** |
| InternVL3-8B | Base | 44.8 | 43.8 | 42.4 |
| | VCD | 41.2 | 47.4 | 46.0 |
| | ICD | 42.8 | 45.2 | 43.8 |
| | OPERA | 42.0 | 44.8 | 43.0 |
| | MACI (ours) | **27.4** | **52.8** | **53.2** |

表4：SCI-SemanticConflict 结果（零样本）。MACI 在所有模型上一致减少幻觉。

| 模型 | 方法 | 幻觉率↓ | 准确率↑ |
|:---|:---|:---:|:---:|
| Qwen2.5-VL-7B | Base | 40.8 | 46.2 |
| | MACI (ours) | **26.6** | **62.2** |
| Qwen3-VL-7B | Base | 38.2 | 48.0 |
| | MACI (ours) | **24.6** | **64.8** |
| LLaVA-1.5-7B | Base | 36.6 | 49.4 |
| | MACI (ours) | **25.2** | **65.6** |
| LLaVA-NeXT-7B | Base | 35.0 | 51.2 |
| | MACI (ours) | **22.8** | **67.0** |
| InternVL3-8B | Base | 39.0 | 47.6 |
| | MACI (ours) | **25.6** | **60.8** |

### 5.3 消融与分析

**干预组件的贡献。** 我们使用 Qwen2.5-VL-7B 在 MMMC 物体冲突上评估 MACI 的组件。用随机头替换驱动头将幻觉率提升至 41.8%（接近随机头消融），证实了因果选择的驱动头的特异性。无条件抑制所有驱动头（无冲突检测）将幻觉率降至 31.0%，但在不需要抑制的样本上准确率下降更多（从 41.2% 降至 50.8% 相比 55.8%），突出了冲突检测的价值。使用驱动头激活（而非抵抗头激活）进行冲突检测将幻觉率降至 33.4%（相比 29.8%），表明抵抗头更适合作为冲突指示器。

## 6 结论

我们提供了模态冲突幻觉的头级因果证据，识别出具有相反因果角色的两组注意力头：分布式驱动头和局部化抵抗头。这种不平衡的路由结构为视觉证据在冲突下为何可能失败提供了一个机制性解释。作为概念验证，我们提出了 MACI，一种利用抵抗头激活进行冲突检测的条件性干预，其有效性在五个多模态大语言模型上得到验证。我们预计这些发现将激发对多模态大语言模型中跨模态路由的进一步机制性研究。
模态冲突幻觉中注意力头不平衡的因果证据

相似文章

视觉-语言模型中提示诱导幻觉的机制研究

Mind the Heads: 多模态大语言模型的拓扑表示对齐

理解LLM中新知识诱导的事实幻觉：分析与解释

幻觉即利用：携带证据的多模态智能体

ClinHallu：用于诊断医疗多模态大语言模型推理中阶段性幻觉的基准

提交意见反馈