面向NMT与抽象式摘要中幻觉检测的逐层最优传输
摘要
本文将对基于最优传输的幻觉检测扩展到NMT和抽象式摘要中的所有解码器层,发现检测主要集中在早期层,并且由于忠实性失败无法通过注意力集中检测到,几何信号在摘要任务中迁移效果不佳。
arXiv:2606.13216v1 公告类型:新
摘要:最优传输(OT)已被证明可以通过测量交叉注意力分布与参考分布之间的几何距离来检测神经机器翻译(NMT)中的幻觉,且无需任何监督。我们将此分析扩展到Fairseq DE-EN模型($N=3{,}414$)的所有六个解码器层,表明Wass-to-Unif和Wass-to-Data是互补的检测器,分别针对不同类型的幻觉;检测集中在L1–L4层,而L5层对较细微的幻觉类型具有反预测性;并且幻觉翻译缺乏正确翻译从第一步解码开始就存在的探索性注意力阶段。我们进一步评估了几何信号是否能迁移到抽象式摘要忠实性检测中:我们在AggreFact($N=1{,}116$)上的无监督OT检测器在CNN/XSum上达到了$57.2\%$/$57.6\%$的平衡准确率——高于随机水平,但远低于有监督的MiniCheck-Flan-T5-L($69.9\%$/$74.3\%$)。这种差距是原则性的:与NMT幻觉不同,不忠实的摘要可以正确注意源标记,同时歪曲其内容,这种失败模式从构造上来说是基于集中度的OT指标无法检测的。对T5-base的结构实验证实了解码器在不同深度上的一致性组织,其中第3层显示出最高的集中度,而第12层对生成质量最为关键。综上所述,这些结果表明,当失败模式是源脱离时,交叉注意力上的OT是一种可靠的检测器,无论任务如何,它都是一个原则性的可解释性工具,但当忠实性失败发生在注意力下游时,它从根本上受到限制。
查看缓存全文
缓存时间: 2026/06/12 08:51
# 层解析最优传输在神经机器翻译与抽象式摘要中的幻觉检测
来源:https://arxiv.org/html/2606.13216
###### 摘要
最优传输(OT)已被证明可以通过测量交叉注意力分布与参考分布之间的几何距离来检测神经机器翻译(NMT)中的幻觉,而无需任何监督(Guerreiro et al., 2023 (https://arxiv.org/html/2606.13216#bib.bib1))。我们将此分析扩展到 Fairseq DE-EN 模型的所有六个解码器层(N=3,414),表明 Wasserstein-to-Uniform (Wass-to-Unif) 和 Wasserstein-to-Data (Wass-to-Data) 是针对不同幻觉类型的互补检测器,检测能力集中在 L1-L4 层,而 L5 层对较细微的幻觉类型具有反预测性,并且幻觉翻译在第一个解码步骤后缺乏正确翻译所具有的探索性注意力阶段。我们进一步评估了这种几何信号是否能迁移到抽象式摘要的忠实度检测中:我们在 AggreFact(Tang et al., 2023 (https://arxiv.org/html/2606.13216#bib.bib2))数据集(N=1,116)上的无监督 OT 检测器在 CNN/XSum 上达到 57.2%/57.6% 的平衡准确率——高于随机水平,但明显低于有监督的 MiniCheck-Flan-T5-L(Tang et al., 2024 (https://arxiv.org/html/2606.13216#bib.bib3))(69.9%/74.3%)。这种差距是结构性的:与 NMT 幻觉不同,不忠实的摘要可以正确关注源端标记,但同时歪曲其内容,这种失败模式在基于集中度的 OT 指标设计上无法被检测到。在 T5-base(Raffel et al., 2020 (https://arxiv.org/html/2606.13216#bib.bib4))上的结构性实验确认了解码器在深度上具有一致的组织,其中第 3 层表现出最高的集中度,第 12 层对生成质量最为关键。综合来看,这些结果确立了:当失败模式是源端脱离时,基于交叉注意力的 OT 是一种可靠的检测器;无论任务如何,它都是一种原则性的可解释性工具;而当忠实度失败发生在注意力下游时,其能力受到根本性的限制。
最优传输,幻觉检测,神经机器翻译,抽象式摘要,交叉注意力分析
## 1 引言
Transformer 模型(Vaswani et al., 2017 (https://arxiv.org/html/2606.13216#bib.bib5))在抽象式摘要中取得了强劲的性能,但其内部注意力机制仍然鲜为人知。一个实际问题是忠实度:模型可能生成流畅但事实上与源文本不一致的摘要,这种失败模式与神经机器翻译(NMT)中的幻觉密切相关。近年来的工作(Maynez et al., 2020 (https://arxiv.org/html/2606.13216#bib.bib6); Kryściński et al., 2020 (https://arxiv.org/html/2606.13216#bib.bib7))表明,即使是最先进的摘要系统,忠实度失败也普遍存在。
Guerreiro 等人(2023 (https://arxiv.org/html/2606.13216#bib.bib1))证明,NMT 中的幻觉会产生几何上脱离源文本的交叉注意力分布,并且这种脱离可以通过 Wasserstein-1 (W1) 距离进行测量。他们完全无监督的检测器优于所有先前的基于模型的方法,并且与经过数百万样本训练的外部模型(用于质量估计和跨语言句子相似度)相竞争。然而,他们的分析基于最后一个解码器层的单一聚合注意力分布,留下了如下问题:幻觉信号如何分布在各个层之间、不同幻觉类型如何与不同的检测器相关联、以及几何直觉是否能超越 NMT 进行迁移。
我们解决了这两个开放问题。首先,我们将原始的 NMT 分析扩展到 Fairseq DE-EN 模型的所有六个解码器层,引入了路由一致性作为一个额外的检测器,并刻画了每种幻觉类型的层解析几何特性。其次,我们询问几何信号是否能迁移到抽象式摘要的忠实度检测中,使用 T5 架构(Raffel et al., 2020 (https://arxiv.org/html/2606.13216#bib.bib4))作为测试平台,并在 AggreFact 基准(Tang et al., 2023 (https://arxiv.org/html/2606.13216#bib.bib2))上进行评估。
我们的贡献如下:
1. 1. 对 Guerreiro 等人(2023 (https://arxiv.org/html/2606.13216#bib.bib1))的 Fairseq DE-EN 幻觉语料库进行了层解析分析,将其聚合的最后一层结果扩展到所有六个解码器层,并引入了路由一致性作为额外的无监督检测器。我们表明,Wass-to-Unif 和 Wass-to-Data 是针对不同幻觉类型的互补检测器,检测性能集中在 L1-L4 层,并且幻觉翻译在第一个解码步骤后缺乏正确翻译所具有的探索性注意力阶段。
2. 2. 首次将基于 OT 的幻觉检测应用于抽象式摘要,在 AggreFact 基准(Tang et al., 2023 (https://arxiv.org/html/2606.13216#bib.bib2))上与包括 MiniCheck(Tang et al., 2024 (https://arxiv.org/html/2606.13216#bib.bib3))在内的有监督基线进行了比较评估。
3. 3. 从理论上解释了 NMT 到摘要迁移为何是部分的,将经验差距归因于检索失败与内容误用的区别,并根据在 NMT 幻觉类型中观察到的可检测性梯度进行了校准。
4. 4. 通过 OT 指标对 T5-base 所有 12 个解码器层的交叉注意力几何结构进行了结构性分析,揭示了通过留一法消融证实的一致架构组织,并且与 Fairseq 模型中识别的层结构趋同。
## 2 背景
### 2.1 基于 OT 的 NMT 幻觉检测
给定两个离散概率分布 μ 和 ν,定义在位置 {1,…,S} 上,Wasserstein-1 距离定义为:
W1(μ,ν) = inf_{γ∈Γ(μ,ν)} ∫_{ℝ×ℝ} |x−y| dγ(x,y),
其中 Γ(μ,ν) 是所有边际为 μ 和 ν 的联合分布(传输计划)的集合,|x−y| 是标记位置上的基础度量。直观上,W1 衡量将一个分布重新排列为另一个分布所需的最小“功”,这使得它对注意力质量的空间结构敏感,而基于熵的度量则无法做到这一点。对于一维网格上的离散分布,W1 简化为累积分布函数之间的面积,从而能够高效精确计算(Peyré and Cuturi, 2019 (https://arxiv.org/html/2606.13216#bib.bib8))。
Guerreiro 等人(2023 (https://arxiv.org/html/2606.13216#bib.bib1))提出将每个交叉注意力分布视为源位置上的概率测度空间中的一个点,并利用它到均匀分布 u=(1/S,…,1/S)⊤ 的 W1 距离来衡量集中度:
c^{(ℓ,t)} = W1(π^{(ℓ,t)}, u),
其中 π^{(ℓ,t)} 是解码器层 ℓ 和生成步骤 t 上的头平均交叉注意力分布。低集中度——注意力质量均匀分布在源位置上——表示潜在的幻觉。他们的每个样本分数将此信号聚合为 c^{(ℓ,t)} 的层中位数均值,他们的 Wass-to-Unif (WTU) 和 Wass-to-Data (WTD) 检测器是互补的:WTU 捕捉绝对集中度,而 WTD 衡量与一组已确认正确的翻译的参考集合的分布相似性。
### 2.2 摘要中的忠实度
抽象式摘要中的忠实度失败与 NMT 幻觉有根本不同(Maynez et al., 2020 (https://arxiv.org/html/2606.13216#bib.bib6))。Maynez 等人 (2020) 区分了*内在*幻觉(生成的内容与源文本矛盾)和*外在*幻觉(内容无法从源文本中验证)。NMT 幻觉主要是内在的且严重——解码器几乎完全忽略源内容。抽象式摘要的失败往往是外在的:模型正确关注源标记,但推断或扭曲超出了证据所允许的范围。这一区别对于理解 OT 迁移为何是部分的核心:在 NMT 中有效的信号(源端脱离)根本不是抽象式摘要中的主要失败模式。
### 2.3 注意力作为可解释性信号
编码器-解码器 Transformer 中的交叉注意力分布已被用作源-目标对齐的代理(Vaswani et al., 2017 (https://arxiv.org/html/2606.13216#bib.bib5))。最近,机制可解释性工作已识别了解码器层之间的功能专业化。OT 通过注意力分布的几何性质提供了一种原则性的、无标签的方式来刻画这种结构,而不需要探针分类器或任务特定的监督。
## 3 方法
### 3.1 注意力提取
对于每个源-输出对,我们从解码器提取完整的交叉注意力张量。对于层 ℓ 和生成步骤 t,原始张量的形状为 (H, T_tgt, S),其中 H 是头数,T_tgt 是输出长度,S 是源长度。我们对头进行平均:
π^{(ℓ,t)} = (1/H) ∑_{h=1}^H α^{(h,ℓ,t)} ∈ Δ^{S-1},
遵循 Guerreiro 等人 (2023 (https://arxiv.org/html/2606.13216#bib.bib1))。
### 3.2 OT 指标
#### Wass-to-Unif (WTU).
每层集中度分数是所有解码步骤上到均匀分布的 W1 距离的均值:
s_{WTU}^{(ℓ)} = (1/T) ∑_{t=1}^T W1(π^{(ℓ,t)}, u).
每样本的聚合分数对层进行平均:低分数表示潜在的幻觉。
#### Step-to-step OT.
为了衡量解码器在生成过程中如何动态地重新定位其源注意力,我们计算每个层内连续步骤间的注意力分布的 W1 距离:
[S]_{ℓ,t} = W1(π^{(ℓ,t)}, π^{(ℓ,t+1)}), t=1,…,T-1.
每层平均 step-OT 总结了平均注意力偏移。动态扫描源文本的模型会产生高 step-OT;锁定在固定位置的模型则产生低 step-OT。
#### Layer-pairwise OT.
为了表征跨解码器深度的路由相似性,我们计算每对层之间步骤平均注意力分布的 W1 距离:
[D]_{ℓ,ℓ‘} = W1(π̄^{(ℓ)}, π̄^{(ℓ’)}), π̄^{(ℓ)} = (1/T) ∑_{t=1}^T π^{(ℓ,t)},
产生一个对称的 L×L 距离矩阵。低 [D]_{ℓ,ℓ‘} 表示两个层平均关注相似的源位置;高值表示功能上不同的路由。
#### Wass-to-Data (WTD).
对于每个测试句子,我们从一组已确认正确的句子参考集中检索 k=4 个最近邻(通过长度接近度 δ=0.1 进行过滤),并计算它们步骤平均注意力分布的均值 W1 距离。
#### Routing Consistency (RC).
令 ĵ^{(ℓ,t)} = argmax_j α_j^{(ℓ,t)} 为步骤 t 的 argmax 源位置。层 ℓ 的路由熵为 H(ℓ) = −∑_j p̂_j^{(ℓ)} log p̂_j^{(ℓ)},其中 p̂_j^{(ℓ)} = T^{-1} ∑_t 1[ĵ^{(ℓ,t)}=j]。每个样本的 RC 分数为 −L^{-1} ∑_ℓ H(ℓ),取负值以便更高值对应更一致、更集中的路由。RC 捕捉注意力几何的互补方面:不是分布有多集中,而是解码器在步骤之间返回到同一源位置的一致性。
所有 W1 距离均通过 CDF 公式精确计算(Peyré and Cuturi, 2019 (https://arxiv.org/html/2606.13216#bib.bib8)),避免了 Sinkhorn 正则化误差。
### 3.3 数据集
#### NMT (Fairseq DE-EN).
我们使用 Guerreiro 等人 (2023 (https://arxiv.org/html/2606.13216#bib.bib1) 的标注语料库:3,414 个 DE→EN 翻译,带有五个幻觉类别的二元标签。根据他们的分类法,我们将幻觉组定义为任何完全无支持(129 个)、强烈无支持(164 个)或重复(87 个)标签为阳性的句子——共 324 个幻觉句子——将已确认正确组定义为所有五个标签列为零的 2,882 个句子。
#### 摘要 (AggreFact).
我们在 AggreFact 基准(Tang et al., 2023 (https://arxiv.org/html/2606.13216#bib.bib2))上评估,使用 CNN/DailyMail (N=558) 和 XSum (N=558) 的测试集。主要的有监督基线是 MiniCheck-Flan-T5-L111https://huggingface.co/lytang/MiniCheck-Flan-T5-Large(0.8B 参数),在 CNN/XSum 上达到 69.9%/74.3% 的平衡准确率。平衡准确率(BAcc),即灵敏度和特异度的算术平均值,作为主要指标以考虑类别不平衡(CNN:89.8% 忠实)。结构性实验使用 T5-base222https://huggingface.co/google-t5/t5-base(浓度剖析使用 N=100 个 CNN/DailyMail 示例;质量组比较使用 N=50 个示例)。
## 4 实验 I:重新审视翻译
### 4.1 层结构与浓度剖面
图 1 (https://arxiv.org/html/2606.13216#S4.F1) 显示了所有 3,414 个句子的平均成对 W1 距离矩阵 D。该矩阵揭示了三个不同的功能区域。L0 与所有其他层距离适中,与任何特定组都没有显著亲和力。L1 充当过渡层:它的行在 L0 和中心块方向上都较暗,表明它同时与两个邻居共享路由行为,而不是干净地属于其中一个。L2-L4 形成一个紧密的聚类,它们之间的成对距离远低于与其他任何层的距离,表明共享的或功能冗余的源路由行为。最后,L5 在结构上是孤立的:整个矩阵中的最大成对距离出现在 L2 和 L5 之间(平均 W1 ≈ 0.13,黄色单元),并且 L5 行的每个条目都明显比 L2-L4 块的内部更亮。这与 L5 作为最终解码器层的角色一致,它必须在生成之前立即承诺特定的源标记,因此实现了与前面层定性不同的路由。
参见说明 图 1:所有 3,414 个句子(Fairseq DE-EN)的平均成对 W1 距离矩阵 D。可见三个功能区域:L0(过渡性)、L1-L4(紧密聚类,L1 为与 L0 的桥梁)、L5(孤立;与 L2 的最大距离 ≈ 0.13)。
图 2 (https://arxiv.org/html/2606.13216#S4.F2) 显示了每层的平均浓度 s_{WTU}^{(ℓ)}。该剖面大致为单峰模式。相似文章
幻觉检测引导的临床摘要偏好优化
介绍了HDSR和HDSR-PL方法,这些方法使用幻觉检测器来指导迭代自我改进和偏好学习,在MIMIC-IV-Note上使用Llama和Gemma模型进行临床摘要时,幻觉减少高达48%。
关注未见质量:通过软混合字母估计揭示 LLM 幻觉
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
幻觉检测中的自动层选择
本文提出了用于大语言模型幻觉检测的自动层选择方法,并引入了固有维度首个有效峰值(FEPoID),这是一种无需训练的标准,能够一致地识别出最优中间层,优于现有启发式方法。
从架构到输出:大型语言模型中幻觉的结构根源及数据的放大作用
本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。