幻觉作为正交噪声:通过动态上下文正交化实现推理时流形对齐

arXiv cs.CL 论文

摘要

本文提出动态上下文正交化(DCO),一种推理时方法,通过将注意力头输出与上下文流形对齐来减少大型语言模型中的幻觉,在Llama-3模型的基准测试中实现了更优的忠实度。

arXiv:2606.03022v1 Announce Type: new 摘要:大型语言模型(LLMs)中的幻觉——即生成与上下文事实或逻辑约束不一致的内容——仍然是其可靠部署面临的一个持续挑战。本文通过基于线性表示假设的几何框架来解决这一问题。我们提出幻觉表现为相对于残差流语义流形的正交噪声。具体而言,我们假设:理想情况下,注意力头传播的信息与上下文子空间一致,而幻觉则源于特定注意力头引入了与该子空间正交的成分,破坏了潜在表征的一致性。基于这一表述,我们提出动态上下文正交化(DCO),一种推理时干预方法。DCO利用输入残差流作为动态上下文锚点,对注意力头输出进行正交分解。为了区分与上下文对齐的语义更新和发散噪声,DCO采用逐层Z分数抑制机制,根据统计分布选择性地衰减异常正交成分。在Llama-3-8B和70B模型上对XSum、NQ-Swap和IFEval等基准的评估表明,与最先进的干预基线相比,DCO实现了更优的上下文忠实度。此外,DCO在TriviaQA和TruthfulQA等知识密集型任务上保持了高性能,有效缓解了现有方法中常见的幻觉抑制与参数知识保留之间的权衡。我们的研究结果验证了幻觉的几何解释,并将DCO确立为一种计算高效的流形对齐方法。我们的代码已在https://github.com/Harry-Miral/DCO开源。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:36

# 幻觉作为正交噪声:通过动态上下文正交化的推理时流形对齐
来源:https://arxiv.org/html/2606.03022
赵明宽¹,胡文涛¹,²¹¹footnotemark:¹,黄天辰⁴,闵羽恒⁵,陈素全¹,高以德¹,翟彦博¹,宋双勇²,李雪龙³ ¹西安交通大学,²星辰AGI实验室,中国电信人工智能科技(北京)有限公司,³中国电信人工智能研究院,⁴中国科学技术大学,⁵清华大学 \{mingkuanzhao, wentao\_hu, yanbozhai, suquanchen, yidegao\}@stu\.xjtu\.edu\.cn, tchuang@mail\.ustc\.edu\.cn, minyh24@mails\.tsinghua\.edu\.cn, songshy@chinatelecom\.cn, xuelong\_li@ieee\.org

###### 摘要

大型语言模型(LLM)中的幻觉——其生成内容与上下文事实或逻辑约束不一致的现象——仍然是可靠部署面临的持续挑战。在这项工作中,我们通过一个根植于线性表示假设的几何框架来解决这个问题。我们提出,幻觉表现为相对于残差流语义流形的**正交噪声**。具体来说,我们假设,虽然注意力头理想情况下会传播与上下文子空间一致的信息,但幻觉产生于特定头引入了与该子空间正交的分量,从而破坏了潜在表示的连贯性。

基于这一表述,我们引入了**动态上下文正交化**(DCO),一种推理时的干预方法。DCO利用输入残差流作为动态上下文锚点,对注意力头输出执行正交分解。为了区分与上下文对齐的语义更新和发散性噪声,DCO采用一种逐层Z分数抑制机制,该机制根据统计分布选择性地衰减离群的正交分量。

在XSum、NQ-Swap和IFEval等基准测试上对Llama-3-8B和70B进行的评估表明,与最先进的干预基线相比,DCO实现了更优的上下文忠实度。此外,DCO在TriviaQA和TruthfulQA等知识密集型任务上保持了高性能,有效缓解了现有方法中常见的幻觉抑制与参数知识保留之间的权衡。我们的发现验证了幻觉的几何解释,并确立了DCO作为一种计算高效的方法来强制实现流形对齐。我们的代码可在https://github.com/Harry-Miral/DCO获取。

## 1 引言

大型语言模型(LLM)在关键领域的部署受到幻觉持续存在的阻碍,即生成内容偏离上下文事实或逻辑约束。虽然当前的缓解策略(如检索增强生成(RAG)或对比解码)能有效调节输出概率,但它们通常缺乏对内部表示动态的机制性视角。我们认为,幻觉不仅仅是表面的统计异常,而是模型潜在空间内的几何错位表现,特别是在模型处理冲突或模糊上下文时。

本研究通过**线性表示假设**(Park等人,2024 (https://arxiv.org/html/2606.03022#bib.bib28))来探讨幻觉问题,该假设认为语义概念在高维空间中编码为线性方向(Gurnee和Tegmark,2024 (https://arxiv.org/html/2606.03022#bib.bib9))。在此框架下,我们将生成的忠实度形式化为一个流形对齐任务。理想情况下,注意力头应传播与上下文定义的子空间平行的信息。我们假设幻觉源于**正交噪声注入**——一种特定注意力头引入与已建立上下文流形正交的分量的现象,从而引导潜在状态演化偏离事实轨迹。

关于图例说明图1:动态上下文正交化(DCO)的概念几何。一个产生幻觉的注意力头输出向量 \(\mathbf{o}_h\) 偏离了上下文语义流形 \(\mathcal{M}\)。DCO将 \(\mathbf{o}_h\) 分解为与上下文对齐的共振分量 \(\mathbf{o}_{h\parallel}\) 和正交噪声分量 \(\mathbf{o}_{h\perp}\)。通过基于逐层统计分布动态衰减 \(\mathbf{o}_{h\perp}\),DCO将潜在表示重新对齐到已建立的流形。基于这一几何表述,我们引入了**动态上下文正交化**(DCO),一种推理时的干预方法。与应用固定方向的静态引导向量不同,DCO利用每层输入的残差流作为动态**上下文锚点**。该方法对注意力头输出执行正交分解,以隔离偏离全局语义共识的分量。关键在于,为了区分必要的信息多样化和有害的噪声,DCO采用了一种逐层**Z分数**抑制机制。这种自适应滤波源于以下观察:幻觉信号表现为正交性分布中的统计离群点,因此需要动态而非静态的阈值,以保持模型参数知识检索的能力。

我们在Llama-3-8B和70B模型上对DCO进行了评估,涵盖多种基准测试。实验结果表明,与最先进的干预方法(包括推理时干预(ITI)和层间对比解码(DoLa))相比,DCO取得了更优的性能。具体来说,DCO在XSum和IFEval上显著增强了上下文忠实度,同时在TriviaQA和MuSiQue等知识密集型任务上保持了稳健性。这些发现表明,在残差流中强制实施几何约束提供了一种计算高效且机制上有据可依的幻觉缓解方法,实现了忠实度与通用能力之间的最佳权衡。

## 2 相关工作

关于图例说明图2:干预范式的机制比较。(A) 静态干预 (ITI):注入从离线探测中推导出的固定引导向量,对残差流施加无差别的方向性,无论上下文如何。(B) 对数对比 (DoLa/CAD):在输出层操作,从成熟层对数中减去过早/业余对数,增强了清晰度,但未能纠正内部表示动态。(C) 几何对齐 (DCO, 我们的方法):在潜在空间内执行动态干预。它将幻觉视为偏离上下文流形 \(\mathcal{M}\) 的正交噪声分量 \(\mathbf{o}_{h\perp}\),并将注意力输出 \(\mathbf{o}_{h}\) 投影到有效的语义子空间 \(\mathbf{o}_{h\parallel}\) 上。

#### 幻觉的机制可解释性。

理解Transformer模型的计算基础对于诊断生成失败至关重要。基于将残差流视为由独立注意力头调制的通信通道的观点(Dar等人,2023 (https://arxiv.org/html/2606.03022#bib.bib3)),机制可解释性已识别出控制信息流动的特定组件。主要发现包括归纳头(Olsson等人,2022 (https://arxiv.org/html/2606.03022#bib.bib27))和从长上下文中提取事实内容的“检索头”(Wu等人,2024 (https://arxiv.org/html/2606.03022#bib.bib33))的特征描述。此外,关于知识定位的研究(Meng等人,2022 (https://arxiv.org/html/2606.03022#bib.bib24);Geva等人,2023 (https://arxiv.org/html/2606.03022#bib.bib7))阐明了事实关联如何通过MLP层和注意力机制之间的相互作用进行检索。Nanda等人(2023 (https://arxiv.org/html/2606.03022#bib.bib25))和Yu等人(2024 (https://arxiv.org/html/2606.03022#bib.bib36))的最新工作进一步区分了作为幻觉不同原因的早期层知识缺口和上层检索失败。与此互补,Zhao等人(2025b (https://arxiv.org/html/2606.03022#bib.bib39))证明注意力头表现出异质性重要性,表明可以在不牺牲速度-性能权衡的情况下强制实施稀疏注意力模式——这一观察支持了我们关于在幻觉噪声背景下注意力头差异性行为的假设。我们的工作将这些洞见付诸实践,将对注意力头动态的理论理解转化为残差流内部的直接干预方法。

#### 推理时幻觉缓解。

已经开发了各种无训练的解码策略,在推理过程中进行干预。诸如对比解码(CD)(Li等人,2023 (https://arxiv.org/html/2606.03022#bib.bib18))及其变体,包括DoLa(Chuang等人,2023 (https://arxiv.org/html/2606.03022#bib.bib2))和自动对比解码(Gera等人,2023 (https://arxiv.org/html/2606.03022#bib.bib6)),通过对比模型层或规模之间的分布来调整下一个词元的概率。特别针对上下文忠实度,Shi等人(2024 (https://arxiv.org/html/2606.03022#bib.bib29))提出了上下文感知解码(CAD)以放大基于证据的对数,而Chen等人(2024 (https://arxiv.org/html/2606.03022#bib.bib1))则利用上下文内的清晰度作为检测信号。更近期,Gema等人(2024 (https://arxiv.org/html/2606.03022#bib.bib5))引入了DeCoRe,基于静态重要性分数屏蔽检索头。关键在于,这些方法主要作用于输出对数级别或采用静态干预(如图2 (https://arxiv.org/html/2606.03022#S2.F2)所示)。相比之下,在线性表示假设(Park等人,2024 (https://arxiv.org/html/2606.03022#bib.bib28);Hernandez等人,2024 (https://arxiv.org/html/2606.03022#bib.bib11))的指导下,DCO实现了一种**动态**正交化机制。与使用从离线探测中推导出的固定引导向量的推理时干预(ITI)(Li等人,2024a (https://arxiv.org/html/2606.03022#bib.bib15))不同,DCO基于每个步骤残差流的瞬时几何动态校准干预。

#### 关于语义一致性的几何视角。

我们将生成忠实度概念化为一个流形对齐问题。在涉及知识冲突或长程依赖的上下文中,参数化记忆常常干扰上下文提取(Longpre等人,2021 (https://arxiv.org/html/2606.03022#bib.bib23);Liu等人,2024 (https://arxiv.org/html/2606.03022#bib.bib21))。虽然表示工程(Zou等人,2025 (https://arxiv.org/html/2606.03022#bib.bib41))展示了自上而下线性控制的效用,但将幻觉视为正交干扰的几何解释仍探索不足。DCO通过将事实一致性——通过诸如FactKB(Feng等人,2023 (https://arxiv.org/html/2606.03022#bib.bib4))等指标评估——重新表述为正交噪声的过滤来解决这个问题。通过将在XSum(Narayan等人,2018 (https://arxiv.org/html/2606.03022#bib.bib26))等摘要基准测试中识别的挑战整合到此框架中,我们提供了一种统一的几何方法,在抑制噪声的同时保持模型完整性,为基于概率的修正提供了一种机制性替代方案。

#### 大型语言模型开发与下游应用。

LLM的快速扩展,例如双语模型系列TeleChat(He等人,2024 (https://arxiv.org/html/2606.03022#bib.bib10);Wang等人,2024 (https://arxiv.org/html/2606.03022#bib.bib31))及其后续版本TeleChat2和TeleChat2.5(Wang等人,2025 (https://arxiv.org/html/2606.03022#bib.bib32)),以及混合专家架构TeleChat3-MoE(Liu等人,2025 (https://arxiv.org/html/2606.03022#bib.bib22)),突显了已部署语言系统日益增加的复杂性和多样性。类似地,Tele-FLM系列(Li等人,2024c (https://arxiv.org/html/2606.03022#bib.bib17), b (https://arxiv.org/html/2606.03022#bib.bib16))展示了从数十亿扩展到数千亿参数时学到的经验教训。在这些架构中,幻觉仍然是关键的可信度瓶颈。这一挑战在高风险的下游应用中尤为突出,包括数学推理(Zhao等人,2025a (https://arxiv.org/html/2606.03022#bib.bib38))、结构化表格推理(Xiong等人,2025 (https://arxiv.org/html/2606.03022#bib.bib35))、过程奖励引导的结构化数据构建(Xing等人,2025 (https://arxiv.org/html/2606.03022#bib.bib34))以及通过强化学习进行的通用信息提取(Li等人,2025 (https://arxiv.org/html/2606.03022#bib.bib19)),在这些应用中,事实偏差会带来直接后果。此外,模型压缩研究(例如针对混合专家模型的Mosaic Pruning(Hu等人,2025 (https://arxiv.org/html/2606.03022#bib.bib12)))强调了在效率约束下保持表示完整性的必要性——这一关切与无幻觉生成密切相关。我们的工作通过一种无训练的几何干预来解决这一基础性的可信度差距,提供了一种原则性解决方案,广泛适用于上述部署场景。

## 3 方法

DCO干预的计算架构如图3 (https://arxiv.org/html/2606.03022#S3.F3)所示。动态上下文正交化(DCO)的机制通过应用线性投影算子来约束推理过程中潜在表示的状态演化。此操作针对层 \(L\) 中多头注意力(MHA)模块的输出,其中单独注意力头产生的向量被正交分解,以识别并衰减那些与上下文语义流形表现出统计显著偏差的分量。

### 3.1 上下文锚点构建

初始阶段涉及构建一个上下文锚点 \(\mathbf{c}\),它在当前逻辑步骤定量地定义了语义一致性的方向。我们认为,层 \(L\) 的输入残差流 \(\mathbf{x}_{in}^L \in \mathbb{R}^{d_{model}}\) 代表了从到层 \(L-1\) 为止处理的上下文中累积的语义共识。为了关注方向对齐而非幅度,我们对残差向量应用均方根归一化(RMSNorm)。归一化后的上下文锚点定义为:

\[
\mathbf{c} = \frac{\text{RMSNorm}(\mathbf{x}_{in}^L)}{\|\text{RMSNorm}(\mathbf{x}_{in}^L)\|_2 + \epsilon}
\tag{1}
\]

其中 \(\epsilon\) 是一个小的稳定性常数。从几何上看,\(\mathbf{c}\) 作为潜在空间超球面上的参考单位向量,描绘了进行中生成过程的主要方向。

关于图例说明图 3:动态上下文正交化(DCO)的机制流程。该过程首先从输入残差流 \(\mathbf{x}_{in}^L\) 推导出上下文锚点 \(\mathbf{c}\)。然后,每个注意力头输出 \(\mathbf{o}_h\) 被正交分解为一个上下文

相似文章

RAGognizer:通过检测头集成实现幻觉感知微调

arXiv cs.CL

RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。

将幻觉视为异常:通过概率电路进行动态干预

arXiv cs.CL

本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。

HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL

北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。

基于开权重代理分析器激活的幻觉检测

arXiv cs.CL

本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。

修正影响:利用正交潜在空间解构LLM输出

arXiv cs.LG

本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。