HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL 论文

摘要

北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。

arXiv:2604.16430v1 Announce Type: new 摘要:大型语言模型(LLM)功能强大且已被广泛应用,但其实际效能常受制于广为人知的幻觉问题。尽管近期的幻觉检测方法已取得显著进展,但我们发现多数方法仍忽略了其动态演化特性及底层机制。为弥补这一空白,我们提出了HalluSAE。这是一种受相变理论启发的框架,将幻觉建模为模型潜在动力学中的关键突变。通过将生成过程映射为穿越势能地形的轨迹,HalluSAE能够识别关键的临界过渡区域,并将事实性错误归因于特定的高能量稀疏特征。我们的方法包含三个阶段:(1)基于稀疏自编码器与几何势能度量的势能驱动相位区定位;(2)利用对比Logit归因进行幻觉相关稀疏特征归因;(3)通过对解耦特征进行线性探针分析以实现因果幻觉检测。在Gemma-2-9B上的大量实验表明,HalluSAE达到了目前最先进的幻觉检测性能。
查看原文
查看缓存全文

缓存时间: 2026/04/21 07:02

# HalluSAE: Detecting Hallucinations in Large Language Models via Sparse Auto-Encoders Source: https://arxiv.org/html/2604.16430

###### 摘要
大语言模型(LLMs)功能强大且已被广泛部署,但众所周知的“幻觉”现象严重限制了其实际应用价值。尽管近期的幻觉检测方法已取得显著进展,但我们发现多数方法忽视了幻觉的动态特性及其底层作用机制。为弥补这一空白,我们提出 HalluSAE,这是一种受相变理论启发的框架,将幻觉建模为模型潜在动态中的临界转变。通过将生成过程抽象为穿越势能景观的轨迹,HalluSAE 能够识别关键过渡区域,并将事实错误归因于特定的高能量稀疏特征。我们的方法包含三个阶段:(1)基于稀疏自编码器和几何势能度量的潜能赋能相区定位;(2)利用对比逻辑归因进行幻觉相关稀疏特征归因;(3)通过对解耦特征应用线性探针实现基于探针的因果幻觉检测。在 Gemma-2-9B 上的大规模实验表明,HalluSAE 达到了当前最优的幻觉检测性能。机器学习, ICML, 幻觉, 可解释性, LLM Boshui Chen, Zhaoxin Fan∗, Ke Wang, Zhiying Leng, Faguo Wu, Hongwei Zheng, Yifan Sun, Wenjun Wu ††footnotetext:Boshui Chen, Zhaoxin Fan, Ke Wang, Faguo Wu, 和 Wenjun Wu 隶属于北京航空航天大学人工智能学院区块链与隐私计算未来高精尖创新中心。Zhiying Leng 隶属于北京航空航天大学虚拟现实技术与系统国家重点实验室。Hongwei Zheng 隶属于北京区块链与边缘计算研究院。Yifan Sun 隶属于中国人民大学。∗通讯作者:Zhaoxin Fan<>。

## 1 引言
大语言模型(LLMs)展现出了令人瞩目的涌现能力(Weiet al\.,2022 (https://arxiv.org/html/2604.16430#bib.bib5)),但仍深受众所周知的幻觉问题困扰,即模型会生成看似合理但内容错误的事实(Jiet al\.,2023 (https://arxiv.org/html/2604.16430#bib.bib1))。该问题限制了 LLM 在医疗(Singhalet al\.,2023 (https://arxiv.org/html/2604.16430#bib.bib6))和法律(Dahlet al\.,2024 (https://arxiv.org/html/2604.16430#bib.bib7))等关键领域的落地应用,引发了业界对其可靠性的深切担忧。因此,深入理解幻觉(Elhageet al\.,2021 (https://arxiv.org/html/2604.16430#bib.bib17); Gaoet al\.,2024 (https://arxiv.org/html/2604.16430#bib.bib24))的深层成因并开展高效的幻觉检测已成为核心研究焦点。

参见图1 caption
**Figure 1:** 大语言模型推理轨迹中的相变示意图。势能空间中的轨迹揭示了三个阶段:早期稳定性(阶段 I)、关键过渡期(阶段 II,黄色高亮)和持续误差平台期(阶段 III)。事实生成(蓝色)全程保持低能量状态,而幻觉(渐变色)在过渡区发生能量的骤增(ΔE),随后陷入持久的不稳定高能平台。

主流幻觉检测方法通常分为黑盒与白盒两类。黑盒方法(如 SelfCheckGPT 和 CoVe)依赖多次模型运行的输出一致性校验,但计算开销巨大且缺乏可解释性。白盒方法则直接利用模型内部状态,采用困惑度、注意力熵或激活统计量等启发式指标。更进阶的方法如 SAPALMA 和 ITI 会对残差流进行线性探针建模,而其他研究则将错误归结为注意力头内的约束满足问题。近期研究指出,内部状态方法相比黑盒方法在推理速度上具有显著优势。尽管现有幻觉检测方法已取得可观成效,但我们发现它们主要侧重于从静态特征表示或最终输出结果的角度进行分析。 consequently,它们未能充分考量幻觉在文本生成全过程中的动态演进特性,往往忽略了关于幻觉随时间推移而演化的重要信号。此外,仅聚焦于静态特征极易导致单个神经元混杂大量无关语义概念,进而损害检测精度。

为此,本文引入一种受物理学启发的新视角以填补上述空白。我们将幻觉视为模型潜在动态中的临界相变,而非孤立的表层错误(见图1)。通过将生成过程概念化为势场中的轨迹运动,我们揭示了一种独特机制:当内部表征受特定高能量稀疏特征驱动时,会从低能量的“真理吸引子”发生突变,跃迁至持久且不稳定的高能平台,事实错误由此产生。这一动态视角催生了一项关键洞察:**通过监测 LLM 潜在势能的时间演化,有望精准定位可作为幻觉检测可靠信号的“相变区域”。**

针对这一目标,我们提出了一套系统化的检测框架 HalluSAE。该方法遵循从粗到细的处理流水线,包含三个核心阶段:
1. **潜能赋能相区定位**:利用 Gemma Scope 稀疏自编码器(SAE)对残差流进行解耦,并引入几何势能度量。通过识别能量呈指数增长的层级,将搜索范围迅速收缩至极少数关键过渡点,从而高效定位“相变区域”。
2. **幻觉相关稀疏特征归因**:在上述高能区域内应用对比直接逻辑归因(DLA)技术,量化各稀疏特征对错误输出的独立贡献,精准剥离出负责特定错误模式的“致幻特征”。
3. **基于探针的因果幻觉检测**:在筛选出的稀疏特征上训练轻量级线性探针,支持推理阶段的高效实时检测,并在模型内部动态与输出错误之间建立明确的因果链条。

综合而言,HalluSAE 通过显式建模大语言模型中事实错误背后的动态演进过程,为幻觉检测提供了一套针对性强、具备高度可解释性及良好扩展性的解决方案。为评估该方法的有效性与泛化能力,我们在 Gemma-2-9B 上开展了基于分布内(HaluEval)与分布外(TriviaQA)基准的全面实验。结果表明,我们的方法始终优于现有基线,实现了卓越的幻觉检测性能。本文的主要贡献总结如下:
- 我们提出了 HalluSAE 框架,首次从相变视角审视幻觉,实现了动态且全过程感知的幻觉检测,突破了仅依赖静态表征的传统范式。
- 我们在 HalluSAE 中设计了潜能赋能相区定位、幻觉相关稀疏特征归因及基于探针的因果幻觉检测三大模块,实现了对致幻特征的精确定位与责任归属。
- 我们通过系统性实验验证了该方法的有效性,其在分布内(HaluEval)任务与分布外(TriviaQA)基准上均刷新了当前最优性能记录。

## 2 相关工作
**大语言模型中的幻觉**。尽管 LLMs 展现出惊人的涌现能力,幻觉仍是制约其落地的持久痛点,尤其在医疗和法律等高利害场景中尤为突出。现有分类学通常将此类错误划分为输入冲突或事实冲突,并将其根源归结为训练数据偏差或早期生成错误的级联放大。然而,尽管上述分类已得到充分探讨,学界对于幻觉在推理过程中“如何”及“为何”动态生成的内在机理认知仍显不足。绝大多数现有方法将幻觉简化为基于最终输出或静态表征的现象;与之不同,本研究从动力学视角出发剖析幻觉本质,以指导检测模型的构建。

**幻觉检测方法**。现有策略主要分为黑盒与白盒路线。黑盒方法依赖输出一致性校验、外部 LLM 裁判或贝叶斯序贯估计,普遍存在计算高昂与黑箱不可解释的缺陷。零样本注意力方法(如 AGSER)同样需要多次前向传播,显著增加了推理延迟。白盒方法则直接探查模型内部状态。Xu 等人早期的开创性工作奠定了神经机器翻译中模型自省的基础。近期,HARP 和 GSP 分别借助 SVD 投影与图谱能量分析来捕捉异常。然而,这类基于稠密或拓扑结构的方法易受神经元多义性困扰,难以干净利落地隔离单一因果特征。相较之下,我们采取稀疏与动态双重视角,依托 SAE 架构实现对幻觉成因的精确锚定。

**稀疏自编码器及其应用**。稀疏自编码器(SAEs)已成为可解释人工智能领域的核心工具,能够将高维稠密激活解构为人类可读的独立语义特征。最新研究证实了其在挖掘功能回路机制与增强数据隐私保护方面的广泛适用性。在幻觉检测领域,SAFE、SSL、SAVE 与 RAGLens 等近期工作已尝试将 SAEs 应用于查询增强、行为控制或检索增强生成(RAG)中的忠实度失效检测。但这些方案大多局限于 RAG 特定场景、依赖人工定制的特征筛选,或将生成交付视为静态激活快照,完全忽略了动态相变过程。与之形成鲜明对比的是,本文引入几何势能框架以追踪状态的时间演化轨迹,并系统化地定位因果节点,使之成为首个利用动态 SAE 几何结构服务于通用事实幻觉检测的开创性工作。

## 3 基于相变视角的幻觉预分析
如前文所述,本研究从相变视角切入 LLM 幻觉问题,并据此构建检测框架。在正式阐述 HalluSAE 方法论之前,我们首先梳理支撑本研究的两大核心分析工具及部分初步实证发现。具体而言,为深度剖析 LLM 中的幻觉机制,我们主要依赖以下技术栈:

**. 稀疏自编码器(SAEs)**。SAEs 致力于破解稠密激活空间中语义表征相互缠绕的难题,通过映射操作将 $d_{\text{model}}$ 维的残差流投射至高维稀疏空间($d_{\text{SAE}} \gg d_{\text{model}}$),其中每一个维度都被优化以捕获独立的语义概念。在本研究中,我们采用开源的 Gemma Scope SAE,其将残差流分解为稀疏特征的加权线性组合:
$r_{l}^{t} \approx \sum_{i=1}^{d_{\text{SAE}}} s_{i} \cdot W_{\text{dec}}[i,:]$  (1)
其中 $s_{i} = \text{JumpReLU}(W_{\text{enc}} \cdot r_{l}^{t} + b_{\text{enc}})[i]$ 代表第 $i$ 个稀疏特征的激活强度。我们将 $d_{\text{SAE}}$ 设定为 $131,072$(过完备倍数约 36.6×),并配合 $L_0 \approx 30$ 的非零元素限制,以在稀疏程度与可解释性之间达成最佳平衡。JumpReLU 激活函数在严格维持稀疏性的同时完整保留了原始激活幅值,相较于传统 L1-SAEs,能更敏锐地捕捉底层语义结构。

**. 几何势能(GPE)**。基于动力系统理论,我们采用几何势能(GPE)量化当前状态偏离稳定事实基准的程度。该指标定义为 SAE 特征空间中当前位置至“真理吸引子”的平方欧氏距离:
$E(l,t) = \|\text{SAE}(r_{l}^{t}) - \mu_{\text{truth}}\|_{2}^{2}$  (2)
其中 $\mu_{\text{truth}}$ 为由所有高质量事实样本构成的 SAE 特征簇质心。该度量不仅同步捕获了偏离的方向与幅度,还能有效放大显著的结构突变(这与物理相变特征高度吻合)。得益于 SAE 出色的解耦特性,GPE 能够精准聚焦于语义层面的实质性差异,而非噪声干扰。

参见图2 caption
**Figure 2:** 探索性实验设计示意图。我们实施了两项互为补充的对照实验:Exp 1 通过将 42 层网络划分为早/中/晚三期,并对比各组间的 GPE 差值来探究分层能量分布规律;Exp 2 则通过解析表现出显著差异的特征向量,在微观层面量化

相似文章

MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉

arXiv cs.CL

# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院