基于开权重代理分析器激活的幻觉检测

arXiv cs.CL 2026/05/11 04:00 论文

摘要

本文介绍了一种代理分析器框架，通过分析小型开权重模型的内部激活状态而非生成模型本身，来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比，该方法在 RAGTruth 等基准测试中表现出更优越的性能，证明了分析方法的优劣比模型大小更为关键。

arXiv:2605.07209v1 公告类型：新论文摘要：我们提出了一种用于检测大型语言模型幻觉的代理分析器框架。我们的系统不再直接探查生成模型的内部，而是通过一个在本地部署的小型开权重模型来阅读已生成的文本，并利用该“阅读器”模型自身的内部激活状态来识别幻觉。无论生成器是 GPT-4 这类闭源 API，还是任何开权重模型，该方法均同样有效。我们构建了十八个基于 Transformer 文本处理机制的特征，涵盖残差流范数、每头源文档注意力、熵、MLP 激活、Logit-lens 轨迹以及三种新的令牌级接地统计量。我们在来自五个幻觉数据集的 72,135 个样本上训练了一个堆叠集成模型。我们在七种分析器架构上进行了测试，参数规模从 5 亿到 90 亿不等：包括 0.5B 和 7B 版本的 Qwen2.5、2B 和 9B 版本的 Gemma-2、1.4B 版本的 Pythia，以及 3B 和 8B 版本的 LLaMA-3。在所有七种架构中，我们在 RAGTruth 基准上的令牌级 AUC 均稳定超过 ReDeEP 0.73 的成绩，优势在 7.4 到 10.3 个百分点之间。Qwen2.5-7B 达到 0.717 的 F1 分数，略高于 ReDeEP 的 0.713，而 Qwen2.5-0.5B 则达到 0.706。最令人瞩目的发现是，这七种模型的表现聚类非常紧密：在模型大小相差十八倍的情况下，AUC 的差异仅为 2.3 个百分点。更令人惊讶的是，在我们的 RAGTruth 测试中，3B 版本的 LLaMA 优于 8B 版本的 LLaMA，表明即使在相同模型家族内，更大的规模也不一定总是带来更好的效果。RAGTruth 和 LLM-AggreFact 均包含多个 LLM 系列的输出，因此我们的结果并未偏向于任何特定的生成器。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:54

# 通过开放权重代理分析器的激活检测幻觉
来源: https://arxiv.org/html/2605.07209
Akshita Singh Khoury 计算机科学学院 东北大学 singh\.akshita@northeastern\.edu &Prabesh Paudel11footnotemark:1 Khoury 计算机科学学院 东北大学 paudel\.pr@northeastern\.edu &Siddhartha Roy11footnotemark:1 Khoury 计算机科学学院 东北大学 roy\.sidd@northeastern\.edu

###### 摘要

我们引入了一种用于检测大型语言模型中幻觉的代理分析器框架。我们的系统不深入查看生成模型内部，而是通过小型本地托管的开放权重模型读取已生成的文本，并利用阅读器自身的内部激活来发现幻觉。无论生成器是 GPT-4 这样的封闭 API，还是任何开放权重模型，该方法同样有效。我们构建了 18 个基于 Transformer 处理文本方式的功能，涵盖残差流范数、每头源文档注意力、熵、MLP 激活、Logit-lens 轨迹以及三种新的词元级（token-level）接地统计量。我们在来自五个幻觉数据集的 72,135 个样本上训练了一个堆叠集成模型。我们在七个分析器架构上进行了测试，参数量从 0.5 亿到 90 亿不等：0.5B 和 7B 的 Qwen2.5、2B 和 9B 的 Gemma-2、1.4B 的 Pythia，以及 3B 和 8B 的 LLaMA-3。在所有七个模型上，我们在 RAGTruth 上的词元级 AUC 始终比 ReDeEP 的 0.73 高出 7.4 到 10.3 个百分点。Qwen2.5-7B 达到了 0.717 的 F1 分数，略高于 ReDeEP 的 0.713，而 Qwen2.5-0.5B 达到了 0.706。最引人注目的发现是所有七个模型的聚类非常紧密：尽管模型规模相差 18 倍，但 AUC 仅跨越 2.3 个百分点。更令人惊讶的是，我们的 3B LLaMA 在 RAGTruth 上的表现优于我们的 8B LLaMA，表明即使在同一个模型家族中，更大并不总是更好。RAGTruth 和 LLM-AggreFact 都包含来自多个 LLM 家族的输出，因此我们的结果没有偏向于任何特定的生成器。代码和笔记本可在 https://github.com/hallu-detect/llm_hallucination_detection.git 获取。

## 1 引言

检索增强生成（RAG）管道 powering 了当今许多企业产品，但幻觉率仍然是一个实际问题，在特定领域任务中达到 5% 到 20% [9 (https://arxiv.org/html/2605.07209#bib.bib9)]。在用户看到之前可靠地捕捉不良输出的护栏不是可选项，而是核心安全要求。

当前的检测方法各有硬性限制。事后验证 [12 (https://arxiv.org/html/2605.07209#bib.bib12)] 需要多个模型响应来发现不一致之处。这既慢又昂贵。基于不确定性的方法 [6 (https://arxiv.org/html/2605.07209#bib.bib6)] 在单次传递设置中具有类似的成本。白盒机械方法 [18 (https://arxiv.org/html/2605.07209#bib.bib18)] 能取得最佳结果，但必须直接连接到生成模型。这排除了三种常见情况：生成器是不暴露内部状态的封闭 API；系统向不同后端发送请求，需要为每个后端单独实现；或者生成器太大，仅为了检测而再次运行它会使 GPU 费用翻倍。

我们采取了不同的路径。我们将检测器与生成器完全分离。给定源文档 S、问题 Q 和候选答案 A，我们的代理分析器将文本输入到小型开放权重模型中，读取其内部激活，并决定 A 是否可能为幻觉。我们从不接触生成器的权重，因此一个部署的护栏可以同时覆盖每个后端。逻辑很简单：幻觉是答案与源匹配程度的属性，而不仅仅是由哪个模型编写这一事实产生的。任何 Transformer 在阅读与其源矛盾的句子时，都会显示出改变的注意力模式和更强的记忆激活，无论产生该句子的模型是什么。

#### 我们的贡献。

我们做出了五项主要贡献。首先，我们构建了 18 个基于 Transformer 内部结构的功能：残差范数、每头源文档注意力、熵、MLP 范数、Logit-lens 投影、词法统计、斜率信号以及三种新的词元级接地统计量。其次，我们引入了注意力头重要性（Attention Head Importance）分数，以确定哪些特定的注意力头最能区分忠实答案和幻觉答案。第三，我们进行了一项涵盖 0.5B 到 9B 参数的七模型研究。我们发现模型家族比规模更重要，3B LLaMA 在 RAGTruth 上的表现优于 8B LLaMA，且检测质量在所有方面趋于收敛。第四，Qwen2.5-7B 在 RAGTruth 上达到了 0.717 的 F1 分数和 0.83 的 AUC，在没有生成器访问权限的情况下击败了 ReDeEP。第五，不同的任务类型在我们测试的所有架构中，都在 consistently 不同的层深度触发幻觉电路。

## 2 相关工作

对于输出级检测，SelfCheckGPT [12 (https://arxiv.org/html/2605.07209#bib.bib12)] 和语义熵 [6 (https://arxiv.org/html/2605.07209#bib.bib6)] 都需要多次前向传递，并且无法利用内部激活结构。我们仅通过每次样本一次传递就获得了更强的 RAGTruth 结果，运行成本低得多。

基于激活的探测表明，中层表示携带了真实性信号 [1 (https://arxiv.org/html/2605.07209#bib.bib1)]。我们的每层 AUC 峰值达到总深度的 18% 到 86%，具体取决于模型和任务类型，这符合之前的发现。我们更进一步，将 18 个功能组合成监督式集成，而不是在原始激活上训练简单的探针。Lookback Lens [3 (https://arxiv.org/html/2605.07209#bib.bib3)] 在最终词元使用单个上下文到注意力比率。我们的 Signal 2 解决了每头和每层的问题，因此我们可以确切地看到哪些头停止读取源。Signal 2 和 3 加起来占所有七个模型中随机森林特征重要性的 88% 以上。

在机械可解释性方面，ReDeEP [18 (https://arxiv.org/html/2605.07209#bib.bib18)] 识别生成模型内部的复制头和知识前馈网络，将外部上下文分数和参数化知识分数组合成回归，在 RAGTruth 上达到约 0.73 到 0.75 的 AUC。我们的 Signal 2 是外部上下文分数的阅读模式版本，Signal 4 与参数化知识分数平行。我们将这两个分数扩展为 18 个监督功能，并展示更丰富的阅读模式信号在所有七个模型上的 AUC 上击败了生成模式分析。Hernandez 等人 [8 (https://arxiv.org/html/2605.07209#bib.bib8)] 在 20% 到 40% 深度的较低 MLP 层中识别出知识增强失败，在上层注意力层中识别出答案提取失败。这两种失败模式直接启发了我们的 Signal 4 和 5。

## 3 方法论

### 3.1 十八信号特征框架

对于每个样本，我们使用 TransformerLens 钩子运行一次前向传递，缓存残差后注意力状态、注意力模式和 MLP 输出。这为我们提供了一个维度为 $2N_L(1+N_H)+19$ 的特征向量，其中 $N_L$ 是层数，$N_H$ 是注意力头数。

激活信号 S1 到 S4。Signal 1 是每层残差流范数。忠实答案随着每一层添加源证据而稳步增长。幻觉答案往往早期趋于平稳，因为参数化记忆取代了直接阅读源。Signal 2 是每头源文档注意力。这是我们最重要的特征，约占随机森林特征重要性的 50%。按头和层计算它使我们能够确切地看到哪些头停止关注源，这是池化方法无法做到的。Signal 3 是注意力熵。忠实阅读将注意力广泛分散在许多源词元上。幻觉响应往往崩溃到少数记忆化的词元上。Signal 2 和 3 加起来占所有七个模型中特征重要性的 88% 以上。Signal 4 是每层的 MLP 输出范数，跟踪参数化记忆触发的强度，类似于 ReDeEP 的参数化知识分数。

Logit 和交互信号 S5 到 S7。Signal 5 是在总深度的 25%、50%、75% 和 100% 处采样的 Logit-lens 轨迹。如果一个模型在正确阅读源之前过早地承诺答案，则显示出幻觉模式。Signal 6 是条件困惑度，上限为 100。我们将其与 Signal 13 正交化以去除共享方差。Signal 7 捕获标准化空间中的三个交互项：$\bar{S2}\cdot\bar{S4}$, $\bar{S4}-\bar{S2}$, 和 $\bar{S4}/\|\bar{S2}\|$。这些反映了参数化记忆在多大程度上主导源阅读，这与 ReDeEP 中 ECS 到 PKS 比率的直觉相同。

外部和词法信号 S8 到 S10。Signal 8 是 $1-\text{Vectara HHEM-2.1}$，通过单独的分批传递计算。对于每个模型，我们在完全提取之前验证忠实示例得分低，幻觉示例得分高。Signal 9 是答案到源的长度比率。Signal 10 是与源的 Jaccard 词元重叠。我们验证两者都与标签无关，差距阈值分别低于 0.15 和 30 个词。

窗口和斜率信号 S11 到 S15。Signal 11 和 12 是 FIXED_WINDOW 上 Signal 1 和 2 的平均值，FIXED_WINDOW 是通过在 RAGTruth 训练集上进行三次交叉验证为每个模型选择的七个连续层。Signal 13 是最后八层的 Logit 斜率，与 Signal 6 正交化。Signal 14 是源接地比率 $\bar{S2}_W/(\bar{S3}_W+\epsilon)$，与 S2 平均值正交化。一个以低熵关注源的头正在坚定地接地。尽管 S2 高但熵高意味着广泛但不集中的阅读。Signal 15 是所有层中残差范数的线性斜率，捕捉模型是继续添加源证据还是停止整合它。

词元级接地统计量 S16 到 S18。对于每个答案词元 $i$，我们计算 $\tau_i=(N_L N_H)^{-1}\sum_{l,h,t\in\mathcal{S}}\alpha^{l,h}_{i,t}$，为每个词元提供接地分数。Signal 16 是最小值，标记最忽略源的词元。Signal 17 是方差，衡量接地在答案中分布的不均匀程度。Signal 18 是接地轨迹的斜率，捕捉源注意力是否随答案进展而减弱。我们在 Signal 2 循环内部计算所有这三个，没有额外成本，并将每个与 S2 平均值正交化。这三种信号捕捉到了均值池化信号完全遗漏的结构。

### 3.2 注意力头重要性

我们将注意力头重要性分数定义为 $\text{AHI}=\text{sign}\cdot\sum_{l,h}w_{l,h}\cdot S2_{l,h}$，其中 $w_{l,h}\propto\|\mu^0_{l,h}-\mu^1_{l,h}\|/\sigma_{l,h}$ 仅使用 RAGTruth 训练标签估计。这是 ReDeEP 外部上下文分数的监督版本。我们没有使用启发式方法来寻找复制头，而是让训练数据告诉我们哪些头最重要。AHI 在所有七个模型中在分布外条件下被证明是最稳定的信号。在 RAGTruth 验证集上，它比原始 S2 平均值高出 0.43 到 0.52 个 AUC 点，具体取决于模型，并且在测试时源文档长度发生变化时保持方向稳定性。

### 3.3 分类器训练和校准

我们在来自五个数据集的 72,135 个样本上进行训练：HaluEval 为 19,971 行，RAGTruth 为 15,090，MedHallu 为 10,000，MiniCheck-Synthetic 为 7,076，ANLI 为 19,998。我们全程使用分层 70/15/15 分割。我们的堆叠（Stacking）分类器通过具有 $C=0.1$ 和三次交叉验证的逻辑元学习器组合逻辑回归、随机森林、HistGradientBoosting 和 XGBoost。我们还训练了一个名为 RagtStacking 的第二分类器，它使用相同的设置，但仅在 10,563 个 RAGTruth 训练行上进行训练。该模型专注于 RAGTruth 中多个生成器中出现的忠实性失败模式。在推理时，RAGTruth 域输入进入 RagtStacking，其余输入进入 Stacking。

对于校准，我们应用温度缩放，$T=2.0$，然后在三个单独的体制中进行等渗回归。QA 体制仅使用 HaluEval 验证数据，因为 RAGTruth 和 HaluEval 概率分布之间的 Kolmogorov-Smirnov 距离在所有模型中超过 0.45，这使得混合它们有害。声明体制使用 MiniCheck 和 ANLI 验证数据。其余所有使用全局等渗拟合。所有校准参数仅来自验证数据。LLM-AggreFact，去污后有 12,948 行，从未在任何训练或校准步骤中使用。

## 4 实验和结果

### 4.1 分析器架构

表 1：我们测试的七个代理分析器模型。AHI Gain 是在 RAGTruth 验证集上使用 AHI 相对于原始 S2 平均值的 AUC 改进。

我们故意选择了这七个模型。Pythia-1.4B 对 Gemma-2-2B 比较了相似规模下的架构。Qwen2.5-0.5B 对 Qwen2.5-7B、Gemma-2-2B 对 Gemma-2-9B，以及 LLaMA-3-3B 对 LLaMA-3-8B 每个都在固定家族中隔离了规模。这让我们可以问：在相同的架构下，更大总是有帮助吗？如下所示，对于 LLaMA，答案是否定的。Gemma-2-9B 有 42 层，测试了深层但狭窄注意力的设计与更宽更浅的替代方案相比的表现。

### 4.2 主要基准：RAGTruth

RAGTruth 涵盖由六个模型生成的 QA、摘要和数据到文本任务：GPT-4、GPT-3.5、Mistral-7B，以及 7B、13B 和 70B 尺寸的 Llama-2。使用来自六个不同生成器的输出意味着没有单个模型家族会偏斜评估。表 2 (https://arxiv.org/html/2605.07209#S4.T2) 显示了保留测试的结果。图 1 (https://arxiv.org/html/2605.07209#S4.F1) 显示了 Qwen2.5-7B 的 ROC 曲线。

表 2：所有七个模型在 RAGTruth 上的测试结果。单 dagger 表示 F1 击败 ReDeEP 块级 0.695。双 dagger 表示它击败词元级 0.713。粗体标记每列的最佳结果。

参考标题图 1：Qwen2.5-7B 在 RAGTruth 和 HaluEval 上的 ROC 曲线。我们的 Stacking 和 RagtStacking 设置都远高于作为虚线显示的 ReDeEP 基线。经过校准的 RagtStacking 在 RAGTruth 上达到 0.83 的 AUC，比 ReDeEP 高出约十个百分比点。在 HaluEval 上，两者都达到本质上为 1.0 的 AUC，显示实体替换检测无论校准如何都饱和。来源：Plot 8A，ROC 面板，Qwen2.5-7B 笔记本。

#### 在所有 AUC 上表现优于 ReDeEP。

每个模型的每种配置在 AUC 上都击败了 ReDeEP 基线，增益在 6.5 到 10.3 个百分点之间。这适用于所有七个架构。更丰富的十八信号阅读模式提取 simply 比 ReDeEP 在生成期间使用的双分数方法更具判别力。

#### 结果无论模型大小如何都收敛。

所有七个模型中最好的 RAGTruth AUC 仅跨越 2.3 个百分点，从 0.814 到 0.837，尽管模型的参数数量相差 18 倍。这告诉我们上限是由任务难度和信号质量设定的，而不是由分析器的大小设定的。从业者可以部署小型、快速的分析器，而不会牺牲太多准确性。

#### 一个意想不到的 LLaMA 发现。

我们的 3B LLaMA 在 RAGTruth AUC (0.822 对

基于开权重代理分析器激活的幻觉检测

相似文章

RAGognizer：通过检测头集成实现幻觉感知微调

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

首个Token已知：用于幻觉检测的单次解码置信度

将幻觉视为异常：通过概率电路进行动态干预

关注未见质量：通过软混合字母估计揭示 LLM 幻觉

提交意见反馈