RAGognizer：通过检测头集成实现幻觉感知微调

arXiv cs.CL 2026/04/20 04:00 论文

rag hallucination-detection fine-tuning llm closed-domain token-level

摘要

RAGognizer 提出了一种幻觉感知微调方法，该方法将轻量级检测头集成到大语言模型（LLMs）中，以实现语言建模与幻觉检测的联合优化，适用于 RAG 系统。论文介绍了 RAGognize，一个包含自然发生的闭域幻觉及其词元级标注的数据集，并展示了在降低幻觉率的同时，实现了最先进的幻觉检测性能，且不损害语言质量。

arXiv:2604.15945v1 公告类型：新论文摘要：检索增强生成（RAG）被广泛用于将外部信息（如近期或领域特定知识）增强到大语言模型（LLMs）的输入中。然而，当前模型仍会产生闭域幻觉，并生成不受检索上下文支持的内容。当前的检测方法通常将幻觉视为事后问题，依赖于黑箱一致性检查或对冻结内部表示的探针。在这项工作中，我们证明了基于内部状态表示的幻觉检测也可以作为直接的训练信号。我们引入了 RAGognize，一个包含自然发生的闭域幻觉及其词元级标注的数据集，以及 RAGognizer，一种幻觉感知微调方法，该方法将轻量级检测头集成到大语言模型中，允许语言建模与幻觉检测的联合优化。这一联合目标迫使模型改善其内部状态在幻觉方面的可分离性，同时学习生成格式良好且有意义的响应。在多个基准测试中，RAGognizer 实现了最先进的词元级幻觉检测，同时在生成过程中大幅降低了幻觉率，且不损害语言质量或相关性。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

# RAGognizer: 基于检测头集成的幻觉感知微调

来源：https://arxiv.org/html/2604.15945

Fabian Ridder[^1], Laurin Lessel[^2], 以及 Malte Schilling[^3]

明斯特大学计算机科学系，明斯特，德国

\{fridder, llessel, malte.schilling\}@uni-muenster.de

###### 摘要

检索增强生成（RAG）被广泛用于将外部信息（如最新或特定领域知识）增强到大语言模型（LLM）的输入中。然而，当前模型仍然会产生闭域幻觉，生成不受检索上下文支持的内容。当前的检测方法通常将幻觉视为事后问题，依赖于黑盒一致性检查或在冻结的内部表示上进行的探测。在这项工作中，我们展示了基于内部状态表示的幻觉检测也可以作为直接的训练信号。我们引入了 RAGognize，一个包含自然发生的闭域幻觉及其词元级标注的数据集，以及 RAGognizer，一种将轻量级检测头集成到 LLM 中的幻觉感知微调方法，允许对语言建模和幻觉检测进行联合优化。这个联合目标迫使模型改善其关于幻觉的内部状态的可分离性，同时学习生成结构良好且有意义的响应。在多个基准测试中，RAGognizer 在词元级幻觉检测上达到了最先进的水平，同时在不降低语言质量或相关性的情况下，显著降低了生成过程中的幻觉率。

## 1 引言

大语言模型（LLMs）在自然语言理解和生成方面取得了令人印象深刻的性能[^1]。尽管取得了这些进展，LLMs 仍然容易产生“幻觉”：生成不受可用证据支持或与之矛盾的内容[^2]。这一现象从根本上限制了它们的可靠性，尤其是在高风险或知识密集型应用中。

参见标题

图 1：上下文知识与参数化知识的区分：该文氏图说明了 LLM 生成中可能的知识情景。提示可能仅依赖于上下文知识（左侧），仅依赖于参数化知识（右侧），或依赖于两者的交集，其中这两个来源可能一致（参数化对齐）或矛盾（反参数化）。“无知识”区域对应无法回答的提示。标有条纹的区域表示 RAGognize 数据集未覆盖的情景，该数据集专门关注幻觉可验证的闭域设置。

定义和检测幻觉的一个核心困难在于 LLM 中知识的双重性质。在预训练期间，模型将大量信息编码为存储在权重中的隐式“参数化知识”[^3]，而在推理时，这些知识可能由添加到模型上下文窗口中的显式信息作为“上下文知识”进行补充。这些来源在可访问性和可验证性方面存在显著差异，但当幻觉被简单地视为事实错误时，它们常常被混为一谈[^4]。检索增强生成（RAG）旨在通过明确向 LLMs 提供对外部、动态信息（例如公司特定数据或突发新闻）的访问来引导生成，这些信息在预训练期间模型并未接触到[^3][^5]。但 RAG 并不能从根本上解决可靠性问题。即使提供了正确的上下文，模型也经常表现出“闭域幻觉”：生成看似合理但未基于检索到的上下文的不正确信息[^6][^7]。这种提供的证据（上下文知识）与生成输出之间的脱节削弱了高风险应用所需的信任。

我们认为，如果不对不同的知识来源进行区分，就无法有意义地定义或检测幻觉。如图 1（https://arxiv.org/html/2604.15945#S1.F1）所示，上下文知识和参数化知识可能单独出现或以组合形式出现。为了获得一个可判定的概念，我们专注于使用最新信息的闭域设置，以防止依赖参数化知识。在这种设置中——如果提示是“可回答的”，则属于“上下文知识”区域；如果是“无法回答的”，则属于“无知识”区域——幻觉可以明确地识别为引入了不受支持内容的生成。

专注于这种闭域设置，我们做出了三项贡献：
首先，我们引入了 **RAGognize**，一个包含自然发生的闭域幻觉及其细粒度词元级标注的综合数据集。
其次，我们提出了 **RAGognizer**，一种将简单检测头集成到 LLM 中的幻觉感知模型架构，能够从内部表示进行词元级幻觉预测，并在闭域基准测试上达到最先进的检测性能。
第三，我们展示了使用基于 LoRA 的微调来联合优化语言建模和幻觉检测目标，可以改善与幻觉相关的内部状态的可分离性，从而带来更强的检测性能和生成过程中幻觉率的显著降低，同时保持语言质量。

我们的实验表明，RAGognizer 使用紧凑的 Qwen3-4B 生成模型[^8]在词元级幻觉检测上达到了最先进的水平，同时在闭域 RAG 设置中显著提高了生成忠实度。此外，我们表明，在其他数据集上进行评估时，这也可以推广到其他设置。总之，这些发现表明幻觉检测与表示学习密切相关，并且在训练期间集成检测信号可以提高模型的可靠性。数据集、模型和代码可以在线获取¹。

## 2 相关工作

LLMs 中的幻觉已从不同角度进行了研究，包括检测、缓解和数据集构建。在本节中，我们首先回顾先前关于幻觉检测方法的工作，重点关注它们在模型访问和粒度方面的差异，其次讨论现有的幻觉数据集。

### 2.1 幻觉检测

检测方法通常根据其所需的访问权限进行分类：白盒方法利用内部激活或注意力模式，而黑盒方法则仅基于输出进行操作。进一步的实用区别在于识别幻觉的粒度，以及方法是否需要随机采样（多次生成）来估计一致性，还是可以在单次前向传播中运行（参见表 E（https://arxiv.org/html/2604.15945#Ax1.T5））。

白盒方法包括不确定性代理指标，如困惑度[^9]和基于熵的分数[^10]；表示统计方法，如 INSIDE (EigenScore)[^11]；基于注意力的检测器，如 Lookback Lens[^12]；以及在隐藏激活上训练的探针/分类器方法（例如，SAPLMA[^13]）。HallucinationProbes 在隐藏状态上训练一个线性的词元级分类器，并进一步探索通过低秩自适应（LoRA）与探针头一起进行适配器训练，以在最小程度改变基础模型行为的同时改进检测[^14][^15]，这与我们的方法紧密相关。其他白盒方法包括无监督内部状态检测器（MIND[^16]）、应用于 RAG 的相关性传播（LRP4RAG[^17]）以及跨层动力学探针（ICR Probe[^18]）。

黑盒方法包括基于采样的 一致性检查，如 SelfCheckGPT[^19]，以及为事实性微调的外部评估器或评判模型（例如，基于 DeBERTa 风格编码器[^20]构建的 NLI/蕴含模型，以及专门的评估器，如 MiniCheck、Lynx 和 Granite-Guardian[^21][^22][^23]）。社区和基准模型（例如，HHEM-2.1）提供了易于使用的开放评估器[^24]。专为 RAG 定制的方法包括结合蕴含与检索证据的忠实度评分（RAGAS）[^25]以及联合上下文/知识验证模型，如 HDM-2[^26]。其他工作（例如，LUMINA）研究了在检测 RAG 输出中的幻觉时，对检索上下文和内部参数化知识的依赖平衡问题[^27]。

### 2.2 数据集

现有的幻觉数据集在标注粒度、基础知识假设以及幻觉性质方面有所不同。一个主要的区别在于幻觉被标注的级别。虽然大多数基准测试仅在完整响应的级别提供监督，但少数最新的数据集提供了词元级标注，这使得它们对于研究内部模型表示和词元级检测特别相关（例如，RAGTruth[^7]）。我们认为考虑假定的知识体系很重要。许多 RAG 和基于上下文的问答数据集中的一个常见问题是，它们并未严格确保问题需要提供的上下文才能回答。这模糊了上下文知识和参数化知识之间的界限；例如，HaluEval[^28]包含 LLMs 可以使用预训练记忆来回答的问题。这与严格的闭域设置形成对比，在闭域设置中，有效的生成必须完全由给定的上下文支持。

最后，数据集在生产幻觉的方式上也有所不同：HaluEval 依赖于合成诱导的响应级别幻觉，而其他数据集如 HDM-Bench[^26]则专注于标准模型生成过程中出现的自然响应级别幻觉。

参见标题

图 2：RAGognize 数据集的自动数据生成和标注流程：提取训练截止日期（2024 年 5 月 23 日）之后的 Wikipedia 事实，这确保了这些信息未被用于所考虑 LLMs 的训练。其次，我们使用 Gemini 2.5 Pro 生成问答对，并随机组合两种不同的 RAG 配置：可回答（包含相关块）和不可回答（包含不相关但相似的块）查询。我们从四个目标 LLMs（Llama-2/3.1, Mistral-v0.1/v0.3）收集自然响应。最后，使用 Gemini 2.5 Flash 通过结构化思维链提示进行子字符串验证，将响应与提供的上下文进行比较，返回细粒度的词元级幻觉标注。

## 3 方法

我们首先介绍 RAGognize 数据集，然后介绍 RAGognizer 架构方法以用于幻觉感知的 LLM 微调，最后是联合训练设置。

### 3.1 RAGognize 数据集

大多数现有的幻觉基准测试在响应级别操作，依赖合成扰动，或者不排除开放域设置，这限制了对幻觉或与给定证据偏差的细粒度检测。为了填补这一空白，我们引入了 **RAGognize** 数据集，专为闭域 RAG 场景中的自然、词元级幻觉检测而设计。它通过多个步骤构建，并扩展了 HalluRAG 方法[^29]，增加了提示多样性和词元级标注。如图 2（https://arxiv.org/html/2604.15945#S2.F2）所示，流程包括 (i) 从 Wikipedia 获取近期事实陈述，(ii) 生成多样化的问答对，(iii) 控制性组装可回答和不可回答的 RAG 提示，(iv) 由多个 LLMs 生成响应，以及 (v) 自动化词元级幻觉标注。

由于我们希望相关信息仅限于提供的上下文，我们采用了严格的新近性约束，并提取 Wikipedia 中相关引用时间戳晚于 2024 年 5 月 23 日的事实陈述。这确保了这些事实在训练时不可用，并且不能在被评估模型的参数化知识中表示（我们使用了 Llama-2-7B-Chat [^30]、Llama-3.1-8B-Instruct [^31]、Mistral-7B-Instruct-v0.1 和 Mistral-7B-Instruct-v0.3 [^32]）。因此，RAGognize 只处理“上下文知识”或“无知识”场景（图 1（https://arxiv.org/html/2604.15945#S1.F1）），这建立了可回答和不可回答查询之间明确定义的区分。

对于每个事实陈述，我们使用 Gemini 2.5 Pro[^33]在风格变化下（例如，拼写错误、主观框架或添加误导性线索）生成多样化的用户查询和相应的参考答案，这应该鼓励语言多样性。然后，通过应用模块化模板策略，选择性地插入或保留包含关键证据的上下文部分，同时使用 BGE-M3[^34]检索语义相似的干扰段落，来构建可回答和不可回答的 RAG 提示。这个过程产生了配对的提示，它们仅在相关上下文证据的可用性上有所不同。通过这种方式，可回答的提示是通过将一个干扰段落替换为包含必要证据的真实块来形成的。训练集和测试集中的所有提示随后使用贪心解码（temperature 0）传递给 Llama2-7B、Llama3-8B、Mistral-7B-v0.1 和 Mistral-7B-v0.3 生成。

[^1]: https://arxiv.org/html/2604.15945#bib.bib1
[^2]: https://arxiv.org/html/2604.15945#bib.bib2
[^3]: https://arxiv.org/html/2604.15945#bib.bib3
[^4]: https://arxiv.org/html/2604.15945#bib.bib4
[^5]: https://arxiv.org/html/2604.15945#bib.bib5
[^6]: https://arxiv.org/html/2604.15945#bib.bib6
[^7]: https://arxiv.org/html/2604.15945#bib.bib7
[^8]: https://arxiv.org/html/2604.15945#bib.bib8
[^9]: https://arxiv.org/html/2604.15945#bib.bib9
[^10]: https://arxiv.org/html/2604.15945#bib.bib10
[^11]: https://arxiv.org/html/2604.15945#bib.bib11
[^12]: https://arxiv.org/html/2604.15945#bib.bib12
[^13]: https://arxiv.org/html/2604.15945#bib.bib13
[^14]: https://arxiv.org/html/2604.15945#bib.bib14
[^15]: https://arxiv.org/html/2604.15945#bib.bib15
[^16]: https://arxiv.org/html/2604.15945#bib.bib16
[^17]: https://arxiv.org/html/2604.15945#bib.bib17
[^18]: https://arxiv.org/html/2604.15945#bib.bib18
[^19]: https://arxiv.org/html/2604.15945#bib.bib19
[^20]: https://arxiv.org/html/2604.15945#bib.bib20
[^21]: https://arxiv.org/html/2604.15945#bib.bib21
[^22]: https://arxiv.org/html/2604.15945#bib.bib22
[^23]: https://arxiv.org/html/2604.15945#bib.bib23
[^24]: https://arxiv.org/html/2604.15945#bib.bib24
[^25]: https://arxiv.org/html/2604.15945#bib.bib25
[^26]: https://arxiv.org/html/2604.15945#bib.bib26
[^27]: https://arxiv.org/html/2604.15945#bib.bib27
[^28]: https://arxiv.org/html/2604.15945#bib.bib28
[^29]: https://arxiv.org/html/2604.15945#bib.bib29
[^30]: https://arxiv.org/html/2604.15945#bib.bib30
[^31]: https://arxiv.org/html/2604.15945#bib.bib31
[^32]: https://arxiv.org/html/2604.15945#bib.bib32
[^33]: https://arxiv.org/html/2604.15945#bib.bib33
[^34]: https://arxiv.org/html/2604.15945#bib.bib34

RAGognizer：通过检测头集成实现幻觉感知微调

相似文章

基于开权重代理分析器激活的幻觉检测

FLaG：细粒度潜在分组用于幻觉检测

TPA: 用于检测RAG中幻觉的下一个令牌概率归因

幻觉检测引导的临床摘要偏好优化

OpenHalDet：一种针对多样生成场景下幻觉检测的统一基准

提交意见反馈