微宏观检索:减少大型语言模型的长文本幻觉

arXiv cs.CL 论文

摘要

本文介绍了微宏观检索(M2R),一种边检索边生成的框架,通过确保关键信息紧邻生成文本,减少长文本LLM输出中的幻觉。它使用基于课程学习的强化学习来训练检索和接地技能,在长上下文场景中尤其有效。

arXiv:2605.28828v1 公告类型:新 摘要:大型语言模型(LLMs)在许多任务上取得了令人印象深刻的性能,但仍然容易产生幻觉,尤其是在生成长文本时,冗余的检索上下文和冗长的推理链条会放大事实错误。最近的研究突出了一个关键现象:关键信息越接近模型输出,事实准确性就越高。然而,现有的检索增强语言模型(RALMs)缺乏有效的机制来确保这种接近性——外部证据通过多轮检索注入推理,但这无法保证关键信息靠近输出。我们提出了微宏观检索(M2R),一种新颖的边检索边生成框架来填补这一空白。在宏观层面,M2R从外部来源检索粗粒度证据;在微观层面,它从推理过程中建立的关键信息库中提取核心结果,并在生成答案时重复使用它们。这种设计直接解决了关键信息与输出接近性的瓶颈,有效减少了长文本任务中的幻觉。M2R通过基于课程学习的强化学习策略和自定义规则奖励进行训练,从而稳定地获取检索和接地技能。跨不同基准的广泛实验证明了M2R的有效性,尤其在长上下文环境中。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:11

# 微宏观检索:减少大型语言模型中的长文本幻觉  
来源:https://arxiv.org/html/2605.28828  
Yujie Feng¹,², Jian Li¹¹, Zhihan Zhou³, Pengfei Xu¹, Yujia Zhang¹, Xiaoyu Li¹,  
Xiaohui Zhou¹, Alan Zhao¹, Xi Chen²², Xiao-Ming Wu²²  
¹腾讯OVB太阳系,中国  
²香港理工大学,香港  
³吉林大学,中国  

###### 摘要  

大型语言模型(LLMs)在众多任务中表现出色,但仍易出现幻觉,尤其是在长文本生成中,冗余的检索上下文和冗长的推理链会放大事实性错误。近期研究突出了一个关键现象:关键信息越靠近模型输出,事实准确性越高。然而,现有的检索增强语言模型(RALMs)缺乏有效机制来确保这种邻近性——虽通过多轮检索将外部证据注入推理过程,但无法保证关键信息紧邻输出。我们提出**微宏观检索(M2R)**,一种新颖的“检索即生成”框架以填补这一空白。宏观层面,M2R从外部源检索粗粒度证据;微观层面,M2R从推理过程中构建的关键信息存储库中提取核心结果,并在生成答案时复用它们。该设计直接解决了关键信息-输出邻近性瓶颈,有效减少了长文本任务中的幻觉。M2R采用基于课程学习的强化学习策略,并利用定制化的规则奖励进行训练,使其能够稳定地习得检索与归因技能。跨不同基准的大量实验证明了M2R的有效性,尤其在长上下文设置中表现突出。

## 1 引言  

大型语言模型(LLMs)在从问答到复杂推理与生成等广泛任务中展现了卓越能力(Feng et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib21); Liu et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib22); Zhang et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib51); Jin et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib13))。然而,尽管取得了如此令人瞩目的进展,即便是最强大的LLMs,如OpenAI-o1(Achiam et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib50))和DeepSeek-R1(Guo et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib49)),仍遭受知识幻觉的困扰,即产生事实错误但看似合理的内容。近期面向推理的LLMs的进展表明,显式的推理过程可以通过强制执行更忠实的中间步骤来部分缓解幻觉。然而,在需要生成多个句子或段落的长文本任务中,幻觉往往进一步加剧(He et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib45); Xu et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib40); Wu et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib27); Cheng et al., 2025a (https://arxiv.org/html/2605.28828#bib.bib47))。

为了缓解幻觉,检索增强语言模型(RALMs)近年来成为了一种有前景的范式(Vu et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib46); Yu et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib11))。通过以即插即用的方式整合外部知识,RALMs能够用准确且最新的信息补充LLMs的参数化记忆。大量研究工作已证明其有效性,这种机制显著减少了对潜在过时或不完整参数化知识的依赖,从而缓解了幻觉(Gao et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib44); Wang et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib43))。

参见标题  
图1:M2R框架概述。在推理阶段,M2R执行宏观检索并将与答案对齐的事实存储到内部关键信息存储库中。在答案阶段,模型调用微观检索以获取存储的事实,并将其放置在生成的答案令牌附近。

然而,RALMs远未解决长文本生成中的幻觉(Liu et al., 2025b (https://arxiv.org/html/2605.28828#bib.bib42); Chang et al., 2025b (https://arxiv.org/html/2605.28828#bib.bib41))。一个关键挑战,我们称之为**迷失在长上下文中**,当关键证据被淹没在长上下文中时就会出现。该挑战表现在两个方面。首先,检索结果往往冗长,冗余信息使模型难以捕捉关键信息(限制1)。其次,长推理链常导致模型遗忘早期中间结果,从而在最终答案中产生错误(限制2)。近期研究强调,关键证据与最终输出的**邻近性**对事实可靠性至关重要:证据越靠近最终答案,模型越可能保持忠实(Liu et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib16); Zhang et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib17))。关于这一现象的更多实证结果和理论分析在附录B (https://arxiv.org/html/2605.28828#A2)中给出。然而,现有RALMs缺乏有效机制来保证这种邻近性——外部知识通过多轮检索注入推理过程,但此策略无法确保基本证据保留在输出附近。

为克服这些限制,我们提出了**微宏观检索(M2R)**框架。如图1 (https://arxiv.org/html/2605.28828#S1.F1)所示,M2R包含两个部分。第一部分是**宏观检索**,遵循传统范式,在推理阶段从外部源检索相关段落。关键的是,每当推理过程产生与答案对齐的证据时,它被保存到一个结构化的键值存储库中,形成**关键信息存储库**;此类关键信息的检测和存储由模型在阶段中直接执行。第二部分是在答案阶段引入的新颖的**微观检索**机制,它从该存储库中提取核心结果以锚定最终输出。通过将关键信息存储在专用存储库中,模型避免了遗忘早期中间结果(解决限制1),同时建立了联系宏观检索与微观检索的桥梁。在答案生成期间,模型可以重新访问保存的结果,并直接在生成对应输出令牌之前插入它们。这样,确保了关键信息与生成输出之间的邻近性,使关键信息与答案紧密结合(解决限制2)。最后,通过采用“检索即生成”范式,M2R有效缓解了长文本任务中的幻觉。

在实现方面,我们采用基于课程学习(Bengio et al., 2009 (https://arxiv.org/html/2605.28828#bib.bib15))的强化学习(RL)策略(即GRPO(Shao et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib12)))来训练模型执行整个微宏观检索过程。设计了定制化的规则奖励,以鼓励准确的证据保存和一致的归因,使模型能够以稳定方式逐渐习得检索-推理技能。我们在Qwen2.5-3B-Instruct(Hui et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib10))和Qwen2.5-7B-Instruct上从头训练M2R,并在长文本问答和检索增强生成基准上进行了大量实验。结果表明,M2R在强基线上取得了显著改进,尤其在长上下文设置下增益更为明显。

我们的贡献总结如下:

- 通过将生成基于位置感知的关键信息,我们提出了M2R框架。M2R在答案阶段引入了一种新的“检索即生成”机制,其中检索在模型生成的关键信息上执行,且答案生成通过强制检索证据与生成令牌之间的邻近性来约束。
- 通过采用基于课程学习的强化学习策略与定制化规则奖励,M2R逐渐获得从宏观检索到关键信息保存再到微观检索的稳定能力。
- 通过在多个开源基准上的广泛实验,M2R在事实一致性和减少幻觉方面展现了对强基线的显著改进,尤其在长上下文设置下增益更为明显。

## 2 相关工作  

LLMs在各种任务中展现了出色的性能。然而,在某些专业领域或知识密集型任务中,LLMs容易产生幻觉。针对此问题,许多方法专注于检测LLMs中的幻觉(Wei et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib1); Kim et al., 2024b (https://arxiv.org/html/2605.28828#bib.bib2); Chuang et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib61); Luo et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib3); Zhong and Litman, 2025 (https://arxiv.org/html/2605.28828#bib.bib62))。近期,针对长上下文场景的LLM幻觉检测方法大量涌现(Feng et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib32); Shi et al., 2024a (https://arxiv.org/html/2605.28828#bib.bib31); Qin et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib63))。Liu et al. (2025a (https://arxiv.org/html/2605.28828#bib.bib64))利用先前话语中自发生成的想法作为表达来诱发生成固有知识并理解长上下文语义。Park et al. (2025 (https://arxiv.org/html/2605.28828#bib.bib65))通过在LLMs中嵌入可学习的轻量级灵活导向向量来实现幻觉检测。

现有缓解大型语言模型幻觉的方法大致可分为两类。一类是检索增强生成(RAG)(Izacard and Grave, 2021 (https://arxiv.org/html/2605.28828#bib.bib66); Yu et al., 2024a (https://arxiv.org/html/2605.28828#bib.bib39); Xu et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib25); Izacard et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib67); Shi et al., 2024b (https://arxiv.org/html/2605.28828#bib.bib68); Li et al., 2024 (https://arxiv.org/html/2605.28828#bib.bib69)),指导模型检索外部知识,从而增强回答准确性并减少幻觉。已开发出众多方法优化LLMs的检索过程,以提升其性能。例如,Trivedi et al. (2023b (https://arxiv.org/html/2605.28828#bib.bib70))、Shao et al. (2023b (https://arxiv.org/html/2605.28828#bib.bib71))和Yu et al. (2024b (https://arxiv.org/html/2605.28828#bib.bib72))引入了迭代检索-生成循环,使LLMs能够动态精炼其检索策略。Xu et al. (2024 (https://arxiv.org/html/2605.28828#bib.bib73))和Kim et al. (2024a (https://arxiv.org/html/2605.28828#bib.bib74))通过摘要检索优化LLM生成,增强外部信息的利用,减少信息过载,并改善事实一致性。

另一类方法专注于激发LLMs利用其内部知识的能力。例如,Li et al. (2023 (https://arxiv.org/html/2605.28828#bib.bib75))和Chen et al. (2024 (https://arxiv.org/html/2605.28828#bib.bib76))使用探针或可学习参数优化LLMs内的特征表示。Chang et al. (2025a (https://arxiv.org/html/2605.28828#bib.bib77))对LLMs的生成过程施加约束。Cheng et al. (2025b (https://arxiv.org/html/2605.28828#bib.bib78))通过基于树搜索的算法实现了LLMs的慢思考生成过程,从而减少了推理过程中的幻觉。

先前的多轮检索框架如ReAct (Yao et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib37))和Self-RAG (Asai et al., 2023 (https://arxiv.org/html/2605.28828#bib.bib38))将检索与生成交替进行,但它们仅操作外部文档,无法访问模型生成的中间推理产物。相比之下,M²R从推理阶段构建的内部关键信息存储库中检索,使得模型生成的证据得以复用。此外,M²R通过将检索到的关键事实紧接在答案令牌之前放置,明确强制证据邻近性,缓解长上下文漂移——这是先前方法中缺失的约束。

## 3 方法  

我们的框架在推理过程中执行**宏观检索**以收集粗略证据,并在答案生成期间通过**微观检索**查询关键信息存储库。通过基于GRPO的RL训练,模型学会了保持关键证据靠近产生的输出,从而提高了长上下文中的事实可靠性。在本节中,我们首先介绍集成了微宏观检索的强化学习(§3.1 (https://arxiv.org/html/2605.28828#S3.SS1))。然后,我们详细说明微宏观检索过程本身,包括训练模板的设计和基于规则的奖励建模(§3.2 (https://arxiv.org/html/2605.28828#S3.SS2) - §3.3 (https://arxiv.org/html/2605.28828#S3.SS3))。最后,我们提出了一种基于课程学习的训练调度方案,以稳定M2R的训练过程(§3.4 (https://arxiv.org/html/2605.28828#S3.SS4))。

### 3.1 基于微宏观检索的强化学习  

我们在所提出的微宏观检索框架下将RL目标表述如下:

\[
\max_{\pi_\theta} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta(\cdot \mid x; \mathcal{R}_{\text{macro}}, \mathcal{R}_{\text{micro}})} \Big[ r_\phi(x, y) \Big] - \beta \, \mathbb{D}_{\text{KL}} \Big[ \pi_\theta(y \mid x; \mathcal{R}_{\text{macro}}, \mathcal{R}_{\text{micro}}) \parallel \pi_{\text{ref}}(y \mid x; \mathcal{R}_{\text{macro}}, \mathcal{R}_{\text{micro}}) \Big],
\]

其中 \(\pi_\theta\) 是策略LLM,\(\pi_{\text{ref}}\) 是参考LLM,\(r_\phi\) 是基于规则的奖励函数,而 \(\mathbb{D}_{\text{KL}}\) 是KL散度正则化项。这里,\(x\) 表示来自数据集 \(\mathcal{D}\) 的输入样本,\(y\) 表示基于外部源的**宏观检索**结果 \(\mathcal{R}_{\text{macro}}\) 和推理过程中构建的关键信息存储库的**微观检索**结果 \(\mathcal{R}_{\text{micro}}\) 生成的条件输出。

与先前的检索增强RL方法(Chen et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib57); Jin et al., 2025 (https://arxiv.org/html/2605.28828#bib.bib13))不同,我们的框架直接将两级检索整合到策略中,并具有固定的宏观→微观顺序:

\[
\pi_\theta(\cdot \mid x; \mathcal{R}_{\text{macro}}, \mathcal{R}_{\text{micro}}) = \pi_\theta^{\text{answer}}(\cdot \mid x, M; \mathcal{R}_{\text{micro}}) \circ \pi_\theta^{\text{think}}(\cdot \mid x; \mathcal{R}_{\text{macro}}),
\]

相似文章

幻觉作为承诺失败:大型语言模型在知晓答案的情况下仍然犯错

arXiv cs.CL

本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。

MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉

arXiv cs.CL

# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院

HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL

北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。

RAGognizer:通过检测头集成实现幻觉感知微调

arXiv cs.CL

RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。