DeferMem:基于强化学习的查询时证据蒸馏在长期记忆问答中的应用
摘要
DeferMem 提出了一种面向 LLM 智能体的长期记忆框架,将记忆解耦为高召回率候选检索和基于强化学习的查询条件证据蒸馏,实现了领先的问答准确率和更快的运行时间。
arXiv:2605.22411v1 公告类型:新
摘要:大型语言模型(LLM)智能体在长期记忆问答中仍然面临挑战,答案支持证据通常分散在漫长的对话历史中,并被大量无关内容所掩盖。现有记忆系统通常在未来查询未知之前处理记忆,然后基于相似性而非实用性来检索生成的单元,这导致下游回答者需要去噪检索到的候选并重构查询特定的证据。我们提出了 **DeferMem**,一种长期记忆框架,将这一问题解耦为高召回率候选检索和查询条件证据蒸馏。**DeferMem** 使用轻量化的段链接结构来组织原始历史并在查询时检索广泛的候选。然后,它应用一个通过 **DistillPO** 训练的记忆蒸馏器——我们的强化学习算法,将高召回率但高噪声的候选蒸馏为一组忠实、自包含且查询条件化的证据。**DistillPO** 将检索后证据蒸馏形式化为一个包含消息选择和证据重写的结构化动作。它通过分解和门控奖励管道以及结构对齐的优势分配来优化该动作,从正确性到质量检查逐步门控奖励组件,同时尽早暴露任务级正确性反馈,并将每个奖励分配给其负责的输出跨度。在 LoCoMo 和 LongMemEval-S 上,DeferMem 在问答准确率和记忆系统效率上超越了强基线,以最快的运行时间和零商业 API 令牌成本实现了最高的问答准确率。
查看缓存全文
缓存时间: 2026/05/22 08:47
# DeferMem:通过强化学习实现查询时证据提炼的长期记忆问答
来源:https://arxiv.org/html/2605.22411
###### 摘要
大语言模型(LLM)智能体在长期记忆问答中仍存在困难,因为支撑答案的证据常常分散在漫长的对话历史中,并埋没在大量无关内容里。现有的记忆系统通常在查询之前就处理记忆,然后基于相似性(而非对回答查询的效用)检索生成的单元。这种工作流程使得下游回答者不得不对检索到的候选内容进行去噪,并重构查询相关的证据。我们提出 DeferMem,一种长期记忆框架,将该问题解耦为高召回候选检索与查询条件证据提炼两个环节。DeferMem 使用轻量级的片段链接结构来组织原始历史,并在查询时检索广泛的候选内容。然后,它应用一个经过 DistillPO 训练的记忆提炼器——DistillPO 是我们提出的强化学习算法,用于将高召回但高度嘈杂的候选内容提炼为一组忠实、自包含且查询相关的证据。DistillPO 将检索后的证据提炼形式化为一个结构化动作,包含消息选择与证据重写。它通过分解与门控的奖励流水线以及结构对齐的优势分配来优化该动作:从有效性检查到质量检查对奖励组件进行门控,同时早期暴露任务级正确性反馈,并将每个奖励分配给其负责的输出片段。在 LoCoMo 和 LongMemEval-S 上,DeferMem 在问答准确率和记忆系统效率方面均超越了强基线,以最快运行时间和零商业 API 令牌成本实现了最高问答准确率。
## 1 引言
对于需要长周期运行的大语言模型(LLM)智能体而言,记忆至关重要,因为它能让他们积累先前的陈述、跟踪状态演变、保留用户偏好,并恢复回答后续查询所需的证据[12 (https://arxiv.org/html/2605.22411#bib.bib1),11 (https://arxiv.org/html/2605.22411#bib.bib2),41 (https://arxiv.org/html/2605.22411#bib.bib3),53 (https://arxiv.org/html/2605.22411#bib.bib4)]。尽管现代 LLM 支持越来越大的上下文窗口[38 (https://arxiv.org/html/2605.22411#bib.bib7)],但由于注意力稀释以及众所周知的“迷失在中间”问题[3 (https://arxiv.org/html/2605.22411#bib.bib6),21 (https://arxiv.org/html/2605.22411#bib.bib8)],它们仍难以有效利用长上下文。因此,外部记忆系统在支持长期交互与推理中扮演着核心角色[41 (https://arxiv.org/html/2605.22411#bib.bib3),3 (https://arxiv.org/html/2605.22411#bib.bib6)]。然而,利用长期记忆仍然具有挑战性,因为查询所需的证据常常深埋于历史中、分散在多个会话间,并与大量无关内容混杂在一起[40 (https://arxiv.org/html/2605.22411#bib.bib9),4 (https://arxiv.org/html/2605.22411#bib.bib16)]。
现有记忆系统通常通过查询前的记忆组织和查询时的检索来应对这一挑战[54 (https://arxiv.org/html/2605.22411#bib.bib20),25 (https://arxiv.org/html/2605.22411#bib.bib10),1 (https://arxiv.org/html/2605.22411#bib.bib24),17 (https://arxiv.org/html/2605.22411#bib.bib11),45 (https://arxiv.org/html/2605.22411#bib.bib12),6 (https://arxiv.org/html/2605.22411#bib.bib13)]。在未来的查询到来之前,它们通常将原始对话历史转换为专门的记忆结构,并通过压缩、遗忘或更新机制进行维护。尽管这种写入时的记忆组织提高了存储效率和检索结构,但它采用了一种与查询无关的视角来判定哪些信息重要,因此可能丢弃或模糊那些后来对回答某个特定查询至关重要的细节。即使保留了原始历史,这些系统在查询时的检索仍基于已组织好的记忆单元,并且通常依赖间接的相关性线索(如嵌入相似性和关键词重叠),而非直接识别回答查询所需的确切证据[3 (https://arxiv.org/html/2605.22411#bib.bib6),14 (https://arxiv.org/html/2605.22411#bib.bib5),12 (https://arxiv.org/html/2605.22411#bib.bib1)]。因此,检索到的候选集往往范围大,其中有用的证据被大量噪声所掩盖。近期一些方法进一步采用强化学习来决定为查询保留哪些候选[35 (https://arxiv.org/html/2605.22411#bib.bib14),47 (https://arxiv.org/html/2605.22411#bib.bib15),4 (https://arxiv.org/html/2605.22411#bib.bib16)]。然而,保留的候选仍然比支撑答案的证据更粗粒度,且未以查询相关的形式呈现,留给下游回答者去噪并找出证据。因此,从嘈杂的候选记忆中提炼出查询相关的证据仍然是一个关键瓶颈。
参见图示
图 1:现有记忆系统(左)与 DeferMem(右)的比较。
为解决这一瓶颈,我们提出了一种新颖的长期记忆框架——DeferMem,它将证据提炼推迟到查询时进行。DeferMem 将长期记忆问答(QA)解耦为两个阶段:高召回候选检索与查询条件证据提炼。首先,DeferMem 并非在查询之前压缩记忆,而是使用轻量级的片段链接结构来组织原始会话历史。当查询到来时,它通过嵌入相似性检索候选,并通过片段链接进行扩展,从而获得一个高召回但高度嘈杂的候选集。其次,DeferMem 引入了一个记忆提炼器,将这些广泛的候选提炼为一小部分忠实、自包含、查询相关的证据,供下游回答使用。记忆提炼器通过 DistillPO(我们提出的强化学习算法)进行训练,该算法将检索后的证据提炼形式化为一个结构化动作,包含有用消息的选择和证据重写。训练这样的提炼器具有挑战性,因为仅靠最终任务的奖励过于粗粒度。为此,DistillPO 将分解后的奖励组件与一种带泄漏的层级门控策略相结合,该策略遵循奖励之间的结构依赖关系,同时确保任务级正确性信号的持续激活。它还采用了结构对齐的优势分配,将每个奖励信号分配给负责该信号的输出片段。这些设计共同使 DeferMem 既能保留原始历史以实现高召回检索,又能学会将嘈杂的检索候选提炼为可直接用于下游回答的证据。
我们的贡献总结如下:
- •我们提出了 DeferMem,一种将证据提炼明确推迟到查询时的框架,通过将问题解耦为高召回候选检索与查询条件证据提炼两个环节。该框架使 LLM 智能体能够高效、准确地为当前查询提炼证据,从而支持灵活的长期交互。
- •我们引入了 DistillPO,一种用于检索后证据提炼的强化学习算法。DistillPO 通过结合结构化动作、分解的奖励、带泄漏的层级奖励门控以及结构对齐的优势分配,学习将高度嘈杂的候选提炼为一组紧凑的支撑答案的证据。
- •我们在长期记忆基准上进行了广泛的实验,从多个角度评估 DeferMem。结果表明,DeferMem 在问答性能上显著优于强基线,实现了更高的问答准确率和更低的记忆系统成本。
## 2 相关工作
##### LLM 智能体的记忆系统。
记忆系统使 LLM 智能体能够进行长期交互[12 (https://arxiv.org/html/2605.22411#bib.bib1),11 (https://arxiv.org/html/2605.22411#bib.bib2),41 (https://arxiv.org/html/2605.22411#bib.bib3),53 (https://arxiv.org/html/2605.22411#bib.bib4)]。为改善长期记忆的管理,先前工作主要探索设计专用的存储结构,包括图[15 (https://arxiv.org/html/2605.22411#bib.bib30),5 (https://arxiv.org/html/2605.22411#bib.bib32),9 (https://arxiv.org/html/2605.22411#bib.bib31),2 (https://arxiv.org/html/2605.22411#bib.bib17),10 (https://arxiv.org/html/2605.22411#bib.bib18),28 (https://arxiv.org/html/2605.22411#bib.bib19)]、结构化摘要或抽象[54 (https://arxiv.org/html/2605.22411#bib.bib20),20 (https://arxiv.org/html/2605.22411#bib.bib34),37 (https://arxiv.org/html/2605.22411#bib.bib22),1 (https://arxiv.org/html/2605.22411#bib.bib24),34 (https://arxiv.org/html/2605.22411#bib.bib23)]、链接笔记[45 (https://arxiv.org/html/2605.22411#bib.bib12)]、语义片段[25 (https://arxiv.org/html/2605.22411#bib.bib10),6 (https://arxiv.org/html/2605.22411#bib.bib13)]、多粒度记忆关联[43 (https://arxiv.org/html/2605.22411#bib.bib35)],甚至操作系统风格的架构[24 (https://arxiv.org/html/2605.22411#bib.bib21),17 (https://arxiv.org/html/2605.22411#bib.bib11)]。许多记忆系统还整合了压缩、遗忘和更新机制,例如压缩记忆规模同时保留重要信息[18 (https://arxiv.org/html/2605.22411#bib.bib25),44 (https://arxiv.org/html/2605.22411#bib.bib26),1 (https://arxiv.org/html/2605.22411#bib.bib24)]、移除过时记忆[54 (https://arxiv.org/html/2605.22411#bib.bib20),13 (https://arxiv.org/html/2605.22411#bib.bib27)],以及为长期对话持续维护演化中的记忆[35 (https://arxiv.org/html/2605.22411#bib.bib14),23 (https://arxiv.org/html/2605.22411#bib.bib28),19 (https://arxiv.org/html/2605.22411#bib.bib29),45 (https://arxiv.org/html/2605.22411#bib.bib12)]。虽然这些机制使存储更易于维护,但它们可能丢弃那些后来对回答某个特定查询至关重要的细节。
在查询时,现有系统通常通过嵌入相似性、关键词匹配或元数据过滤来检索记忆[3 (https://arxiv.org/html/2605.22411#bib.bib6),14 (https://arxiv.org/html/2605.22411#bib.bib5),12 (https://arxiv.org/html/2605.22411#bib.bib1)]。尽管这些信号缩小了搜索空间,但它们反映的是查询相似性而非对回答的有用性,常常返回粗粒度的候选,提供的答案支撑有限。GAM[46 (https://arxiv.org/html/2605.22411#bib.bib36),32 (https://arxiv.org/html/2605.22411#bib.bib37)]通过迭代深度搜索扩展记忆检索,但它在部分记忆子集上逐步展开,难以确定何时停止,且可能带来大量的令牌和延迟开销。近期的工作开始应用监督学习[52 (https://arxiv.org/html/2605.22411#bib.bib38),51 (https://arxiv.org/html/2605.22411#bib.bib39)]或强化学习[35 (https://arxiv.org/html/2605.22411#bib.bib14),47 (https://arxiv.org/html/2605.22411#bib.bib15),4 (https://arxiv.org/html/2605.22411#bib.bib16)]来优化针对给定查询的检索候选选择。尽管已有这些进展,现有工作在有效将精确证据从大量嘈杂候选提炼出来方面的重视仍然不足,将这责任留给了下游智能体而非记忆系统。
##### 面向 LLM 的强化学习。
强化学习(RL)已成为增强 LLM 原生能力的核心后训练范式[29 (https://arxiv.org/html/2605.22411#bib.bib40),50 (https://arxiv.org/html/2605.22411#bib.bib41)]。早期基于人类反馈的强化学习方法通常使用 PPO[30 (https://arxiv.org/html/2605.22411#bib.bib42)] 和 DPO[27 (https://arxiv.org/html/2605.22411#bib.bib43)] 来训练 LLM 生成符合人类偏好的输出。GRPO[31 (https://arxiv.org/html/2605.22411#bib.bib44)] 和 DAPO[48 (https://arxiv.org/html/2605.22411#bib.bib45)] 等算法的发展使得可以训练 LLM 处理长周期任务,特别是那些具有长期依赖性和稀疏奖励的任务。这些进展使得 RL 不仅能提高 LLM 在目标任务上的 pass@1 成功率[49 (https://arxiv.org/html/2605.22411#bib.bib46)],还能激发出基础 LLM 中不易观察到的推理行为[39 (https://arxiv.org/html/2605.22411#bib.bib47)]。近期工作将 RL 应用于越来越多的能力,包括推理[8 (https://arxiv.org/html/2605.22411#bib.bib48)]、工具使用[7 (https://arxiv.org/html/2605.22411#bib.bib49)]、网络搜索[16 (https://arxiv.org/html/2605.22411#bib.bib50)]和记忆[47 (https://arxiv.org/html/2605.22411#bib.bib15),4 (https://arxiv.org/html/2605.22411#bib.bib16)]。然而,使用 RL 训练 LLM 以有效利用长期记忆的研究仍不充分。先前的面向记忆的 RL 方法主要将问题形式化为从预定义的记忆池中选择相关项,而不是将嘈杂的记忆候选提炼为查询相关的证据。
## 3 DeferMem
### 3.1 问题形式化
我们研究 LLM 智能体的长期记忆问答。在该设定中,智能体可以访问长期积累的原始交互历史 \(H\),这些历史可能来自其与用户的交互,也可能来自其他参与者之间的对话。当一个新的查询 \(q\) 到达时,目标是根据 \(H\) 中包含的信息生成答案 \(\hat{a}\)。我们将原始交互历史表示为一系列会话:\(H = \{S_1, S_2, \dots, S_n\}\),其中每个会话 \(S_i = \{m_{i,1}, m_{i,2}, \dots, m_{i,|S_i|}\}\) 由有序的消息序列组成。每条消息表示为 \(m_{i,j} = (r_{i,j}, c_{i,j}, t_{i,j})\),其中 \(r_{i,j}\)、\(c_{i,j}\) 和 \(t_{i,j}\) 分别表示说话者身份、消息内容和时间戳。内容 \(c_{i,j}\) 可能包含文本,如果附有图像,则包含图像的文本描述。
给定一个查询 \(q\) 和历史 \(H\),长期记忆系统的任务是帮助 LLM 智能体生成答案 \(\hat{a}\)。实现这一目标需要系统定位并揭露嵌入在 \(H\) 中的支撑答案的证据。一个核心挑战是回答 \(q\) 所需的证据常常稀疏、碎片化,并埋没在大量无关内容中。设 \(E^* \subseteq H\) 为 \(q\) 的支撑答案的潜在证据集合。在实践中,\(E^*\) 可能跨越多个会话,只包含几条消息片段,并且需要跨多条消息完成信息整合。因此,直接从 \(H\) 中回答效率低下,而仅依靠检索也不够:检索通常返回一个更大的候选集 \(\hat{C} \subseteq H\),该集合覆盖 \(E^*\) 但也包含大量噪声。因此,我们将长期记忆问答中的记忆利用解耦为两个阶段:
\[
\hat{C} = \mathcal{R}(q, H), \qquad \hat{E} = \mathcal{D}(q, \hat{C}),
\tag{1}
\]
其中 \(\mathcal{R}\) 是高召回检索器,\(\mathcal{D}\) 是查询条件证据提炼器。检索到的候选集 \(\hat{C}\) 预期以高召回覆盖支撑答案的证据,而提炼后的证据 \(\hat{E}\) 应是一组紧凑的、忠实、自包含且查询相关的证据,可直接用于回答 \(q\)。下游 LLM 智能体随后可以利用 \(\hat{E}\) 产生最终答案 \(\hat{a}\)。相似文章
RecMem:基于重复的记忆整合方法,用于高效且有效的长期运行LLM智能体
RecMem是一种基于重复的记忆整合方法,适用于长期运行的LLM智能体,通过仅在语义相似的交互重复出现时调用LLM,可减少高达87%的令牌消耗,同时提高准确性。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。
DELTAMEM:基于残差树的LLM智能体增量经验记忆
DeltaMem将LLM智能体记忆组织成残差树,以减少冗余和检索冲突,存储经验的增量变体以支持持续学习。
MemTrain:自监督上下文记忆训练
MemTrain 提出了一种自监督训练框架,通过在维基百科语料上使用掩码重建和中间记忆召回代理任务,增强 LLM 智能体的上下文记忆能力,在下游记忆密集型 QA 基准上取得了高达 17.67 个百分点的提升。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。