REAL: 一种用于LLMs长期记忆管理的推理增强图框架
摘要
REAL是一种用于LLMs长期记忆管理的推理增强图框架,它利用时间与置信度感知的有向属性图,采用非破坏性时间更新和混合波束搜索检索,平均性能提升22.72%。
arXiv:2606.10694v1 公告类型:新
摘要:大型语言模型(LLMs)日益被期望在长时间跨度内与用户交互。然而,由于其有限的上下文窗口,LLMs无法保留所有过往交互,因此长期记忆管理对于存储、更新和检索超出上下文限制的历史信息至关重要。尽管近期的一些记忆系统尝试通过外部存储历史信息来解决此问题,但现有方法存在三个关键局限:基于纯文本的平铺记忆组织无法捕捉记忆之间的显式关系;结构化记忆系统常常以破坏性方式覆盖演变中的事实;当前的检索机制在证据不完整时仍是查询无关且被动的。REAL 将长期对话记忆构建为时间与置信度感知的有向属性图,其中每个原子事实都用实体、关系、有效时间区间、置信度分数和探索意图标签表示。在记忆构建过程中,REAL 采用非破坏性时间更新策略,保留并行事实版本及其有效区间,从而忠实追踪事实演变。在检索过程中,REAL 锚定与查询相关的根实体,解耦其探索意图,并通过语义评估器引导的混合波束搜索提取紧凑的记忆子图。它还进一步引入反事实推理,修复不可靠的检索状态,并通过隐含逻辑关系恢复缺失的记忆证据。综合实验表明,REAL 在长期记忆性能上显著优于纯文本、基于图以及现有的记忆基线,平均提升达到 22.72%。
查看缓存全文
缓存时间: 2026/06/10 06:12
# REAL:一种用于大语言模型长期记忆管理的推理增强图框架
来源:https://arxiv.org/html/2606.10694
陆可尔‡,陈立伟§,蒋国庆§,覃志恒§,刘云槐‡†¶,张文涛‡†¶
‡北京大学计算机学院,§快手科技,†北京大学前沿交叉学科研究院数据科学中心
keer\.lu@stu\.pku\.edu\.cn, \{yunhuai\.liu, wentao\.zhang\}@pku\.edu\.cn
###### 摘要
大语言模型(LLMs)越来越多地需要在长时程交互中与用户互动。然而,由于其有限的上下文窗口,LLMs 无法保留所有历史交互,因此长期记忆管理对于存储、更新和检索超出上下文限制的历史信息至关重要。尽管近期的记忆系统试图通过外部存储历史信息来应对这一问题,但现有方法存在三个关键局限:基于扁平文本的记忆组织无法捕捉记忆之间的显式关系;结构化的记忆系统常常破坏性地覆盖演化中的事实;当前的检索机制在证据不完整时仍保持查询无关且被动响应。为应对这些挑战,我们提出**REAL**,一种用于 LLMs 长期记忆管理的推理增强图框架。REAL 将长期对话记忆构建为一种时序且置信度感知的有向属性图,其中每个原子事实都用实体、关系、有效时间区间、置信度分数和探索意图标签表示。在记忆构建过程中,REAL 采用非破坏性的时序更新策略,保留并行的事实版本及其有效区间,从而忠实追踪事实的演化。在检索过程中,REAL 锚定查询相关的根实体,解耦其探索意图,并通过语义评估器引导的混合波束搜索提取紧凑的记忆子图。它进一步引入反事实推理来修复不可靠的检索状态,并通过隐式逻辑关系恢复缺失的记忆证据。综合实验表明,REAL 在长时记忆性能上显著优于基于扁平文本、图结构以及现有最先进的记忆管理方法,平均提升 22.72%。
$\\P$$\\P$脚注:通讯作者。
## I 引言
大语言模型(LLMs)[1 (https://arxiv.org/html/2606.10694#bib.bib42), 54 (https://arxiv.org/html/2606.10694#bib.bib43), 11 (https://arxiv.org/html/2606.10694#bib.bib45)] 在长时程任务中表现出色,能够与用户跨多个会话及数百轮对话进行长时间交互[57 (https://arxiv.org/html/2606.10694#bib.bib2)]。这种长时间交互突出了 LLM 记忆¹¹的重要性,“记忆”在本文中与易失性硬件 RAM 不同。,这对于在长时间跨度内保留和检索相关信息至关重要[19 (https://arxiv.org/html/2606.10694#bib.bib22), 14 (https://arxiv.org/html/2606.10694#bib.bib46), 24 (https://arxiv.org/html/2606.10694#bib.bib20)]。然而,尽管潜力巨大,在长时间内维持有效记忆仍是一个关键挑战。现代 LLMs 的上下文窗口严重受限,通常在 8K 到 256K 个 token 之间。随着任务变长以及累积的历史内容超出模型的固定上下文窗口,其固有局限迫使信息迁移到持久存储中[8 (https://arxiv.org/html/2606.10694#bib.bib25)]。一种直接的解决方案是增加模型的上下文窗口长度[1 (https://arxiv.org/html/2606.10694#bib.bib42), 43 (https://arxiv.org/html/2606.10694#bib.bib47)]。然而,这些进展只是推迟而非解决了内在局限:(1) **无界上下文累积**:随着交互持续数周或数月,无限累积的对话历史将不可避免地超过有限的上下文限制。(2) **长距离注意力衰减**:即使历史信息包含在同一上下文窗口中,由于模型的注意力机制随距离衰减[28 (https://arxiv.org/html/2606.10694#bib.bib48)],它难以有效检索或利用远距离 token,尤其当相关细节散布在众多 token 中时[14 (https://arxiv.org/html/2606.10694#bib.bib46)]。(3) **主题不连续性**:更重要的是,真实对话经常在不同主题间跳跃,例如用户可能提到旅行计划,然后花数小时调试软件 bug,之后再回来讨论旅途中的酒店推荐。关键事实可能淹没在大量无关 token 中,使得全上下文推理效率低下[26 (https://arxiv.org/html/2606.10694#bib.bib49)]。鉴于这些内在局限,单纯扩大上下文窗口既不足够也不可持续。
为了克服这些局限,LLMs 需要采用超越静态上下文扩展的记忆系统,使模型能够保留关键信息、整合相关概念并按需检索相关细节。一种更根本的方法是将模型的长期记忆与其有限的工作记忆(即上下文窗口)解耦。这种分离需要一个**外部记忆仓库**,它能将历史信息持久存储于 LLM 之外,对其进行索引以实现高效检索,并在需要时动态地将相关子集回送到上下文窗口中[53 (https://arxiv.org/html/2606.10694#bib.bib23)]。这样的仓库充当一个专用的**数据管理系统**:从对话流中提取事实,将其组织成可查询的结构,支持增量更新,并提供快速准确的检索。然而,实现这样一个记忆仓库并非易事。通过分析,我们发现现有 LLM 长期记忆管理策略面临的挑战正源于缺乏这样设计良好的记忆机制,并可归结为以下三个关键方面:
参见图注
图 1:现有挑战与设计动机示意图。有限的上下文窗口、长距离注意力衰减及主题不连续性使得 LLMs 难以直接从上下文窗口中保留和检索历史信息,从而促使需要外部记忆仓库。然而,现有记忆系统存在以下问题:(C1) 基于扁平文本的组织缺乏显式记忆链接与多跳检索能力;(C2) 破坏性更新擦除了事实演化;(C3) 查询无关的被动检索无法通过反事实推理恢复缺失证据。
**C1: 扁平记忆组织的低效性。** 当前记忆仓库主要采用扁平文本组织,将累积的历史分段为文本块,每个块独立嵌入并存储在向量数据库中。记忆检索通过查询嵌入的最近邻搜索,返回 top-k 语义相似的块,然后将其追加到提示中[57 (https://arxiv.org/html/2606.10694#bib.bib2)]。虽然这种方法实现简单,但其根本缺陷严重阻碍了检索效率和上下文相关性。首先,每个文本块被视为孤立的语义单元,仓库中没有维护相关块之间的显式链接,因此无法在不需要再次进行相似性搜索的情况下从检索到的块导航到其逻辑邻居。结果,系统无法执行基于路径的推理或多跳检索。其次,纯语义相似性检索能力不足,常常检索到词汇相似但语义无关的块,而遗漏上下文重要的证据[20 (https://arxiv.org/html/2606.10694#bib.bib35)]。
**C2: 缺乏事实演化。** 认识到扁平文本组织的局限,后续工作转向结构化记忆管理。然而,即使记忆以结构化方式组织,当前的 LLM 记忆管理系统仍采用破坏性更新范式,即新获取的事实直接覆盖现有事实,而不保留其演化轨迹[8 (https://arxiv.org/html/2606.10694#bib.bib25), 53 (https://arxiv.org/html/2606.10694#bib.bib23)]。这种替换策略未能捕捉现实世界知识中的时间动态,例如用户偏好、计划和关系持续演化,事实随时间而细化[41 (https://arxiv.org/html/2606.10694#bib.bib50)]。例如,当用户偏好从“喜欢意大利菜”变为“喜欢日本菜”时,大多数研究只是将旧事实替换为新事实,从而抹去了可能为未来推荐或解释行为变化提供依据的历史上下文。这一差距直接促使我们提出:设计一种结构化的记忆管理框架,其中事实标注有显式有效时间区间,冲突更新作为平行版本而非破坏性地覆盖,从而保留每个事实的完整演化历史。
**C3: 记忆检索的低效性与被动性。** 记忆仓库本身的检索机制仍是一个关键瓶颈。现有的记忆检索方法,无论是基于扁平向量相似性[37 (https://arxiv.org/html/2606.10694#bib.bib52)]、基于树的索引[27 (https://arxiv.org/html/2606.10694#bib.bib54)]还是基于图的遍历[38 (https://arxiv.org/html/2606.10694#bib.bib53)],都缺乏查询感知的探索策略。传统方法,如固定步长的随机游走[51 (https://arxiv.org/html/2606.10694#bib.bib51)]或个性化 PageRank (PPR)[15 (https://arxiv.org/html/2606.10694#bib.bib38)],无论查询的意图具体如何,都执行相同的检索模式。基于树的方法[27 (https://arxiv.org/html/2606.10694#bib.bib54)]通常依赖固定深度的遍历或静态阈值,会遗漏与查询相关的深层或分支依赖关系。此外,它们纯粹面向检索并以被动方式运行[21 (https://arxiv.org/html/2606.10694#bib.bib63)]。当检索到的证据不足以回答查询时,它们直接返回“我不知道”。它们无法执行反事实推理,即利用隐式逻辑关系(如对称性:“喜欢”⇔“不喜欢”、“购买”⇔“退货”;上下位关系:“篮球鞋”⊂“运动鞋”;或时序继承)从现有记忆结构中推断新事实。这种被动性限制了模型处理不完整或模糊查询的能力。
为了解决上述挑战,我们引入 **REAL**,一个用于 LLMs 长期记忆管理的**推理增强图框架**。针对 C1 和 C2,REAL 将长期对话记忆组织为一种时序且置信度感知的有向属性图,其中每个原子事实都用实体、关系、有效时间区间、置信度分数和探索意图标签表示。在记忆构建过程中,REAL 以非破坏性方式增量更新图,通过具有显式有效区间的平行版本保留其时序演化。针对 C3 中的记忆检索,REAL 首先锚定查询相关的根实体并解耦其探索意图,然后执行语义评估器引导的混合波束搜索,提取紧凑的证据子图。每个候选遍历路径都由查询相关性、逻辑一致性和实体特定答案充分性进行评估,使模型能够自适应地决定是停止还是扩展某个波束。当正常扩展变得不可靠时,REAL 进一步调用反事实推理机制,生成替代遍历假设并通过隐式关系恢复缺失证据。总结而言,我们的贡献如下:
- **多属性记忆构建机制**。我们提出一种多属性记忆构建机制,将长期对话记忆表示为时序且置信度感知的有向属性图,并采用非破坏性的时序更新策略,保留具有显式有效区间的并行事实版本(针对 C1、C2)。
- **推理增强的自适应检索策略**。我们整合了探索意图解耦、语义评估器引导的混合波束搜索和反事实推理机制,在记忆检索阶段实现查询感知且鲁棒的记忆证据发现(针对 C3)。
- **性能与有效性**。综合评估表明,REAL 在长时记忆性能上显著优于现有的最先进记忆管理方法,平均提升 22.72%。
## II 预备知识
在本节中,我们介绍全文所需的背景知识和基础概念。
### II-A LLMs 的记忆机制
在诸如个人 AI 助手[16 (https://arxiv.org/html/2606.10694#bib.bib41)] 或长期医疗咨询[47 (https://arxiv.org/html/2606.10694#bib.bib40)] 等实际应用中,交互历史通常跨越数月甚至数年。对于这些长时程任务,大语言模型(LLMs)的记忆机制在决定如何积累知识、处理历史经验、检索相关信息以支持决策等方面起着极其重要的作用[57 (https://arxiv.org/html/2606.10694#bib.bib2)]。
**定义 II.1(对话流建模)。** 形式化地,我们将多轮对话定义为一个会话 \(U = (u_1, u_2, \dots, u_T)\),其中每个对话轮次 \(u_t = \{c_t, \tau_t\}\) 包含文本内容 \(c_t\)(通常是用户查询或 LLM 响应)和一个绝对时间戳 \(\tau_t\)(\(\tau_t \in \mathbb{R}_{\geq 0}\))。按时间顺序排列的多个会话形成对话流 \(\mathcal{X} = (U_1, U_2, \dots, U_N)\)。
**定义 II.2(记忆仓库)。** 通常,模型维护一个记忆仓库 \(\mathcal{M}\) 来持久存储从对话流 \(\mathcal{X}\) 中提取的历史信息。\(\mathcal{M}\) 可以采用多种数据组织范式:
- **基于扁平文本的结构**:对话流 \(\mathcal{X}\) 被分割成固定长度的文本块,存储在向量数据库中。检索通过最近邻搜索获取 top-k 语义相似的块。
- **基于图的结构**:这些策略结合图数据库进行记忆存储和检索,将对话流 \(\mathcal{X}\) 表示为实体-关系图,以支持结构化路径遍历和多跳推理。
### II-B LLM 记忆管理的问题形式化
给定对话流 \(\mathcal{X}\),模型应维护一个记忆仓库 \(\mathcal{M}\),使得对于任何新的用户查询 \(q\),模型能从 \(\mathcal{M}\) 中检索出最相关的子集 \(\mathcal{M}|_q\),并生成准确的答案 \(a\)。记忆管理的核心问题可分解为两个子问题:
- **记忆构建**:给定累积的对话流 \(\mathcal{X}\),模型通过记忆构建过程 \(\Phi_{\text{const}}\) 将 \(\mathcal{X}\) 转换为 \(\mathcal{M}\):\(\mathcal{M} = \Phi_{\text{const}}(\mathcal{X})\)。相似文章
记忆是重构的,而非检索:LLM 代理的图记忆
MRAgent 提出了一种新颖的基于图的记忆框架,能在推理过程中动态重构记忆,在长程基准测试上实现高达 23% 的性能提升,同时降低了计算成本。
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。
ActiveMem:面向长程LLM推理的分布式主动记忆
ActiveMem提出了一种分布式主动记忆系统,将智能体记忆与大模型核心推理过程解耦,在长程任务上实现了最先进的准确率,同时显著降低了开销。
基于外部子图生成的大语言模型逐步推理增强
本文提出了SGR框架,通过查询相关的子图生成将外部知识图谱与大语言模型相结合,融合基于Cypher的推理与协同推理集成,从而增强大语言模型的逐步推理能力。在CWQ、WebQSP、GrailQA和KQA Pro上的实验表明,该框架相比标准提示方法和知识增强基线具有更高的推理准确性。
G-Long: 图增强内存管理用于高效长期对话代理
G-Long 提出了一种用于长期对话代理的图增强内存管理框架,利用微调的小型语言模型进行结构化三元组提取和关联检索,在响应生成和内存检索方面取得了最先进的性能,同时降低了计算开销。