H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制

arXiv cs.CL 论文

摘要

H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。

arXiv:2605.15701v1 Announce Type: new 摘要:记忆数据在基于大语言模型(LLM)的智能体(例如OpenClaw和Manus)中无处不在。近期一些工作尝试利用智能体的记忆来提升其在问答(QA)任务上的性能,但这些方法缺乏有效建模记忆数据随时间演化以及高效检索记忆数据的原则性机制,导致记忆利用性能不佳。为填补这一空白,我们提出了H-Mem——一种通过混合结构实现的新型记忆机制,它不仅能有效建模智能体记忆在长时间跨度内的演化,还能提供高效的记忆检索方法。具体而言,H-Mem构建了一种时间-语义树结构,使短期记忆数据逐步演化为长期记忆数据,后者提供前者的摘要信息;同时构建知识图谱以捕捉记忆实体之间的关系。此外,通过利用树和图结构的混合特性,H-Mem提供了一种有效的记忆检索方法。在三个智能体记忆基准上的大量实验表明,H-Mem在问答任务上达到了最先进水平。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:34

# H-Mem: 一种通过混合结构演化与检索智能体记忆的新型记忆机制

来源:https://arxiv.org/html/2605.15701

贾伟宇¹,方奕翔¹,刘希林²,马玉驰²  
¹香港中文大学(深圳)  
²华为云计算技术有限公司  
[email protected], [email protected]  
{liuxilin3, mayuchi1}@huawei.com

###### 摘要

记忆数据在基于大型语言模型(LLM)的智能体(如 OpenClaw 和 Manus)中普遍存在。近期一些工作尝试利用智能体的记忆来提升其在问答(QA)任务上的表现,但这些方法缺乏一种能够有效建模记忆数据随时间演化的机制,也无法高效地检索记忆数据,导致记忆利用率不佳。为填补这一空白,我们提出 H-Mem,一种通过混合结构实现的新型记忆机制。它不仅能有效模拟长时间内智能体记忆的演化过程,还能提供高效的记忆检索方式。具体而言,H-Mem 构建了一个时间与语义的树形结构,使得短期记忆数据能够逐步演化为长期记忆数据,后者提供对前者的摘要信息;同时,它构建了一个知识图谱来捕获记忆实体之间的关系。此外,通过利用树与图的混合结构,H-Mem 提供了一种有效的记忆检索方法。在三个智能体记忆基准上的大量实验表明,H-Mem 在问答任务上达到了最先进的性能。

## 1 引言

基于 LLM 的智能体(如 OpenClaw [17] 和 Manus [13])因其在解决复杂现实任务(如问答)中的强大能力而受到广泛关注。在用户与智能体的交互过程中,产生了并积累了大量记忆数据。通常,智能体记忆数据指的是智能体在交互过程中积累的信息,如对话历史和任务执行记录。通过利用记忆数据,智能体不仅可以清晰理解用户的偏好和行为,还能提升在理解上下文、保持对话连贯性以及执行复杂任务方面的表现。因此,现代智能体的一个关键组成部分就是记忆机制,它负责存储和操作智能体记忆数据。

为了让基于 LLM 的智能体能够利用记忆数据,一个简单的记忆机制是将记忆存储为纯文本,检索与特定用户相关的所有记忆数据,然后使用这些检索到的数据来为该用户完成任务。然而,由于 LLM 的有限上下文窗口,这种机制无法有效或高效地处理大量记忆数据,尤其是当智能体与用户有长时间交互时。为缓解这一瓶颈,现有系统通常对记忆数据应用检索增强生成(RAG)技术 [10, 23];也就是说,智能体在解决任务时只从外部记忆数据库中检索相关的记忆信息。

表 1:代表性智能体记忆方法分类。

| 类别 | 方法 | 记忆索引 | 记忆演化 | 多跳推理 |
|------|------|----------|----------|----------|
| 向量索引 | MemoryBank, Mem0 | 向量 | ✗ | ✗ |
| 树索引 | MemTree, MemOS, MemoryOS, EverMemOS | 树 | ✓ | ✗ |
| 图索引 | Zep | 图 | ✗ | ✓ |

在这种基于记忆的 RAG 范式下,现有方法不仅在检索前如何索引记忆数据上有所不同,而且在检索机制上(即如何从索引中访问相关证据)也存在差异。根据记忆索引结构,现有记忆机制大致可分为三类,如表 1 所示。在表 1 中,“记忆演化”表示基于时间窗口的从短期记忆到长期摘要的整合,“多跳推理”表示跨记忆片段的实体或关系层级的遍历。第一类方法采用**向量索引**,这是一种单层的记忆组织方式,其中记忆片段作为独立条目存储。为实现高效记忆检索,这些片段通常被编码为嵌入向量,一些方法进一步将这些嵌入存储在向量数据库中 [27, 2]。第二类方法主要探索**树索引**,其中记忆数据的语义主题按层次组织在多层级中,低层级保留细粒度的语义主题,高层级提供细粒度语义主题的抽象或持久表示 [20, 7, 11, 6]。要查询关于特定主题的记忆片段,只需沿着树结构以自底向上或自顶向下的方式显式遍历。第三类方法主要使用**图索引**,其中实体和关系分别表示为节点和边 [19]。通过遵循实体之间的链接关系,它们可以自然地支持快速的关系检索和多跳推理。

尽管取得了进展,现有记忆机制仍存在两个主要限制:首先,它们的索引设计在建模记忆演化方面仍然有限,而记忆演化(如人类记忆巩固研究所建议的)是指短期记忆可以逐步整合为长期记忆 [14, 21]。这主要是因为它们未能明确考虑时间维度,导致无法区分记忆数据中的短期和长期语义主题。其次,它们在执行问答任务时无法准确从记忆索引中检索相关证据。具体来说,基于向量索引的方法在相似性搜索方面效率高,但将记忆数据视为独立条目,因此既不能显式捕捉时间抽象,也不能捕获实体级的关系依赖。基于树索引的方法无法准确捕获实体间的多跳关系;而基于图索引的方法由于缺乏记忆演化机制,无法识别已整合的记忆数据。总体而言,这些方法主要依赖于单一索引(向量、树或图),因此无法准确从记忆数据中检索相关证据。因此,现有工作缺乏一种能够同时建模长期记忆演化并支持精确检索的原则性机制。

为解决上述局限,我们提出 H-Mem,一种通过树与图混合结构实现的新型记忆机制。H-Mem 的关键区别不仅在于同时使用树索引和图索引,还在于将时间-语义记忆演化与实体中心的多跳推理相结合。H-Mem 的树结构在时间和语义上组织记忆数据,其中每个树节点在预定义的时间窗口内保留关于特定语义主题的记忆信息。具体来说,每个叶节点存储智能体原始记忆片段的一个事件,包含在特定时间戳生成的语义主题(例如对话中的一条消息),而上层节点则存储其下层细粒度语义主题的记忆摘要,覆盖各自的时间窗口。为了实现记忆演化,H-Mem 执行时间与语义的整合:即,给定同一层级中时间窗口非常接近的两个树节点,如果它们记忆数据之间的语义相似度超过预定义阈值,它们可以共享同一个父节点,该父节点的记忆摘要保存了这两个节点的整合信息。显然,这种时间和语义的树形结构使得短期记忆能够逐步演化为长期记忆。此外,H-Mem 的图结构维护一个知识图谱,包含从记忆数据中提取的实体及其关系,有效地记录超越时间顺序的实体中心信息,并捕获跨不同记忆片段的实体间多跳关系。总体而言,树和图结构相互补充,这种混合结构克服了现有工作中普遍存在的依赖单一索引的问题。

基于这种混合结构,H-Mem 包含一种有效的检索方法。给定一个查询 Q,它首先将 Q 分解为若干子查询,并为每个子查询生成检索工作流。然后,对于每个子查询,它在图中定位一些原始记忆片段和多跳相关实体。接着,它以自底向上的方式从树中搜索相关证据,用于完成 RAG 过程。我们已在三个涵盖多种问答场景的公开长期记忆基准上,将 H-Mem 与代表性的 SOTA 基线进行了评估。结果表明,H-Mem 在保持竞争性的索引和检索效率的同时,取得了优异的 F1 分数和准确率。进一步的分析验证了时间树、知识图谱以及智能体辅助检索策略的贡献。

我们的主要贡献总结如下:

- 我们提出 H-Mem,一种通过树与图混合结构有效建模长时间智能体记忆演化的新型记忆机制。
- 基于上述混合结构,我们开发了一种有效的方法来检索相关记忆证据以支持问答任务。
- 在三个公开的长期智能体记忆基准上的实验表明,H-Mem 在解决问答任务时达到了 SOTA 性能,同时保持了竞争性的效率。

## 2 相关工作

### 2.1 检索增强生成(RAG)

近期,许多工作探索了 LLM 如何访问其参数化知识和即时提示上下文之外的外部信息。简单地扩展上下文窗口是不够的,因为关键挑战在于如何有效地选择、组织和重用外部信息。在这种背景下,RAG 已成为在推理时纳入外部知识的广泛应用技术 [10, 28]。给定一个问题 Q,它从外部数据库中检索相关信息,将其与 Q 结合作为提示,然后输入 LLM 进行生成。各种类型的 RAG 技术已被研究:朴素 RAG 从外部语料库中检索相关段落;基于图的 RAG 利用图结构索引进行多跳和关系感知推理 [4, 5];智能体式 RAG 将检索纳入自适应的推理循环中,使模型能够在多步问题求解过程中决定何时以及如何检索 [1, 9]。

### 2.2 基于智能体记忆的 RAG 与智能体记忆机制

由于智能体记忆数据可视为一种外部信息,自然可用于 RAG。基于记忆的 RAG 技术 [23] 通常首先从记忆数据中提取有用信息(如用户偏好和事件),然后将其组织成某种索引结构,最后在回答问题时检索相关证据并注入提示中。然而,与传统 RAG 技术(通常使用静态文档提供事实依据)不同,基于记忆的 RAG 技术操作的是从交互中衍生的、随时间演化的有状态记忆数据,旨在理解上下文、保持对话连贯并执行复杂任务。因此,它们严重依赖于记忆机制,该机制不仅要提供有效的记忆数据组织方式,还要提供有效的记忆演化和检索方法。

根据记忆索引结构,现有记忆机制大致可分为三类:(1)基于向量的记忆方法,如 MemoryBank [27] 和 Mem0 [2],将交互衍生的记忆存储为独立嵌入,并从持续交互中检索相关记忆。(2)基于树的记忆方法,如 MemTree [20],引入动态树结构表示以在不同抽象层次组织记忆。MemOS [11] 在其 MemCube 抽象中也支持类似树的文本记忆模块。相关的层次记忆方法,如 MemoryOS [7] 和 EverMemOS [6],也在多个层级或结构化单元中组织记忆,强调记忆管理和长期重用。(3)基于图的记忆方法,如 Zep [19],为智能体记忆构建时序知识图谱,实现对演化事实和实体的关系访问。此外,近期工作还从相关角度探索了结构化和自适应记忆机制。A-Mem [25] 研究了智能体记忆机制,而多粒度记忆方法 [24] 则研究了不同抽象层次下的记忆关联与选择。

如前所述,尽管上述工作取得了一些令人鼓舞的进展,但其索引设计在建模记忆数据演化方面仍然有限,这种演化将短期记忆片段逐步整合为长期记忆片段。此外,它们在执行问答任务时无法准确从记忆索引中检索相关证据。因此,有必要研究一种新的记忆机制,既能有效建模长时间内智能体记忆的演化,又能提供高效的记忆检索方法。

## 3 我们提出的记忆机制 H-Mem

为有效支持基于记忆的 RAG,我们提出 H-Mem,一种用于演化和检索智能体记忆的新型记忆机制。H-Mem 包含两个阶段:**离线索引**和**在线检索**。其中,前一阶段构建树与图的混合结构,后一阶段包含一种利用该混合结构的智能体式记忆检索方法。

插图说明

插图说明

图 1:H-Mem 的离线索引阶段。

### 3.1 概述

令 F = {f_i} 为记忆数据的原始记忆片段集合。在离线索引阶段,如图 1 所示,H-Mem 为 F 构建一个混合结构,主要包括两部分:

- **树**:我们构建一个时间与语义的树结构 T,其中每个节点在预定义的时间窗口内保留关于特定语义主题的记忆信息。在时间视角下,从叶节点到根节点的所有层级都有预定义的时间窗口(例如一天、一周、一个月等),父节点的时间窗口覆盖其子节点的时间窗口。

相似文章

受人类启发的LLM智能体记忆架构

arXiv cs.AI

微软研究人员提出了一种受生物学启发的LLM智能体记忆架构,该架构结合了睡眠阶段巩固和基于干扰的遗忘机制,以高效管理持久性记忆。

DimMem:面向高效长期智能体记忆的维度结构化

arXiv cs.CL

DimMem 提出了一种用于 LLM 智能体的维度记忆框架,将记忆表示为具有显式字段的原子化、类型化单元,在 LoCoMo-10 和 LongMemEval-S 上实现了最先进的准确率,同时将 token 成本降低了 24%。