先组织后检索：高效智能体的分层记忆导航

arXiv cs.AI 2026/06/11 04:00 论文

hierarchical-memory llm-agents long-horizon-tasks retrieval reinforcement-learning efficiency

摘要

本文提出HORMA，一种分层组织与检索记忆智能体，它将智能体经历组织成类文件系统结构以实现高效检索，在减少token用量的同时提升长周期任务的性能。

arXiv:2606.11680v1 公告类型：新摘要：大型语言模型（LLM）智能体由于固有的无状态性，在处理长周期任务时面临挑战，所有任务相关信息都必须编码在不断增长的输入上下文中。这导致推理质量下降、推理成本增加和延迟升高，因此需要高效的工作记忆机制。然而，现有方法要么依赖有损压缩，要么依赖基于相似性的检索，这些方法往往无法捕捉多步骤智能体任务所需的时间结构和因果依赖。在此工作中，我们提出HORMA，一种分层组织与检索记忆智能体，它将经验组织成类文件系统分层结构，其中摘要实体与对应的原始轨迹相链接，从而在保留详细信息的同时实现高效访问。HORMA将工作记忆分解为两个阶段：结构化记忆构建和基于导航的检索。构建模块通过区分由信息缺失导致的失败和由上下文误导或过载导致的失败，迭代优化经验的组织方式。导航模块使用通过强化学习训练的轻量级智能体遍历层级结构，选择最小但充分的上下文，从而减少关键执行路径上的延迟。在ALFWorld、LoCoMo和LongMemEval上，HORMA在受限上下文预算下提升了任务性能，同时在长对话任务中仅使用基线token用量的最多22.17%。与现有方法相比，它持续实现更好的效率-性能权衡，并有效地泛化到未见任务。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:48

# 先组织后检索：面向高效智能体的层级记忆导航机制 来源：https://arxiv.org/html/2606.11680 Hao\-Lun Hsu¹, Nikki Lijing Kuang², Boyi Liu², Zhewei Yao², Yuxiong He² ¹杜克大学 ²Snowflake AI Research ###### 摘要 大语言模型（LLM）智能体在处理长周期任务时面临固有缺陷——其无状态特性要求所有任务相关信息编码到不断增长的输入上下文中，导致推理质量下降、推理成本增加和延迟升高。因此，高效的工作记忆机制成为必要。然而，现有方法要么依赖有损压缩，要么基于相似性检索，往往难以捕捉多步智能体任务所需的时间结构与因果依赖关系。本文提出 HORMA，一种**层级化组织与检索记忆智能体**，它将经验组织成类似文件系统的层级结构，其中总结实体与对应的原始轨迹相链接，在保留详细信息的同时实现高效访问。HORMA 将工作记忆分解为两个阶段：结构化记忆构建与基于导航的检索。构建模块通过区分由信息缺失导致的失败与由上下文过载或误导导致的失败，迭代地优化经验的组织方式。导航模块使用经强化学习训练的轻量级智能体遍历层级结构，选择最少但充分的上下文，从而减少关键执行路径上的延迟。在 ALFWorld、LoCoMo 和 LongMemEval 上，HORMA 在受限上下文预算下提升了任务性能，同时在长对话任务中最多仅使用基线 22.17% 的 token 用量。与现有方法相比，它在效率与性能之间取得了更优的权衡，并能有效泛化到未见任务。 ## 1 引言 参见图注 图1：HORMA 框架概览。系统旨在解决长周期问题 (0)，并明确将工作记忆解耦为两个专门模块 (1) 和 (2)，附带其专用的检索训练与验证基准 (3 和 4)：(1) 层级化管理智能体，通过递归技能优化将原始轨迹组织成文件系统工作空间内结构化的链接笔记；(2) 层级化检索智能体，使用 Bash 工具和终端操作导航该层级结构，选择与任务相关的上下文。

在智能体系统中，工作记忆作为短期工作空间，使智能体能够在复杂的长周期任务中维护任务相关信息。现有方法存在两个关键局限：智能体要么成为历史囤积者（见图1 (https://arxiv.org/html/2606.11680#S1.F1)(0)），保留大量历史信息\[40 (https://arxiv.org/html/2606.11680#bib.bib65),49 (https://arxiv.org/html/2606.11680#bib.bib66)\]，导致上下文过载\[1 (https://arxiv.org/html/2606.11680#bib.bib62)\]、信息稀释\[20 (https://arxiv.org/html/2606.11680#bib.bib53)\]、高延迟和高推理成本\[14 (https://arxiv.org/html/2606.11680#bib.bib30)\]；要么依赖有损压缩机制\[8 (https://arxiv.org/html/2606.11680#bib.bib24),9 (https://arxiv.org/html/2606.11680#bib.bib25),18 (https://arxiv.org/html/2606.11680#bib.bib64),52 (https://arxiv.org/html/2606.11680#bib.bib63)\]，包括摘要\[21 (https://arxiv.org/html/2606.11680#bib.bib41),37 (https://arxiv.org/html/2606.11680#bib.bib39),42 (https://arxiv.org/html/2606.11680#bib.bib29)\]和上下文折叠\[34 (https://arxiv.org/html/2606.11680#bib.bib31),51 (https://arxiv.org/html/2606.11680#bib.bib32)\]，这些方法不可逆地丢弃了下游推理所需的细粒度信息\[16 (https://arxiv.org/html/2606.11680#bib.bib38),17 (https://arxiv.org/html/2606.11680#bib.bib11),25 (https://arxiv.org/html/2606.11680#bib.bib37),27 (https://arxiv.org/html/2606.11680#bib.bib51),43 (https://arxiv.org/html/2606.11680#bib.bib18)\]。为解决这些局限，近期工作将工作记忆委托给显式的外部存储系统\[13 (https://arxiv.org/html/2606.11680#bib.bib47),24 (https://arxiv.org/html/2606.11680#bib.bib49),3 (https://arxiv.org/html/2606.11680#bib.bib43),46 (https://arxiv.org/html/2606.11680#bib.bib44),47 (https://arxiv.org/html/2606.11680#bib.bib5),63 (https://arxiv.org/html/2606.11680#bib.bib13)\]。尽管提升了存储可扩展性，但现有外部记忆架构通常将经验组织为扁平化的独立条目集合，通过语义相似性检索\[3 (https://arxiv.org/html/2606.11680#bib.bib43),15 (https://arxiv.org/html/2606.11680#bib.bib50),28 (https://arxiv.org/html/2606.11680#bib.bib19),46 (https://arxiv.org/html/2606.11680#bib.bib44)\]。这种设计无法捕获长时间交互中积累的时间层级和因果依赖关系。因此，检索往往退化为浅层语义匹配，呈现出时间上不一致或上下文不相关的信息\[66 (https://arxiv.org/html/2606.11680#bib.bib12),47 (https://arxiv.org/html/2606.11680#bib.bib5),60 (https://arxiv.org/html/2606.11680#bib.bib3),4 (https://arxiv.org/html/2606.11680#bib.bib4)\]。因此，有效的长周期记忆不仅需要选择性保留，还需要将积累的经验组织成可复用且语义一致的结构\[13 (https://arxiv.org/html/2606.11680#bib.bib47),45 (https://arxiv.org/html/2606.11680#bib.bib14),57 (https://arxiv.org/html/2606.11680#bib.bib20)\]，从而提升下游任务性能。

为支持这种结构化长周期记忆，大多数现有记忆系统将记忆构建与检索视为一个整体系统，在统一框架内联合优化\[4 (https://arxiv.org/html/2606.11680#bib.bib4),60 (https://arxiv.org/html/2606.11680#bib.bib3),65 (https://arxiv.org/html/2606.11680#bib.bib46),53 (https://arxiv.org/html/2606.11680#bib.bib36),34 (https://arxiv.org/html/2606.11680#bib.bib31)\]。然而，记忆构建与检索服务于根本不同的功能角色，并允许不同的优化策略。记忆构建决定了经验如何随时间被抽象和组织。其影响往往在长时间交互后才显现，因此难以通过即时任务结果评估其质量。此外，现代专有 LLM 已展现出较强的语义抽象与层级结构化能力\[10 (https://arxiv.org/html/2606.11680#bib.bib27),32 (https://arxiv.org/html/2606.11680#bib.bib28),12 (https://arxiv.org/html/2606.11680#bib.bib26)\]，这表明有效的记忆结构通常可以直接从其现有能力中诱导出来。相反，记忆检索决定了推理时哪些信息暴露给智能体，因此直接影响下游决策。因此，检索自然更适合显式优化。这种区别在基于强化学习（RL）的记忆系统中尤为突出。通过稀疏的任务级奖励联合优化记忆构建与检索会引入严重的**信用分配鸿沟**\[33 (https://arxiv.org/html/2606.11680#bib.bib7)\]：当智能体在长周期任务中失败时，难以判断失败源于糟糕的记忆组织、不准确的检索还是下游推理\[55 (https://arxiv.org/html/2606.11680#bib.bib40),59 (https://arxiv.org/html/2606.11680#bib.bib67),35 (https://arxiv.org/html/2606.11680#bib.bib22)\]。因此，稀疏的结果奖励为两个组件提供了微弱且纠缠的监督信号。现有通过中间或多级奖励缓解该问题的尝试部分减轻了优化难度，但通常需要精心设计的奖励机制\[4 (https://arxiv.org/html/2606.11680#bib.bib4),39 (https://arxiv.org/html/2606.11680#bib.bib45)\]，并且难以泛化到对话环境之外\[4 (https://arxiv.org/html/2606.11680#bib.bib4)\]。

受这些观察启发，我们提出 HORMA，一种**层级化组织与检索记忆智能体**，它在共享的层级化文件系统工作空间内明确解耦记忆构建与检索（图1 (https://arxiv.org/html/2606.11680#S1.F1)）。两个模块均实现为工具使用智能体，通过可执行的文件系统操作和 Bash 工具与工作空间交互，同时服务于不同的功能角色。记忆构建模块负责维护语义组织的记忆结构，为长周期推理提供稳定的抽象。HORMA 不直接通过不稳定的长周期 RL 优化记忆构建，而是将记忆构建视为持续的管理技能获取过程。我们利用具有较强层级推理能力的专有 LLM 初始化一个领域无关的构建策略\[10 (https://arxiv.org/html/2606.11680#bib.bib27),32 (https://arxiv.org/html/2606.11680#bib.bib28)\]，并通过成功与失败轨迹的对比分析迭代优化该策略。随着时间的推移，构建模块积累可复用的记忆管理技能\[2 (https://arxiv.org/html/2606.11680#bib.bib55)\]，这些技能跨任务迁移，而无需从头重新学习记忆构建。相反，检索模块直接作用于推理路径，负责从层级化工作空间中高效提取与任务相关的上下文。检索智能体不依赖扁平的语义检索，而是通过专用的 Bash 工具主动导航组织好的记忆结构，从而实现对历史信息更时间一致和因果扎实的访问\[19 (https://arxiv.org/html/2606.11680#bib.bib15),45 (https://arxiv.org/html/2606.11680#bib.bib14)\]。我们进一步引入两个可执行动作 `select` 和 `done`，使智能体能够迭代验证检索到的记忆并发现缺失的上下文细节\[48 (https://arxiv.org/html/2606.11680#bib.bib8)\]。为了在稀疏任务级监督之外实现针对检索的优化，我们引入了一个辅助学习信号（即基于证据的检索奖励），该信号基于检索到的上下文与任务相关地面真实证据之间的重叠。这提供了直接、细粒度的检索质量反馈，与下游推理性能解耦。利用这一信号，我们在轻量级骨干网络上使用 RL 优化检索策略，从而在受限上下文预算下实现高效的上下文提取，同时降低计算开销。

我们在三个具有挑战性的长周期基准上评估 HORMA。在 ALFWorld\[31 (https://arxiv.org/html/2606.11680#bib.bib1)\]上，HORMA 在小型和大型上下文限制下均实现了更高的成功率，同时在交互步数和 token 用量之间改善了 Pareto 效率。在长对话基准上，HORMA 显著减少了上下文消耗，在 LoCoMo\[22 (https://arxiv.org/html/2606.11680#bib.bib23)\]上仅使用不同基线所需 token 的 3.07%–22.17%，在 LongMemEval\[41 (https://arxiv.org/html/2606.11680#bib.bib2)\]上为 1.24%–16.19%。值得注意的是，学习到的轻量级检索智能体在 LongMemEval 上表现出强大的分布外泛化能力，优于所有基线，包括那些无上下文约束的基线。总体而言，这些结果表明，明确解耦记忆管理与检索能够在严格的上下文限制下产生更高效、更可解释和更可扩展的工作记忆机制。

## 2 相关工作

#### LLM 智能体中的工作记忆。
工作记忆方法的区别在于：是在上下文进入之前强调压缩与结构化，还是在执行过程中进行动态的策略驱动维护。但两者都旨在缓解上下文饱和，同时保留任务相关信息以供推理\[7 (https://arxiv.org/html/2606.11680#bib.bib35)\]。一条工作线侧重于前上下文或上下文内状态形成，在交互历史进入活动上下文之前或之时进行压缩或重组。诸如 ReSum\[42 (https://arxiv.org/html/2606.11680#bib.bib29)\]和 ACON\[14 (https://arxiv.org/html/2606.11680#bib.bib30)\]等方法将轨迹学习压缩为紧凑的推理状态，而层级折叠\[34 (https://arxiv.org/html/2606.11680#bib.bib31),51 (https://arxiv.org/html/2606.11680#bib.bib32)\]和基于子目标的方法\[6 (https://arxiv.org/html/2606.11680#bib.bib42),38 (https://arxiv.org/html/2606.11680#bib.bib17)\]引入了重组，将长周期交互组织成可管理的抽象。第二条工作线解决执行过程中的工作记忆在线维护问题，直接在固定预算下的演化上下文中操作。方法\[53 (https://arxiv.org/html/2606.11680#bib.bib36),55 (https://arxiv.org/html/2606.11680#bib.bib40),61 (https://arxiv.org/html/2606.11680#bib.bib34)\]使用循环更新来维护紧凑状态，而基于策略的方法\[3 (https://arxiv.org/html/2606.11680#bib.bib43),47 (https://arxiv.org/html/2606.11680#bib.bib5)\]将记忆操作视为决定在交互过程中存储、更新或丢弃哪些内容的动作。

#### LLM 的强化学习。
强化学习（RL）已成为提升 LLM 性能的核心技术\[29 (https://arxiv.org/html/2606.11680#bib.bib10),30 (https://arxiv.org/html/2606.11680#bib.bib60),26 (https://arxiv.org/html/2606.11680#bib.bib9)\]。RL 使得 DeepSeek-R1\[5 (https://arxiv.org/html/2606.11680#bib.bib59)\]和 Search-R1\[11 (https://arxiv.org/html/2606.11680#bib.bib58)\]等以推理为中心的模型得以涌现。然而，这些方法通常依赖保留整个交互轨迹，导致长周期场景下的可扩展性和效率限制。近期工作开始探索通过 RL 进行记忆构建与管理。早期方法\[65 (https://arxiv.org/html/2606.11680#bib.bib46),53 (https://arxiv.org/html/2606.11680#bib.bib36)\]训练模型维护轻量级文本记忆。后续方法引入了更丰富的记忆表示以及简化的记忆工具接口\[47 (https://arxiv.org/html/2606.11680#bib.bib5),62 (https://arxiv.org/html/2606.11680#bib.bib57),58 (https://arxiv.org/html/2606.11680#bib.bib56)\]。与之前端到端记忆增强的 RL 方法相比，我们将记忆检索建模为一个导航问题，并纯粹训练一个专用的检索智能体，从而缓解信用分配挑战。

#### 记忆与技能演化。
将复杂经验抽象为可复用技能的能力是自我改进智能体的基础\[2 (https://arxiv.org/html/2606.11680#bib.bib55)\]，能够实现记忆引导的决策。先前工作使用 RL 在智能体的技能库中选择或优化技能。MemSkill\[59 (https://arxiv.org/html/2606.11680#bib.bib67)\]将记忆操作视为可学习技能，并通过 RL 训练控制器以选择适当的记忆行为。SkillRL\[44 (https://arxiv.org/html/2606.11680#bib.bib69)\]通过将成功轨迹蒸馏为可复用策略，联合演化智能体策略与技能库。将技能表示为可执行代码可以进一步提升精度和可复用性。PolySkill\[54 (https://arxiv.org/html/2606.11680#bib.bib54)\]将高层技能抽象与特定站点的实现分离，以便在不同网页界面之间迁移技能，而技能库

先组织后检索：高效智能体的分层记忆导航

相似文章

H-Mem：一种通过混合结构实现智能体记忆演化与检索的新型记忆机制

MemForest：一种具有分层时间索引的高效智能体记忆系统

基于文件系统的LLM Agent记忆：组织、演化与可持续性

用于Claude Code、Hermes和OpenClaw Agent的开源自然时序记忆库

rohitg00/agentmemory

提交意见反馈