Auto-Dreamer:语言代理的离线记忆整合学习

arXiv cs.CL 论文

摘要

Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法,将快速记忆获取与慢速跨会话整合解耦,以更小的记忆库实现更高性能,并泛化到未见环境。

arXiv:2605.20616v1 公告类型:新 摘要:语言代理越来越多地处理相关任务流,然而现有的记忆系统难以将积累的经验转化为可重用的知识。检索增强和结构化记忆方法能有效记录每次会话的观察结果,但往往将获取和整合耦合为单一的在线过程,使得代理无法跨会话获得全局视角来发现重复模式、抽象共享过程或修剪冗余条目。受互补学习系统理论的启发,我们提出了 Auto-Dreamer,一种用于语言代理记忆的离线整合器。Auto-Dreamer 将快速的每次会话记忆获取与慢速的跨会话整合解耦。给定类型化记忆库的一个选定工作区域,整合器将该区域视为只读证据,进行受限的工具使用以检查条目及其来源链接的源轨迹,并综合生成一个紧凑的替代集,该集合跨会话进行抽象并取代原始区域。我们通过 GRPO 训练 Auto-Dreamer,使用端到端代理性能作为奖励信号来学习如何整合通过快速在线经验获取的记忆。仅在 ScienceWorld 轨迹上训练后,Auto-Dreamer 在 ScienceWorld 上的表现优于固定的、RL 训练的和提示记忆基线 7 个点,同时使用的活跃记忆库比最强基线小 12$\times$,并且在未重新训练的情况下在保留的 ALFWorld 和 WebArena 上继续保持领先——在 ALFWorld 上使用的内存比最强基线少 6$\times$。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:34

# Auto-Dreamer: 为语言代理学习离线记忆巩固  来源:https://arxiv.org/html/2605.20616

Chongrui Ye,\(^1\) Yuxiang Liu\(^{1}\)¹,\(^{1}\) Yu Wang\(^{2}\) Haofei Yu\(^{1}\) Yining Zhao\(^{1}\) Ge Liu\(^{1}\) Julian McAuley\(^{2}\) Jiaxuan You\(^{1}\)

\(^{1}\)伊利诺伊大学厄巴纳-香槟分校  
\(^{2}\)加州大学圣地亚哥分校  

*同等贡献。顺序由抛硬币决定;两位作者均保留将自己列为第一作者的权利。*

###### 摘要

语言代理越来越多地在一系列相关任务流上运行,然而现有的记忆系统难以将积累的经验转化为可复用的知识。检索增强型和结构化记忆方法能有效记录每个会话的观察结果,但通常将获取和巩固耦合为单一的在线过程,使得代理无法从全局视角跨会话发现重复模式、抽象共享过程或修剪冗余条目。受互补学习系统理论的启发,我们提出 Auto-Dreamer,一种为语言代理记忆学习的离线巩固器。Auto-Dreamer 将快速的每会话记忆获取与缓慢的跨会话巩固解耦。给定一个带有类型的记忆库中的选定工作区域,巩固器将该区域视为只读证据,执行受限的工具使用来检查条目以及与之关联的来源轨迹,并综合出一个紧凑的新替换集,该替换集跨会话进行抽象并取代原始区域。我们通过 GRPO 训练 Auto-Dreamer,使用端到端的代理性能作为奖励信号,学习如何巩固通过快速在线经验获取的记忆。仅使用 ScienceWorld 轨迹训练,Auto-Dreamer 在 ScienceWorld 上比固定的、RL 训练的和提示驱动的记忆基线高出 7 个百分点,同时使用的活跃记忆库比最强基线小 12 倍,并且在未经过再训练的保留的 ALFWorld 和 WebArena 上继续保持领先——在 ALFWorld 上使用的记忆比最强基线少 6 倍。

## 1 引言

语言代理越来越多地在一系列相关任务流上部署,而非孤立的交互[27,33]。在这种设置下,长期记忆不仅仅是过去实体或用户偏好的检索缓存;它是代理将原始经验转化为可复用程序、环境知识和行为先验的机制,从而改善未来的决策。因此,记忆系统必须解决两个不同的问题:它必须从每个新轨迹中快速获取有用信息,并且必须定期将积累的经验重新组织成紧凑、无冗余并对未来任务有用的形式。

最近的工作在语言代理记忆的各个组件上取得了显著进展[10,11],包括检索增强的剧集存储[43,21]、结构化记忆系统[29,34]、程序技能库[6,26,20]、基于反思的方法[23,16]以及 RL 训练的记忆管理器[37,32,35,30]。尽管如此,仍存在两个挑战。首先,巩固问题:现有方法通常将获取和巩固耦合为单一的在线更新过程,因此每次更新只能基于当前会话的有限证据。这使得发现重复模式、抽象出跨会话泛化的可复用程序、解决矛盾或修剪冗余条目变得困难。其次,记忆效用问题:RL 训练的记忆方法优化的是在线构建或检索,而非在明确的效用目标下进行离线巩固,因此它们并未直接学习哪些记忆是关键的、哪些条目是冗余的,或者如何在成功和记忆紧凑性之间进行权衡。

我们从人类记忆的互补学习系统理论中获得灵感,该理论中快速的海马系统编码单个情节,而较慢的新皮层系统逐步提取跨情节的共享结构[18,12,17]。我们采用 CLS 并非作为关于语言模型的生物学主张,而是作为一种操作设计原则,用于将快速获取与缓慢的跨会话巩固分离。我们引入了 **Auto-Dreamer**,一种为语言代理记忆学习的离线巩固器。¹¹¹Auto-Dreamer 与 Dreamer 系列世界模型[7,8]不同;我们的方法作用于记忆条目和源轨迹,而非潜在环境动态。Auto-Dreamer 是快速每会话写入器的慢时间尺度对应物。给定由写入器产生的带类型记忆库,它执行多步工具使用展开:搜索记忆、检查候选条目、检索原始源轨迹以获取出处,并综合出跨会话抽象的新条目。其核心操作是**区域重写**:巩固器将选定的工作区域视为只读证据,并综合出一个新的替换集,该替换集取代原始区域。这种替换语义使紧凑性成为结构性的而非辅助性的:旧条目默认不保留,信息只有在被重新综合进替换集时才得以幸存。因此,抽象、去重、矛盾解决和基于省略的遗忘成为默认行为。

我们使用 GRPO[22] 训练 Auto-Dreamer,采用复合奖励,该奖励结合了下游任务性能与通过随机记忆掩码估计的反事实效用项,从而惩罚冗余条目并奖励关键条目。任务代理和每会话写入器在训练期间保持固定,从而隔离巩固器的贡献。我们在两种模式下评估 Auto-Dreamer:持续记忆部署模式(库从空开始并在任务流中增长)和固定库巩固模式(预先构建的库被重写一次)。结果支持三个结论。首先,Auto-Dreamer 提高了任务成功率,同时保持了显著更小的活跃记忆库:在持续部署中,它在 ScienceWorld[28] 上达到了 41.1% 的成功率,比最强基线高出 7 个百分点,记忆少 12 倍;在保留的 ALFWorld[24] 上达到 60.2%,记忆比最强基线少 6 倍;在保留的 WebArena[44] 上达到 52.3%,领先所有基线。其次,学习到的巩固器可以迁移到其训练分布之外:尽管仅使用 ScienceWorld 轨迹训练,它在不进行进一步更新的情况下提高了保留的 ALFWorld 和 WebArena 上的性能,包括在写入器骨干从 Qwen3-14B[25] 切换到 Gemini-3.1-flash-lite-preview[4] 的情况下。第三,受控的固定库实验和消融研究表明,增益来自于离线巩固本身:区域重写提高了给定记忆库的质量,而反事实效用项在不牺牲任务性能的情况下抑制了冗余记忆。

我们的贡献总结如下:
- • **一种双时间尺度的语言代理记忆公式。** 我们区分了快速的每会话获取和缓慢的跨会话巩固,并将后者形式化为一个基于积累证据的学习决策问题。
- • **区域重写作为诱导紧凑性的巩固原语。** 我们将离线巩固形式化为基于出处的区域重写:选定的工作区域被视为只读证据,并由综合出的替换集替换。这与逐条目的 CRUD 不同,它使跨会话抽象、去重和基于省略的遗忘成为默认更新语义。
- • **具有区域局部信用的 RL 训练。** 由于区域重写产生自包含的替换集,我们可以直接评估它,并利用下游任务性能分配局部信用,而无需监督记忆标签。我们进一步使用反事实掩码来奖励关键记忆并抑制冗余条目,从而提高紧凑库的任务效用。

## 2 相关工作

**语言代理的记忆系统。** 越来越多的工作设计了语言代理的记忆架构。早期系统围绕原子单元或扁平存储组织记忆,例如 A-MEM[34]、Mem0[2]、MemOS[13] 和 SimpleMem[15]。近期工作引入了更丰富的带类型记忆,涵盖情节、语义和程序存储,包括 EverMemOS[9]、MIRIX[29]、Nemori[19] 和 PlugMem[36]。另一条补充路线侧重于从轨迹中提取可复用的程序或策略:Memp[6] 和 Voyager[26] 构建程序技能库,ExpeL[42] 从成功和失败的轨迹中提取跨任务洞察,ReasoningBank[20] 提炼高层次推理策略,而 ReMem[32] 研究测试时的记忆演化。这些系统改善了代理存储经验的方式,但它们的记忆更新由提示驱动的启发式规则控制,在每次会话期间或之后立即执行,没有明确的跨会话巩固。

**RL 训练的记忆管理器。** 近期工作探索了使用强化学习训练语言模型来构建记忆。MEM1[45] 和 MemAgent[38] 训练模型更新简单的纯文本记忆。Memory-R1[35]、Learn-to-Memorize[41]、REMEMBER[39] 和 Mem-α[30] 引入了更丰富的记忆表示,并通过交互和反馈教导代理管理复杂的记忆系统。然而,这些方法主要关注教导模型从其输入中提取和组织知识,而非提高下游代理任务的性能。后来的方法弥合了这一差距:UMEM[37] 在在线单步接口下联合训练记忆提取和管理(使用 GRPO),而 MemRL[40] 训练代理在决策时检索正确的记忆。尽管如此,所有这些方法都在线运行:记忆更新与任务执行交错,因此巩固证据仅限于当前会话。Auto-Dreamer 解决了一个互补的问题,它在跨多个会话积累的库上离线运行,并且可以访问完整的记忆库和原始源轨迹。

**离线计算与睡眠时间记忆。** 睡眠时间计算[14] 在查询到达之前预先计算持久上下文,从而将推理分摊到未来的交互中。LightMem[5] 结合了在线写入器和周期性离线巩固,但其巩固实现为固定的提示驱动管道,采用逐条目的 CRUD 决策。Auto-Dreamer 则执行**区域重写**:它将选定的工作区域视为只读证据,然后使用学习到的多步工具使用巩固器综合出一个紧凑的新替换集,该替换集跨会话抽象并取代原始区域。替换集基于可重读的源轨迹,并使用下游任务奖励进行训练。

## 3 预备知识

图 1:记忆原语和操作。
(A) 记忆库 B 包含带类型条目(语义或程序);每个条目具有短名称 n_i、主体 s_i 以及指向轨迹日志 T 中源轨迹的出处链接。
(B) 读取操作通过将冻结的句子编码器 φ 应用于查询和每个条目的名称-主体文本,检索余弦相似度最高的前 K 个条目。
(C) 写入操作将可学习的巩固器 C_θ 应用于工作区域 R ⊆ B 及其出处链接的轨迹 T_R,生成替换集 S,该替换集在巩固后的库 B⋆ 中取代 R。

**任务设置。** 一个冻结的任务代理在一系列会话 τ 上运行,每个会话产生一条动作-观察轨迹和最终结果。代理通过固定的检索器访问带类型的长期记忆库 B,以及记录原始会话以供出处的轨迹日志 T。离线巩固使任务代理、检索器和记忆模式保持固定;它将 B 转换为巩固后的库 B⋆。T 中的原始轨迹在决策时不被任务代理检索,但作为出处证据仍然可供巩固器使用。

**记忆库。** 记忆条目是一个带类型的文本抽象,具有短名称 n、主体 s 以及指向 T 中源轨迹的出处链接。每个条目要么是**语义**(事实环境知识,例如“厕纸架通常挂在浴室墙上”),要么是**程序**(可复用的如何做技能,例如“要冷却物体,将其放入冰箱,等待,然后取出”)。记忆库 B 是这些条目的集合。

**记忆操作。** 库支持两种互补的操作:冻结任务代理使用的在线读取操作,以及巩固器学习的离线写入操作:
Read(q; B) = Top-K_{e ∈ B} cos(φ(q), φ(n_e ⊕ s_e)),
Write(B, R, T_R) = (B \ R) ∪ C_θ(R, T_R)  (1)
这里 φ 是冻结的句子编码器,K 是适合令牌预算的最大排名前缀,⊕ 表示字符串连接,R ⊆ B 是被重写的记忆区域,T_R 收集

相似文章

语言模型需要睡眠:学习自我修改与巩固记忆

Hugging Face Daily Papers

本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。

受人类启发的LLM智能体记忆架构

arXiv cs.AI

微软研究人员提出了一种受生物学启发的LLM智能体记忆架构,该架构结合了睡眠阶段巩固和基于干扰的遗忘机制,以高效管理持久性记忆。

从多模态经验中学会学习

arXiv cs.AI

本文介绍了AutoMMemo,一个使多模态智能体能够自动设计记忆机制(可表达为可执行的备忘录程序)以从多模态交互轨迹中学习的框架,在GUI/Web导航和视觉推理基准上优于无记忆和固定记忆基线。