MemPro:作为可进化程序的智能体记忆系统
摘要
MemPro 是一个系统级进化框架,它将记忆构建-检索管道视为一个可进化的程序,使用进化智能体(Evolving Agent)迭代诊断失败并创建改进版本。在长期任务基准上的实验表明,与静态和提示级基线相比,它在性能-成本权衡方面取得了持续改进。
arXiv:2606.00619v1 Announce Type: new
Abstract: 长期任务自主智能体需要记忆系统来保留历史信息、跟踪演化状态,并在有限上下文窗口之外重用相关知识。现有的智能体记忆系统通常遵循记忆构建-检索(MCR)管道,但主要适应记忆库,而保持周围管道在部署后固定不变。这种固定管道设计难以处理异构的任务特定失败模式,并且可能随着记忆库在规模和结构上随时间演化而变得不匹配。为了解决这些局限性,我们提出了 MemPro,一个系统级进化框架,它将整个 MCR 管道视为一个可进化的程序,而不仅仅是适应记忆库或提示文本。MemPro 维护一个可运行记忆系统实现的版本树,其中进化智能体迭代选择有前景的版本,诊断重复失败,并通过失败模式引导的编辑-调试精炼创建改进的子版本。在 LongMemEval、LoCoMo、HotpotQA 和 NarrativeQA 上的实验表明,MemPro 在几次迭代内持续优于强静态和提示级进化基线,随着进化继续改进,并实现了良好的性能-成本权衡。代码可在 https://github.com/wanghai673/MemPro 获取。
查看缓存全文
缓存时间: 2026/06/02 15:38
# MemPro:作为可演化程序的自主记忆系统
来源:https://arxiv.org/html/2606.00619
刘青山1,∗ 王国庆1,∗ 吴文1,† 黄靖祺1 陶鑫琪2 宋德佳2 周杰1 何良1
1华东师范大学 2小红书股份有限公司
\{51285901015,wgq\}@stu.ecnu.edu.cn [email protected]
###### 摘要
长周期自主智能体需要记忆系统来保留历史信息、跟踪状态演变,并在有限上下文窗口之外复用相关知识。现有的自主记忆系统通常遵循记忆构建-检索(MCR)管線,但往往主要优化记忆库,而在部署后保持周边管線固定不变。这种固定管線设计难以处理异构的任务特定失效模式,并且可能随着记忆库在规模和结构上随时间演化而与之不匹配。为解决这些局限,我们提出 MemPro,一种系统级演化框架,将整个 MCR 管線视为可演化程序,而不仅仅是调整记忆库或提示文本。MemPro 维护一个可运行记忆系统实现的版本树,其中演化代理迭代选择有前景的版本,诊断重复出现的失效模式,并通过失效模式引导的编辑-调试精炼创建改进的子版本。在 LongMemEval、LoCoMo、HotpotQA 和 NarrativeQA 上的实验表明,MemPro 在几次迭代内持续优于强静态和提示级演化基线,随着演化持续改进,并实现了良好的性能-成本权衡。代码见 https://github.com/wanghai673/MemPro。
MemPro:作为可演化程序的自主记忆系统
刘青山1,∗ 王国庆1,∗ 吴文1,† 黄靖祺1 陶鑫琪2 宋德佳2 周杰1 何良1
1华东师范大学 2小红书股份有限公司
\{51285901015,wgq\}@stu.ecnu.edu.cn [email protected]
11footnotetext:共同第一作者。22footnotetext:通讯作者。
## 1 引言
参见图注
图 1:MemPro 在 LoCoMo 评估集上的演化动态,展示了每个演化版本的性能、迄今为止的最佳性能以及性能增强版本的主要改进。
大语言模型(LLMs)[Brown et al., 2020 (https://arxiv.org/html/2606.00619#bib.bib26); OpenAI, 2023 (https://arxiv.org/html/2606.00619#bib.bib22); Grattafiori and others, 2024 (https://arxiv.org/html/2606.00619#bib.bib23); Yang and others, 2025 (https://arxiv.org/html/2606.00619#bib.bib24)] 越来越多地作为自主智能体的基础 [Wang et al., 2024a (https://arxiv.org/html/2606.00619#bib.bib21)],然而长周期任务和持续交互要求它们能够随时间保留和复用历史信息。简单地用更多历史扩展上下文窗口代价高昂、噪声大,且不足以维护结构化的长期状态 [Packer et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib33)]。因此记忆系统扮演核心角色,在上下文窗口之外维护和检索任务或用户相关信息 [Zhang et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib20); Xu et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib34)]。
近期的自主记忆系统通常遵循记忆构建-检索(MCR)管線,其中构建阶段从交互历史或任务输入构建或更新结构化的记忆库,检索阶段选择并使用相关记忆来回答下游查询 [Yan et al., 2025a (https://arxiv.org/html/2606.00619#bib.bib44); Chhikara et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib35)]。先前的工作通过设计更结构化、更紧凑的记忆库改进了这一管線,包括层次化组织 [Packer et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib33); Kang et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib36)]、基于图或动态链接的记忆 [Xu et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib34); Chhikara et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib35)],以及摘要或压缩管線 [Zhong et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib32); Fang et al., 2025a (https://arxiv.org/html/2606.00619#bib.bib37)]。然而,现有的自主记忆系统通常将记忆库作为主要自适应组件,而周边的 MCR 管線是手动设计的,并在部署后保持固定 [Zhang et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib20)]。这种固定管線假设导致两个关键局限。首先,它难以应对任务异构性:不同的长期记忆任务表现出不同的失效模式,因此需要不同的记忆使用策略。例如,时序推理可能需要追踪事件顺序或识别最新状态,而多会话推理可能需要跨会话链接分散的证据——然而固定管線必须对所有任务应用相同策略。其次,它造成记忆-管線不匹配:随着记忆库在规模和结构上随时间演化,固定管線可能不再匹配记忆的组织和使用方式。这些局限共同导致检索不完整、噪声证据或检索记忆使用效率低下。尽管提示级优化方法 [Agrawal et al., 2026 (https://arxiv.org/html/2606.00619#bib.bib45); Khattab et al., 2024 (https://arxiv.org/html/2606.00619#bib.bib18)] 可以调整此类系统中的文本组件,但它们无法改变可执行的管線逻辑,因此不足以解决上述局限。这激励了更广泛的记忆自我演化视角:自主记忆系统不仅应更新记忆库或提示文本,还应系统级地演化 MCR 管線。
为应对这些局限,我们提出 MemPro(作为可演化程序的自主记忆系统),一种系统级演化框架,将 MCR 管線视为可演化程序。MemPro 演化可运行的记忆系统版本,其中包含用于构建和维护记忆库的提示和可执行代码,以及使用检索到的记忆来解决下游查询的代码。它维护一个 MCR 管線实现的版本树,每个节点对应一个可运行的管線版本及其评估日志。从初始管線开始,演化代理迭代选择有前景的版本,诊断重复出现的失效模式,并通过失效模式引导的编辑-调试精炼创建改进的子版本。这种树状结构使 MemPro 能够从历史优秀版本分支,探索不同的方向,而不是遵循单一的线性轨迹。图 1 (https://arxiv.org/html/2606.00619#S1.F1) 展示了 MemPro 的演化动态。
我们在两个长期记忆基准 LongMemEval 和 LoCoMo 以及两个长上下文问答基准 HotpotQA 和 NarrativeQA 上评估 MemPro。在记忆中心和质量保证两种设置中,MemPro 在几次迭代内持续优于强静态和提示级演化基线,并且随着版本树的扩展持续改进——这表明演化可执行的 MCR 管線比单独调整记忆库或提示带来更多收益。我们的贡献如下:
- •我们识别了固定管線自主记忆系统的两个局限:任务异构性和记忆-管線不匹配。我们认为记忆自我演化应在系统级别进行操作,而不是仅对存储的记忆或提示文本。
- •我们提出 MemPro,一种系统级演化框架,将 MCR 管線视为可演化程序。MemPro 维护一个可运行管線实现的版本树,并使用失效模式引导的编辑-调试精炼来演化提示和可执行的管線代码。
- •我们在四个长期记忆和长上下文 QA 基准上进行了大量实验,证明了 MemPro 相对于强基线的持续增益、随演化的持续改进以及有利的性能-成本权衡。
## 2 相关工作
### 2.1 自主记忆系统
自主记忆系统将 LLM 智能体扩展到有限上下文窗口之外,通常遵循记忆构建-检索管線,其中记忆库从历史输入构建或更新,稍后用于下游任务。先前的工作通过持久记忆管理 [Park et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib17); Zhong et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib32); Packer et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib33)]、结构化或层次化记忆组织 [Kang et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib36); Li et al., 2026 (https://arxiv.org/html/2606.00619#bib.bib16)]、基于图或动态链接的记忆 [Chhikara et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib35); Xu et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib34)]、轻量级摘要和压缩 [Fang et al., 2025a (https://arxiv.org/html/2606.00619#bib.bib37); Liu et al., 2026 (https://arxiv.org/html/2606.00619#bib.bib15); Yan et al., 2025a (https://arxiv.org/html/2606.00619#bib.bib44)]、学习或启发式的记忆写入和检索策略 [Yan et al., 2025b (https://arxiv.org/html/2606.00619#bib.bib38); Wang et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib14); Yu et al., 2026 (https://arxiv.org/html/2606.00619#bib.bib13)],以及基于经验或程序性记忆复用 [Wang et al., 2024b (https://arxiv.org/html/2606.00619#bib.bib12); Fang et al., 2025b (https://arxiv.org/html/2606.00619#bib.bib11); Cao et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib10); Ouyang et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib9)] 改进了这一管線。
尽管有这些进展,大多数系统主要调整记忆库,而部署后保持周边管線固定,因此难以处理异构的、任务特定的失效模式,并可能随着记忆库演化而变得不匹配。相比之下,MemPro 将整个管線视为可演化程序,并优化可运行的记忆系统实现。
### 2.2 提示级演化
提示级演化方法通过精炼文本指令来改进 LLM 系统,而无需更新模型权重。代表性方法通过指令搜索、反馈或演化精炼来优化提示 [Zhou et al., 2022 (https://arxiv.org/html/2606.00619#bib.bib8); Yang et al., 2024 (https://arxiv.org/html/2606.00619#bib.bib7); Pryzant et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib6); Yuksekgonul et al., 2025 (https://arxiv.org/html/2606.00619#bib.bib5); Fernando et al., 2023 (https://arxiv.org/html/2606.00619#bib.bib4); Khattab et al., 2024 (https://arxiv.org/html/2606.00619#bib.bib18)]。GEPA 进一步使用轨迹级反思来诊断失败并演化提示 [Agrawal et al., 2026 (https://arxiv.org/html/2606.00619#bib.bib45)]。与自主记忆密切相关,MetaMem 优化自我演化的元记忆,为使用记忆知识提供文本指导 [Xin et al., 2026 (https://arxiv.org/html/2606.00619#bib.bib3)]。
当应用于记忆系统时,提示级演化可以精炼提示并改进静态系统,但无法修改构建记忆库或使用检索记忆回答查询的可执行逻辑。MemPro 则演化可运行的管線实现——包括提示和可执行代码——实现系统级自我演化。
参见图注
图 2:MemPro 概览。(a) MCR 管線。(b) MemPro 在版本树上执行演化:演化代理根据日志选择节点,将其扩展为新版本,并生成评估日志。
## 3 预备知识
我们介绍记忆构建-检索(MCR)管線,它捕捉了近期自主记忆系统中的常见结构。MCR 管線包含两个阶段:(1) 记忆库构建,(2) 记忆检索与使用。图 2 (https://arxiv.org/html/2606.00619#S2.F2)(左)展示了 MCR 管線。
#### 记忆库构建.
在时间步 \(t\),原始数据 \(D_t\) 首先被分割为结构化片段 \(\mathcal{S}_t = \{s_i^t\}_{i=1}^{N_t}\),其中 \(s_i^t\) 表示第 \(i\) 个片段,例如对话轮次或文档块,\(N_t\) 为片段数量。给定 \(\mathcal{S}_t\)、之前的记忆库 \(\mathcal{M}_{t-1}\) 以及图 6 (https://arxiv.org/html/2606.00619#A1.F6) 中的记忆构建提示 \(I_{\mathrm{mem}}\),记忆智能体 \(\mathcal{A}_{\mathrm{mem}}\) 生成记忆更新 \(\Delta \mathcal{M}_t = \mathcal{A}_{\mathrm{mem}}(I_{\mathrm{mem}}, \mathcal{S}_t, \mathcal{M}_{t-1})\),这些更新被合并到记忆库中得到 \(\mathcal{M}_t = \textsc{Update}(\mathcal{M}_{t-1}, \Delta \mathcal{M}_t)\)。
#### 记忆检索与使用.
给定查询 \(q\) 和记忆库 \(\mathcal{M}\),研究智能体 \(\mathcal{A}_{\mathrm{res}}\) 迭代检索并使用记忆信息来解决查询。它维护一个研究状态 \(z_k\),表示与回答 \(q\) 相关的累积关键信息,初始 \(z_0 = \emptyset\)。对于每次迭代 \(k = 1, \dots, K\),智能体在不同的系统提示下执行三个步骤:(1) 检索. 在检索提示 \(I_{\mathrm{ret}}\)(图 7 (https://arxiv.org/html/2606.00619#A1.F7))下,智能体检查 \(q\) 和当前研究状态 \(z_{k-1}\) 以确定还需要什么信息,并生成检索请求 \(r_k = \mathcal{A}_{\mathrm{res}}(I_{\mathrm{ret}}, q, z_{k-1})\)。然后记忆库返回相关信息 \(u_k = \textsc{Retrieve}(r_k, \mathcal{M})\),其中 \(u_k\) 表示返回的记忆信息。(2) 整合. 在整合提示 \(I_{\mathrm{int}}\)(图 8 (https://arxiv.org/html/2606.00619#A1.F8))下,智能体将返回信息与查询和之前的研究状态整合,更新研究状态:\(z_k = \mathcal{A}_{\mathrm{res}}(I_{\mathrm{int}}, q, z_{k-1}, u_k)\)。(3) 反思. 在反思提示 \(I_{\mathrm{ref}}\)(图 9 (https://arxiv.org/html/2606.00619#A1.F9))下,智能体判断当前研究状态 \(z_k\) 是否包含足够信息来回答 \(q\),表示为 \(b_k = \mathcal{A}_{\mathrm{res}}(I_{\mathrm{ref}}, q, z_k)\),其中 \(b_k \in \{\textsc{Continue}, \textsc{Stop}\}\)。如果 \(b_k = \textsc{Stop}\) 或达到最大检索步数 \(K\),智能体生成最终答案 \(\hat{y} = \mathcal{A}_{\mathrm{res}}(I_{\mathrm{ans}}, q, z_k)\),其中 \(I_{\mathrm{ans}}\) 表示答案提取提示;否则继续。
## 4 方法
我们的目标是通过将整个 MCR 管線作为优化目标来实现系统级演化。为此,我们提出 MemPro,它超越更新记忆库或修改提示,而是通过迭代的失效模式引导精炼将 MCR 管線优化为一个可演化程序。图 2 (https://arxiv.org/html/2606.00619#S2.F2) 展示了 MemPro 的概览。
### 4.1 MCR 版本树
#### 概述.
在 MemPro 中,我们构建并维护一个 MCR 版本树 \(\mathcal{T} = (\mathcal{V}, \mathcal{E})\),其中每个节点 \(v \in \mathcal{V}\) 表示一个可运行的 MCR 管線实现 \(F_v\)。相似文章
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
MemEvoBench:LLM 代理内存误演化基准测试
MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。
通过参数化记忆扩展自进化智能体
来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。
AdMem:面向任务求解智能体的高级记忆系统
本文介绍AdMem,一种面向基于LLM的智能体的统一记忆框架,整合语义记忆、情景记忆和程序性记忆,并采用双层短期与长期存储结构,通过多智能体架构实现自动记忆生成与自适应检索。实验表明,该方法在长程多轮任务中提升了鲁棒性和成功率。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。