Memory-R2: 面向长程记忆增强型LLM代理的公平信用分配

arXiv cs.LG 论文

摘要

Memory-R2 引入了 LoGo-GRPO,这是一种结合了局部与全局分组相对优化的训练框架,为长程记忆增强型LLM代理提供更公平的信用分配,从而在多种骨干网络上提升准确率和推理延迟。

arXiv:2605.21768v1 公告类型: 新 摘要:记忆增强型LLM代理通过跨会话存储、更新和重用信息,使得交互能够超越有限的上下文窗口。然而,在多会话环境中使用强化学习训练此类代理极具挑战性,因为记忆将代理的过去行为转化为其未来环境的一部分。一旦不同的轨迹(rollout)写入、更新或删除不同的记忆,它们就不再共享相同的中间记忆状态,这导致轨迹级别的比较从根本上变得不公平。这违反了GRPO等分组相对方法背后的一个关键假设,即这些方法假设所有轨迹都是从同一有效环境中采样的。因此,轨迹级别的奖励为长程记忆操作提供了有噪声或有偏的信用信号。为了解决这一挑战,我们提出了Memory-R2,一个面向长程记忆增强型LLM代理的训练框架。其核心算法LoGo-GRPO结合了局部和全局分组相对优化。全局目标保留了从长程轨迹级别奖励中进行的端到端学习,而局部重新 rollout 则从相同的中间记忆状态出发比较不同的记忆操作结果,从而产生更公平的分组比较和更精确的记忆构建监督。除了信用分配,Memory-R2还通过共享参数的协同学习设计联合优化记忆形成和记忆演化,其中事实提取器和记忆管理器通过角色特定提示从同一个LLM骨干网络实例化。为了在长记忆跨度上稳定多步强化学习,我们采用了渐进式课程,将训练跨度从8个会话逐步增加到16个再到32个会话。这些组件共同为长程多会话场景下的记忆增强型LLM代理提供了一种有效的训练范式。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:51

# Memory-R2: 面向长时记忆增强型LLM智能体的公平信用分配  
来源:https://arxiv.org/html/2605.21768  
Sikuan Yan\*1,2,3,Ahmed Bahloul\*4,Ercong Nie1,Susanna Schwarzmann3,Riccardo Trivisonno3,Volker Tresp1,2,Yunpu Ma†1,2  
1 慕尼黑路德维希-马克西米利安大学,2 慕尼黑机器学习中心,3 华为海森堡研究中心(慕尼黑),4 慕尼黑工业大学  
[email protected] (https://arxiv.org/html/2605.21768v1/mailto:email@domain),[email protected] (https://arxiv.org/html/2605.21768v1/mailto:email@domain)  

###### 摘要  
记忆增强型LLM智能体通过跨会话存储、更新和重用信息,能够实现超越有限上下文窗口的交互。然而,在多会话环境中使用强化学习训练此类智能体极具挑战性,因为记忆会将智能体的过去行为转化为其未来环境的一部分。一旦不同的采样轨迹写入、更新或删除了不同的记忆,它们便不再共享相同的中间记忆状态,导致轨迹级比较从根本上不公正。这违反了GRPO等组相对方法的一个关键假设,即采样轨迹被视为来自同一有效环境进行比较。因此,轨迹级奖励为长时记忆操作提供了有噪声或偏倚的信用信号。为解决这一挑战,我们提出了**Memory-R2**,一个用于长时记忆增强型LLM智能体的训练框架。其核心算法**LoGo-GRPO**结合了**局部**和**全局**组相对优化。全局目标保留了来自长时轨迹级奖励的端到端学习,而局部重采样则从相同的中间记忆状态比较不同的记忆操作结果,从而产生更公平的组比较和更精确的记忆构建监督。除了信用分配,Memory-R2通过**共享参数联合学习**设计同时优化记忆形成和记忆演化,其中事实提取器和记忆管理器通过**角色特定提示**从同一个LLM骨干实例化。为稳定长记忆范围上的多步RL,我们采用了一个**渐进式课程**,将训练范围从8个会话逐步扩展到16个再至32个会话。这些组件共同为长时多会话环境中的记忆增强型LLM智能体提供了一种有效的训练范式。  
\*同等贡献。  
†通讯作者。代码可通过该仓库 (https://github.com/ahmedehabb/Memory-R2) 获取。  

参考图注  
图1:Memory-R2概述。(a) Memory-R2采用共享骨干的提取器-管理器架构进行分块记忆构建。(b) LoGo-GRPO与标准GRPO不同,通过从共享中间记忆状态进行局部重采样实现更公平的信用分配,同时保留全局轨迹级优化。(c) Memory-R2跨骨干提升了准确率和推理延迟。  

## 1 引言  
大型语言模型(LLM)已从独立的文本生成器迅速演变为能够规划[23 (https://arxiv.org/html/2605.21768#bib.bib5)]、使用工具[12 (https://arxiv.org/html/2605.21768#bib.bib6), 4 (https://arxiv.org/html/2605.21768#bib.bib7)]以及进行长时交互[18 (https://arxiv.org/html/2605.21768#bib.bib8)]的智能体系统。这类智能体的核心需求是能够跨交互累积、更新和重用信息。然而,尽管具有强大的上下文推理能力,LLM智能体仍然受到有限上下文窗口和缺乏持久状态的根本限制,这使得难以保留关键用户信息、跟踪长期目标或在长时间多会话交互中保持一致性[7 (https://arxiv.org/html/2605.21768#bib.bib18), 9 (https://arxiv.org/html/2605.21768#bib.bib19)]。为克服这一局限,越来越多的研究通过显式记忆系统来增强LLM智能体[26 (https://arxiv.org/html/2605.21768#bib.bib10), 21 (https://arxiv.org/html/2605.21768#bib.bib9)]。现有研究大致遵循两个方向:一是关注记忆基础设施,包括图结构记忆、结构化记忆模式以及受系统启发的记忆组织[13 (https://arxiv.org/html/2605.21768#bib.bib11), 1 (https://arxiv.org/html/2605.21768#bib.bib3), 6 (https://arxiv.org/html/2605.21768#bib.bib12), 25 (https://arxiv.org/html/2605.21768#bib.bib15), 8 (https://arxiv.org/html/2605.21768#bib.bib13), 5 (https://arxiv.org/html/2605.21768#bib.bib14)];二是关注记忆策略学习,使用强化学习(RL)来决定提取什么、如何更新记忆以及如何使用检索到的记忆[22 (https://arxiv.org/html/2605.21768#bib.bib2), 17 (https://arxiv.org/html/2605.21768#bib.bib1)]。尽管这些努力显著改善了长时智能体行为,但在多会话环境中训练记忆智能体仍然面临根本性挑战。核心困难在于记忆使环境变得非平稳。在多会话智能体训练中,记忆将智能体过去的行为转化为其未来环境的一部分:智能体在一个会话中写入、更新或删除的内容会成为后续会话继承的状态。这对轨迹级RL,尤其是依赖比较来自同一有效环境采样轨迹的GRPO[2 (https://arxiv.org/html/2605.21768#bib.bib16)]等组相对方法,造成了根本性挑战。一旦轨迹以不同方式修改记忆,它们便不再共享相同的中间记忆状态,但GRPO仍需在其单一比较组内对奖励进行归一化,导致不公平的比较和偏倚的信用分配。轨迹级奖励进一步放大了这一问题:当下游失败发生时,很难判断是源自当前会话的记忆操作、早期会话继承的损坏记忆,还是后期覆盖有用信息的更新。这引出了一个简单但重要的问题:我们如何设计一种用于记忆增强型智能体的训练范式,从而在会话间提供更精确和公平的信用分配?  
在本文中,我们提出**Memory-R2**,一个用于长时记忆增强型LLM智能体的训练框架,如图1 (https://arxiv.org/html/2605.21768#S0.F1)所示。其核心是**LoGo-GRPO**,一种结合**全局**和**局部**组相对优化的信用分配算法。LoGo-GRPO保留了轨迹级全局奖励用于端到端长时优化,同时额外引入了会话级归因信号和局部重采样,用于比较从相同中间记忆状态开始的轨迹。这产生了更公平的组比较和更清洁的记忆操作监督。除了公平信用分配,Memory-R2还设计用于优化完整的记忆生命周期。近期分析将智能体记忆分解为记忆形成、记忆演化和记忆检索[3 (https://arxiv.org/html/2605.21768#bib.bib4)],而先前基于RL的记忆工作主要关注演化和检索[22 (https://arxiv.org/html/2605.21768#bib.bib2)]。我们的框架通过两种协作角色来瞄准记忆形成和演化:**事实提取器**,用于从交互上下文中识别关键信息;以及**记忆管理器**,用于决定是否插入、更新或删除记忆条目。受共享策略多智能体RL[16 (https://arxiv.org/html/2605.21768#bib.bib17)]启发,我们通过共享的LLM骨干和角色特定提示来实例化这两个角色,实现了参数高效的联合学习和提取与记忆编辑之间更紧密的协调。我们还将记忆构建形式化为每个会话内的多步决策过程。我们不将会话视为单块整体过渡,而是将其划分为多个块,并允许事实提取器和记忆管理器在这些块上交替工作,从而将记忆构建转化为一个时间上延展的过程,可以随着获得更多证据而逐步细化。为稳定长时优化,我们还引入了基于会话范围的课程学习,渐进地将训练从8个会话扩展到16个再至32个会话,使模型先掌握可靠的短时记忆行为,再适应更具挑战性的长上下文设置。  
我们的贡献总结如下:  
- • 我们提出**Memory-R2**,一个用于长时记忆增强型LLM智能体的训练框架,其核心算法**LoGo-GRPO**通过全局-局部组相对优化提升了公平性和会话级信用分配。  
- • 我们引入**共享参数的提取器-管理器架构**,并将记忆构建形式化为**分块会话上的多步决策过程**,实现了记忆形成和演化的联合优化。  
- • 我们开发了一种**基于会话范围的课程学习策略**,稳定了长时RL训练,并表明所得系统具有很高的**数据效率**:仅使用两个训练对话即可在先前记忆智能体基线之上取得显著增益,同时跨基准、模型规模和应答智能体泛化。  

## 2 相关工作  
### 2.1 记忆智能体架构  
显式记忆已成为扩展LLM智能体超越有限上下文窗口、支持长时交互的标准方式[21 (https://arxiv.org/html/2605.21768#bib.bib9), 26 (https://arxiv.org/html/2605.21768#bib.bib10)]。先前工作的主要区别在于记忆的表示和管理方式。代表性示例包括基于图或结构的记忆系统,如Zep[13 (https://arxiv.org/html/2605.21768#bib.bib11)]、G-Memory[25 (https://arxiv.org/html/2605.21768#bib.bib15)]、A-MEM[21 (https://arxiv.org/html/2605.21768#bib.bib9)]、Mem0[1 (https://arxiv.org/html/2605.21768#bib.bib3)]和CAM[6 (https://arxiv.org/html/2605.21768#bib.bib12)],以及受系统启发的设计如MemOS[8 (https://arxiv.org/html/2605.21768#bib.bib13)]和MemoryOS[5 (https://arxiv.org/html/2605.21768#bib.bib14)]。尽管这些方法提出了越来越富有表现力的记忆底层,但它们大多依赖启发式或基于提示的策略来决定存储、更新或丢弃什么。相比之下,我们的工作保留了模块化的提取器-管理器架构,但直接使用强化学习来优化记忆生命周期。  

### 2.2 记忆智能体的强化学习  
强化学习近年来已成为在工具使用、网页导航和推理等交互式环境中训练LLM智能体的有效范式[12 (https://arxiv.org/html/2605.21768#bib.bib6), 4 (https://arxiv.org/html/2605.21768#bib.bib7), 18 (https://arxiv.org/html/2605.21768#bib.bib8), 2 (https://arxiv.org/html/2605.21768#bib.bib16)]。这对于记忆智能体尤其合适,因为提取、记忆编辑和检索决策的质量只有通过下游任务性能才能显现。现有的基于RL的记忆方法,如Memory-R1[22 (https://arxiv.org/html/2605.21768#bib.bib2)]和Mem-α[17 (https://arxiv.org/html/2605.21768#bib.bib1)],展示了这一方向的前景。然而,它们主要依赖结果级奖励,并未明确解决在发散记忆状态下的跨会话信用分配问题。它们还主要关注记忆演化和检索,而忽略了形成、演化与检索的联合优化[3 (https://arxiv.org/html/2605.21768#bib.bib4)]。我们的工作通过引入多步提取器-管理器训练、共享参数联合学习以及用于长时多会话设置中更公平信用分配的全局-局部GRPO目标,来填补这些空白。  

## 3 方法  
### 3.1 问题形式化:多步记忆库构建  
我们研究用于长时多会话交互的记忆库构建。令D={S_t}_{t=1}^T表示一个包含T个会话的对话轨迹,其中每个会话S_t={x_{t,k}}_{k=1}^K被划分为K个块。智能体维护一个跨会话演化的外部记忆库M。我们将记忆构建形式化为一个块级多步过程,如图1(a)所示:对于每个块x_{t,k},事实提取器首先提出关键内容  
z_{t,k} ~ π_ext(z | x_{t,k}), (1)  
然后记忆管理器根据提取的内容和当前记忆状态选择操作  
a_{t,k} ~ π_mgr(a | z_{t,k}, M_{t,k-1}), (2)  
其中 a_{t,k} ∈ A 表示诸如INSERT、UPDATE和DELETE等操作。记忆库通过确定性转移算子更新:  
M_{t,k} = T(M_{t,k-1}, z_{t,k}, a_{t,k}). (3)  

这产生了会话t上的块级记忆构建过程:  
M_{t,0} →_{π_ext, π_mgr}^{x_{t,1}} M_{t,1} →_{π_ext, π_mgr}^{x_{t,2}} ⋯ →_{π_ext, π_mgr}^{x_{t,K}} M_{t,K}, (4)  

在整个对话轨迹上,令τ={z_{t,k}, a_{t,k}}_{t=1,k=1}^{T,K}表示一个记忆构建轨迹。其概率分解为:  
p_θ(τ | D) = ∏_{t=1}^T ∏_{k=1}^K π_ext(z_{t,k} | x_{t,k}) π_mgr(a_{t,k} | z_{t,k}, M_{t,k-1}). (5)  

在我们的框架中,提取器和管理器被实现为两个协作角色,通过共享的LLM骨干和角色特定提示进行实例化:  
π_ext(·) = π_θ(· | p_ext, ·), π_mgr(·) = π_θ(· | p_mgr, ·), (6)  
其中θ表示共享模型参数,p_ext和p_mgr分别是用于事实提取和记忆管理的角色特定提示。所产生的记忆构建轨迹τ通过下游任务性能进行评估,获得轨迹级奖励R(τ)。我们通过最大化期望收益E_{τ~π_θ}[R(τ)]来优化共享记忆策略。  

### 3.2 共享提取器-管理器策略下的长度归一化步骤级RL  
虽然第3.1节将记忆构建定义为多步过程,但使用共享LLM策略进行优化会引入长度偏差。我们通过角色特定提示将事实提取和记忆管理实例化为共享策略的两个角色[16 (https://arxiv.org/html/2605.21768#bib.bib17)]。由于这两个角色生成不同长度的输出,令牌级RL会给较长的生成分配更多损失项,从而使共享策略偏向冗长输出及输出较长的角色。为解决此问题,我们使用**长度归一化步骤级**目标,将每个提取器或管理器调用视为一个生成步骤。

相似文章

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

ElasticMem:作为LLM智能体可学习资源的潜在记忆

arXiv cs.CL

ElasticMem 为 LLM 智能体引入了一种可学习的潜在记忆机制,该机制能够自适应地为检索到的记忆分配可变预算,从而在减少 token 成本的同时,提升内存密集型问答和具身智能体任务的性能。