MemQ:在来源有向无环图上将Q学习整合到自演化记忆智能体中

arXiv cs.AI 论文

摘要

该论文介绍了 MemQ,这是一种通过将 Q 学习整合到自演化记忆智能体中来解决情节记忆检索中的信用分配问题的方法,具体做法是利用基于来源有向无环图的资格迹。

arXiv:2605.08374v1 公告类型:新发布 摘要:情节记忆允许大型语言模型(LLM)智能体积累和检索经验,但当前的方法独立对待每一条记忆,即孤立地评估检索质量,而未考虑记忆通过哪些依赖链促成未来记忆的生成。我们引入了 MemQ,该方法将 TD($\lambda$) 资格迹应用于记忆的 Q 值,通过在记录每次创建新记忆时检索了哪些记忆的来源有向无环图(provenance DAG)中向后传播信用。信用权重随着 DAG 深度 $d$ 以 $(\gamma\lambda)^d$ 的速率衰减,用结构邻近性取代了时间距离。我们将该设置形式化为外生上下文马尔可夫决策过程(Exogenous-Context MDP),其因子化转移将外生任务流与内生记忆存储解耦。在涵盖操作系统交互、函数调用、代码生成、多模态推理、具身推理以及专家级问答的六个基准测试中,MemQ 在泛化评估和运行时学习中在所有六个测试上均实现了最高的成功率,其中在产生深层且相关来源链的多步骤任务上提升最大(高达 +5.7 个百分点),而在单步分类任务上提升最小(+0.77 个百分点),因为此类任务中单步更新已足够。我们进一步研究了 $\gamma$ 和 $\lambda$ 如何与 EC-MDP 结构相互作用,为参数选择和未来研究提供了原则性指导。代码即将发布。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:11

# MemQ:在来源DAG上将Q-学习整合进自演化记忆智能体
来源:https://arxiv.org/html/2605.08374
廖俊伟1,2 史浩亭1 周瑞文3 王家全4 张盛涛1 张伟1 张文楠1,2 温英1,2 李志宇6 熊飞宇6 汤博5,6 文敏1 1上海交通大学2上海人工智能实验室 3新加坡国立大学4西安电子科技大学 5中国科学技术大学6MemTensor (上海)科技有限公司 [email protected] [email protected] [email protected]

###### 摘要

情景记忆允许大语言模型(LLM)智能体积累和检索经验,但现有方法通常将每条记忆独立处理,即孤立地评估检索质量,而未考虑到记忆之间通过依赖链促成未来记忆产生的关联。我们引入**MemQ**,该方法将TD($\lambda$)资格迹应用于记忆Q值,并通过*来源有向无环图(provenance DAG)*向后传播信用。该图记录了在创建每条新记忆时检索了哪些旧记忆。信用权重随DAG深度$d$以$(\gamma\lambda)^d$衰减,用结构邻近性替代时间距离。我们将该设定形式化为*外生情境马尔可夫决策过程(Exogenous-Context MDP, EC-MDP)*,其分解后的转移函数将外生任务流与内源记忆存储解耦。在涵盖操作系统交互、函数调用、代码生成、多模态推理、具身推理和专家级问答的六个基准测试中,MemQ在泛化评估和运行时学习的所有六项任务中均实现了最高的成功率,其中在多步任务上增益最大(高达+5.7%),因为这些任务产生了深层且相关的来源链;而在单步分类任务上增益最小(+0.77%),因为此类任务仅需单步更新。我们还进一步研究了$\gamma$和$\lambda$如何与EC-MDP结构相互作用,为参数选择和未来研究提供了原则性指导。代码将不久后开源。

## 1 引言

部署为智能体的大型语言模型(LLM)若没有代价高昂的权重更新,便无法适应新颖任务或变化的环境。越来越多的工作通过为智能体配备外部*情景记忆*存储来解决这一问题——这些存储积累经验(记录成功、失败和发现的策略),并检索相关记忆以指导未来的行为 (park2023generative;packer2023memgpt;shinn2023reflexion;zhao2024expel;wang2023voyager;zhong2023memorybank;sumers2023cognitive)。一个常见的局限性是,检索依赖于固定的启发式评分(通常是嵌入相似度),缺乏来自任务结果的学習信号来调整哪些记忆被视为有价值。

最近,基于强化学习(RL)的方法开始学习哪些记忆值得检索。一种思路是在记忆操作上学习*参数化*策略 (yan2025memoryr1;zhang2025memact;ma2026finemem;shen2026membuilder;zhang2026retroagent);另一种互补的思路则是直接将非参数化价值估计附加到单个记忆条目上 (pritzel2017neural;guu2020realm)。最相关的工作MemRL (zhang2026memrl)在向量存储中的记忆条目上附加Q值,并通过单步指数移动平均(EMA,$\gamma=0$)进行更新,将检索形式化为情境赌博机问题。这为记忆增强智能体从经验中学习检索提供了第一种机制——但它留下了一个关键缺口。

这个缺口是一个*信用分配*问题。记忆并非独立存在:当记忆被检索用于执行任务时,结果会产生一条新记忆,这条新记忆可能在未来任务中被再次检索,从而形成诸如$m_a \to m_b \to m_c \to r$这样的链。如果记忆$m_a$通过促成中间记忆$m_b$的创建,从而*间接*贡献于下游记忆$m_c$及最终奖励$r$,那么在单步更新机制下,它无法从下游的成功中获得反馈。其Q值停滞不前,而$m_b$却积累了信用。这正是资格迹发挥优势的场景:当奖励稀疏且因果链较长时,跨多步传播信用比单步更新能带来更快、更准确的价值估计 (sutton2018reinforcement;sutton1988learning;singh1996reinforcement;schulman2016gae;espeholt2018impala;watkins1989learning;peng1996incremental;vanseijen2014true;munos2016safe)。然而,此前尚无工作将基于迹的信用分配应用于情景记忆管理。

我们引入**MemQ**,该方法通过*来源DAG*传播信用来填补这一缺口。来源DAG是一个有向无环图,记录了在创建每条新记忆时检索了哪些记忆。我们将该设定形式化为*外生情境马尔可夫决策过程(Exogenous-Context MDP)*,该过程将状态分解为外生任务流(智能体无法控制)和内源记忆存储(完全由智能体的检索动作及冻结LLM的响应决定)。在此框架下,MemQ通过来源DAG向后流动TD($\lambda$)资格迹,扩展了单步Q值更新,根据祖先记忆与结果之间的结构距离按比例给予信用。关键洞察在于:DAG深度取代了时间步数,成为“邻近性”的衡量标准。

![Figure 1](https://arxiv.org/html/2605.08374)
*图1:MemQ的高级概念示意。*

我们的贡献如下:

1. 我们识别了情景记忆中的*多步信用分配问题*,并将其形式化为*外生情境MDP(EC-MDP)*,其分解后的转移函数将外生任务动力学与内源记忆演化解耦,从而激励对个体记忆进行价值分解。
2. 我们开发了**MemQ**,一种基于来源的信用传播机制,它通过记忆构建DAG应用TD($\lambda$)资格迹,用结构深度替代时间距离,这是首个用于情景记忆估值的基于来源的信用分配方法。
3. 在六个基准测试中,MemQ在运行时学习的所有六项任务以及泛化评估的五项任务中均实现了最高的成功率,其中在多步任务(产生深层且相关的来源链)上增益最大(高达+5.7%),在单步分类任务上增益最小(+0.77%),证实了改进的结构化特性。

## 2 相关工作

### 2.1 自演化记忆智能体

早期的记忆增强智能体依赖于固定的启发式检索——如嵌入相似度或手工制作的评分 (park2023generative;packer2023memgpt;shinn2023reflexion;zhao2024expel;wang2023voyager;zhong2023memorybank;kynoch2023recallm;sumers2023cognitive),缺乏来自任务结果的学习信号。近期工作使记忆沿两种范式实现*自演化*。*参数化方法* (yan2025memoryr1;zhang2025memact;ma2026finemem;shen2026membuilder;zhang2026retroagent;zhou2025mem1;yue2026memt)学习记忆操作的神经网络参数,需要基于梯度的优化。*非参数化方法*避免权重更新,直接将价值估计或更新规则附加到记忆条目上:REMEMBERER (zhang2023rememberer)为冻结的LLM配备经验记忆,并通过RL进行更新而不修改权重;MemRL (zhang2026memrl)进一步附加了带单步EMA ($\gamma=0$)的Q值;Memento (zhou2025memento)通过记忆重写学习案例选择策略;其他系统采用基于规则的策展 (mem0)、认知自组织 (nan2025nemori)、元进化 (zhang2025memevolve)、可学习技能 (zhang2025memskill)、在线经验加权 (zhang2026liveevo)、赫布图 (zhu2026helamem)、基于效用的剪枝 (cao2025reme)或程序记忆蒸馏 (fang2026mempexploringagentprocedural)。没有任何方法在记忆创建事件*之间*传播信用——每条记忆的价值都是孤立更新的。MemQ遵循非参数化范式,但通过TD($\lambda$)资格迹在来源DAG中引入多步信用传播,这是现有方法无法察觉的信号。

### 2.2 用于记忆的强化学习

用于记忆的RL涵盖从情景控制方法 (blundell2016model;pritzel2017neural;lin2018episodic)和可微记忆架构 (graves2014neural;guu2020realm;schaul2016prioritized)到最近的特定于LLM智能体的方法。§2.1中的参数化方法训练记忆操作的神经策略。在非参数化方面,MemRL使用$\gamma=0$的TD(0),而Memento 2 (wang2025memento2)在反射MDP框架内通过监督学习优化检索——将冻结的LLM吸收进环境动力学中,使得检索策略成为唯一的决策变量,而记忆存储成为有效的MDP状态。其他工作将RL应用于记忆增强检索 (yuan2025memsearcher;ouyang2025reasoningbank;wei2025evomemory),关注存储什么以及何时检索,而非信用分配。

据我们所知,此前尚无工作将TD($\lambda$)风格的资格迹应用于情景记忆管理。经典迹理论 (sutton1988learning;singh1996reinforcement;sutton2018reinforcement;peng1996incremental;vanseijen2014true;schulman2016gae)作用于时间步;MemQ将其适应于结构域,其中迹通过来源DAG传播,DAG深度取代时间步数。

## 3 问题形式化

我们考虑一个冻结的LLM智能体解决来自未知分布的任务。由于无法通过梯度更新进行学习,它依赖于不断增长的情景记忆存储。核心挑战是在多步记忆链中分配信用:因为早期检索可以间接促成未来的成功,合理的解决方案必须考虑每次检索对未来奖励的下游影响,而不仅仅是给予最后一步信用。

##### 外生情境MDP。

该设定的一个关键结构特征是状态分解为两个具有根本不同动力学的组件:智能体无法影响的*外生*任务流,以及作为智能体检索行动直接结果演化的*内源*记忆存储。我们通过定义*外生情境MDP* (EC-MDP) 明确这种分解。

###### 定义1(外生情境MDP)。

EC-MDP是一个元组$\langle\mathcal{S},\mathcal{M},\mathcal{A},P_{\mathrm{exo}},P_{\mathrm{endo}},R,\gamma\rangle$,其中$\mathcal{S}$是*外生状态空间*(所有任务的集合),其演化由$P_{\mathrm{exo}}(s_{t+1})=\rho(s_{t+1})$ govern,独立于智能体的行动或记忆;$\mathcal{M}\subseteq 2^{\mathcal{M}_\infty}$111直观地说,由于记忆库是过去交互经验的集合,任何有效的记忆状态$\mathcal{M}$都是所有理论上可能的经验宇宙$\mathcal{M}_\infty$的有限子集。是*内源状态空间*(记忆存储),其演化完全由当前任务、记忆和检索行动决定;$\mathcal{A}(\mathcal{M})=\{A\subseteq\mathcal{M}:\|A\|\leq k\}$是大小最多为$k$的检索子集的*行动空间*;$P_{\mathrm{endo}}(\mathcal{M}_{t+1}\mid s_t,\mathcal{M}_t,A_t)$是*内源转移核*,吸收了冻结的LLM:

$$P_{\mathrm{endo}}(\mathcal{M}_{t+1}\mid s_t,\mathcal{M}_t,A_t)=\sum_{\tau}\pi_{\mathrm{LLM}}(\tau\mid s_t,A_t)\cdot\mathbf{1}\!\bigl[\mathcal{M}_{t+1}=\mathcal{M}_{t}\cup\{\mathrm{Build}(s_t,\tau)\}\bigr];$$

$R(s_t,A_t)=\mathbb{E}_{\tau\sim\pi_{\mathrm{LLM}}(\cdot\mid s_t,A_t)}[r(\tau)]$是*奖励*;$\gamma\in[0,1]$是折扣因子。检索策略$\pi_{\mathrm{ret}}(A\mid s,\mathcal{M})$作为智能体的*唯一优化策略*:虽然$\pi_{\mathrm{LLM}}$保持冻结,但$\pi_{\mathrm{ret}}$将当前任务和记忆存储映射到检索行动的分布上。

![Figure 2](https://arxiv.org/html/2605.08374)
*图2:EC-MDP。状态分解为外生任务流$s_t\sim\rho$和内源记忆存储$\mathcal{M}_t$。检索策略$\pi_{\mathrm{ret}}$选择记忆$m_t$,冻结的智能体$\pi_{\mathrm{LLM}}$产生轨迹$\tau_t$并获得奖励$r_t$,随后构建并存储记忆。*

EC-MDP的 defining feature 是联合转移核分解为:

$$P(s_{t+1},\mathcal{M}_{t+1}\mid s_t,\mathcal{M}_t,A_t)=P_{\mathrm{exo}}(s_{t+1})\cdot P_{\mathrm{endo}}(\mathcal{M}_{t+1}\mid s_t,\mathcal{M}_t,A_t). \quad (1)$$

与wang2025memento2中的反射MDP(将任务动力学与智能体行动耦合)不同,这种分解明确地将下一个任务$s_{t+1}$与当前状态和行动解耦。当外生动学为独立同分布(i.i.d.)且内源转移使用冻结LLM时,EC-MDP恢复为反射MDP的特殊情况。单调记忆增长($\mathcal{M}_{t+1}\supseteq\mathcal{M}_t$)确保过程满足马尔可夫性质。此外,分解保证了随机奖励$r_t=r(\tau_t)$和新构建的记忆$m_{\mathrm{new}}=\mathrm{Build}(s_t,\tau_t)$仅依赖于当前任务和检索集$A_t$,从而建立了与未检索记忆的条件独立性:

$$P(r_t,m_{\mathrm{new}}\mid s_t,\mathcal{M}_t,A_t)=P(r_t,m_{\mathrm{new}}\mid s_t,A_t). \quad (2)$$

##### 价值函数和学习目标。

*状态价值*通过预期累积折扣奖励捕捉记忆存储的长期价值:

$$V^{\pi_{\mathrm{ret}}}(\mathcal{M}_t)=\mathbb{E}_{\begin{subarray}{c}s_k\sim\rho,\\,A_k\sim\pi_{\mathrm{ret}},\\,\tau_k\sim\pi_{\mathrm{LLM}}\end{subarray}}\!\biggl[\sum_{k=0}^{\infty}\gamma^k r(\tau_{t+k})\,\bigg\|\,\mathcal{M}_t\biggr].$$

检索集合$A$的*行动价值*为$Q(s,A;\mathcal{M})=\mathbb{E}_{\tau}\!\bigl[r(\tau)+\gamma\,V^{\pi_{\mathrm{ret}}}(\mathcal{M}^{\prime})\,\big\|\,s,A,\mathcal{M}\bigr]$,其中$\mathcal{M}^{\prime}=\mathcal{M}\cup\{m_{\mathrm{new}}(\tau)\}$。因此,学习目标是最大化初始状态价值:

$$\max_{\pi_{\mathrm{ret}}}V^{\pi_{\mathrm{ret}}}(\mathcal{M}_0).$$

为了在不更新LLM权重的情况下绕过不可行的组合行动空间$2^{\mathcal{M}}$,我们将此MDP投影到记忆来源DAG上。假设被检索的记忆独立贡献,我们通过后一阶分解近似集合级价值:

$$Q(s,A;\mathcal{M})\approx\frac{1}{\|A\|}\sum_{m_i\in A}Q(m_i),\quad A\sim\pi_{\mathrm{ret}}(\cdot\mid s,\mathcal{M}). \quad (3)$$

这里,每个标量$Q(m)\in\mathbb{R}$捕捉一个*来源价值*:其对未

相似文章

MemEvoBench:LLM 代理内存误演化基准测试

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试,衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素,且静态防御措施不足以应对。

MEME:多实体与动态记忆评估

Hugging Face Daily Papers

MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。

Zep:一种用于智能体记忆的时序知识图谱架构

Papers with Code Trending

本文介绍了 Zep,这是一种用于智能体(agent)记忆的时间知识图谱架构,在 DMR 和 LongMemEval 等基准测试中表现优于 MemGPT。文章强调了 Zep 在企业级用例中处理动态知识融合和时间推理的能力。