通过参数化记忆扩展自进化智能体
摘要
来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。
查看缓存全文
缓存时间: 2026/06/05 02:08
# 通过参数化记忆扩展自进化智能体
来源:https://arxiv.org/html/2606.04536
Tao Ren∗, Weiyao Luo, Hui Yang, Rongzhi Zhu, Xiang Huang, Yuchuan Wu\(✉\), Bingxue Chou, Jieping Ye, Jiafeng Liang\(✉\), Yongbin Li\(✉\), Yijie Peng\(✉\)
Qwen-Character Team, Alibaba Group
Peking University
###### 摘要
现有的记忆增强 LLM 智能体将过去的经验完全存储于提示空间中,以文本摘要或检索段落的形式呈现,而在整个推理过程中模型参数始终保持冻结。这类智能体能够*查阅*已见过的信息,却无法从中*学习*:其策略不会因经验而改变,任何从上下文中丢失的信息也将永久消失。我们提出 **TMEM**,一个自进化参数化记忆框架,智能体不仅能将历史压缩为显式记忆,还能通过轻量级在线更新将蒸馏后的监督信号吸收进快速 LoRA 权重 $\Delta_t$ 中,从而在单次推理过程中真正改变其未来的行为。我们将此形式化为一个具有快权重推理动态的智能体决策过程:动作从 $\pi_{\theta_0 + \Delta_t}$ 中采样,而提取动作所产生的监督信号将更新 $\Delta_t$,用于后续决策。这一视角使提取策略可直接通过强化学习进行优化:训练 $\theta_0$ 不仅能改善任务动作,还能提升用于在线 LoRA 自适应的数据质量。我们进一步提出基于 SVD 的 LoRA 子空间初始化方案,以加速在线收敛。在 LoCoMo、LongMemEval-S、多目标搜索和 CL-Bench 上的实验表明,TMEM 在不同模型规模下均一致优于基于摘要和基于检索的基线方法。
✉ 通讯作者:[email protected],[email protected];* 联系邮箱:[email protected]
## 1 引言
*"我们之所以成为今天的自己,源于我们所学和所记。"*
—— Eric Kandel
长时域 LLM 智能体需要处理远超单个上下文窗口的经验:多轮会话、扩展网络搜索轨迹、迭代工具调用以及不断演化的用户偏好 \(Li et al., 2026a; b; Ren et al., 2025a; Yang et al., 2026b\)。在这些场景下,记忆不应仅仅保存过去 token 的压缩记录,而应当改变未来动作的生成方式。一个有益的类比来自生物记忆:学习与记忆是耦合的,因为经验最终会反映在执行计算的同一基底上 \(Liang et al., 2025; 2026\)。
当前的 LLM 智能体在很大程度上打破了这种耦合。它们要么在提示中保留更多历史信息,要么将过去的交互存储在摘要、检索索引等外部记忆中,而底层模型参数在整个推理过程中始终保持冻结。因此,经验只有在被显式地作为输入 token 重新引入时,才能影响未来的行为。
保留经验最简单的方式是将完整的交互历史保留在上下文中,但这一策略在两个维度上都会失效。从计算角度看,注意力代价随序列长度快速增长,使得长时推理代价高昂 \(Yu et al., 2025; Ren et al., 2025b; c; Li et al., 2026c\)。从统计角度看,原始历史记录充斥着冗余的工具输出、重复对话和与任务无关的细节,导致相关证据在嘈杂的提示中变得稀疏。即使必要的信息在技术层面是存在的,单次前向传播也必须同时定位并正确使用它。一旦上下文被截断或压缩,任何被省略的证据就再无途径影响策略。
现有的记忆智能体主要通过提示空间记忆来解决这一瓶颈。基于摘要的方法定期将历史压缩为文本状态,减少了上下文长度,但引入了有损瓶颈,可能丢弃细粒度的事实。基于检索的方法将更多原始证据保存在外部索引中,但其有效性取决于嵌入质量、查询构建和索引维护。这些方法虽有价值,却共享一个结构性局限:已学习的策略本身在推理过程中不会改变。智能体可以查阅存储的经验,却无法将其内化到后续决策所用的计算中。
这引出了一个核心问题:LLM 智能体能否在测试时将有用的经验写入自身参数,使记忆塑造策略,而不仅仅是占据提示空间?
我们提出 **TMEM**,一个用于回答这一问题的自进化参数化记忆框架。在推理过程中,智能体维护一个工作上下文 $h_t$、可选的显式记忆 $m_t$ 以及由 LoRA 权重表示的快速参数化记忆 $\Delta_t$。当上下文预算耗尽时,智能体进入记忆写入模式:将当前会话蒸馏为有依据的 QA 风格监督信号,并对 $\Delta_t$ 进行轻量级在线 SFT 更新。后续动作将从自适应策略 $\pi_{\theta_0 + \Delta_t}$ 中采样,其中基础参数 $\theta_0$ 在推理过程中保持固定。如此一来,蒸馏后的经验可以通过快权重影响未来的推理,而无需将相同的证据反复插入提示中。
这一形式化也改变了优化目标。记忆提取不是辅助的预处理步骤,而是一个动作,其质量决定了后续在线自适应所使用的数据。因此,我们将智能体执行形式化为一个快权重推理过程,其中普通任务动作、记忆写入动作、显式记忆更新和 LoRA 更新都属于同一决策过程。在强化学习训练期间,$\theta_0$ 跨推理过程进行优化,同时通过在线更新算子停止梯度传播。所得目标训练基础模型不仅要完成任务,还要生成能使自身未来快权重更新更有用的监督信号。
我们的贡献如下:
1. 我们将 TMEM 形式化为一个快权重推理过程,其策略依赖于工作上下文、显式记忆和在线 LoRA 权重。令 $\Delta_t \equiv 0$ 可将纯显式记忆智能体作为特例恢复,从而将现有的上下文管理设计统一到单一框架下。
2. 我们为 LoRA 投影矩阵提出基于 SVD 的初始化方案,将在线更新锚定在预训练权重的高能量方向上。通过固定投影矩阵、仅更新系数矩阵,加速了少步自适应并降低了每次触发的计算量。
3. 我们推导了基于快权重推理的停止梯度策略优化目标,使结果奖励能够同时改善任务行为和在线 LoRA 更新所用监督信号的提取质量。
4. 我们在 LoCoMo、LongMemEval-S、多目标搜索和 CL-Bench 上验证了 TMEM,在 Qwen3-4B 和 Qwen3-8B 骨干网络上相比基于摘要和基于检索的记忆基线均取得了一致性提升。
## 2 相关工作
#### 基于摘要的上下文管理
基于摘要的方法将长时交互历史压缩为简洁的文本记忆,以适配固定的上下文预算。早期工作探索了启发式或循环风格的压缩方法,例如 RecurrentGPT 的语言状态模拟和 MemoryBank 的遗忘启发式记忆更新 \(Zhou et al., 2023; Zhong et al., 2024\)。后续方法学习何时以及如何压缩上下文:MemAgent 对不含工具调用的长上下文对话任务执行分块式记忆覆写 \(Yu et al., 2025\),MEM1 将同样的思路应用于需要调用外部搜索工具的搜索智能体任务 \(Zhou et al., 2025\);SUPO 和 Context-Folding 进一步优化了长时域智能体对摘要的使用 \(Lu et al., 2025; Sun et al., 2025\)。近期系统通过主动纠错和自适应停止进一步提升了提取质量和可扩展性 \(Yang et al., 2026a; Wang et al., 2026\)。然而,这些方法的记忆仍完全存在于上下文空间中,其压缩容量有限:一旦细粒度证据从摘要中被省略,后续推理便无法恢复。
#### 基于检索的上下文管理
基于检索的方法将历史保存在外部存储中,并在需要时检索相关片段。标准 RAG 首先通过对文档的密集检索来增强生成 \(Lewis et al., 2020\);智能体系统随后将这一思路扩展到交互式记忆,包括 Generative Agents 的反思流和 MemGPT 的受管上下文缓存 \(Park et al., 2023; Packer et al., 2023\)。更结构化的记忆系统使用实体图、可扩展的长期存储、强化学习训练的记忆管理或智能体式链接来组织存储的经验,如 GraphRAG、Mem0、Memory-R1 和 A-MEM \(Research, 2024; Chhikara et al., 2025; Yan et al., 2025; Xu et al., 2026\)。检索避免了激进的摘要,但严重依赖检索器质量:无关或遗漏的段落会直接影响策略,而构建一个包含嵌入、元数据和更新规则的高质量记忆 RAG 存储往往耗时耗力。
#### 测试时训练
测试时训练(TTT)在推理阶段自适应调整模型参数,以应对分布偏移或实例特定的信息 \(Sun et al., 2020\)。近期面向 LLM 的工作将这一思路扩展至长上下文或语言任务:端到端 TTT 自适应长上下文输入,LaCT 改进了分块级更新效率,TLM 和 TT-SI 等方法使用无标注测试数据或自生成数据进行即时改进 \(Tandon et al., 2025; Zhang et al., 2025; Hu et al., 2025; Acikgoz et al., 2025\)。Doc-to-LoRA 进一步通过超网络将文档内化为 LoRA 权重 \(Charakorn et al., 2026\)。然而,现有的 TTT 方法并非针对智能体记忆而优化:它们通常在整个上下文或文档上进行训练,而非有选择地从智能体相关的经验中学习,使得更新代价高昂且游离于智能体的决策过程之外。我们则将快权重 $\Delta_t$ 视为推理动态的一部分,并仅从蒸馏记忆中对其进行更新。
#### 自进化智能体
自进化智能体通过复用反馈、失败或自生成经验来逐步改善行为。早期系统主要通过非参数化经验积累进行演化:Reflexion 存储口头自我批评,SPRING 将论文转化为游戏策略,Voyager 在 Minecraft 跨剧情中积累基于代码的技能库 \(Shinn et al., 2023; Wu et al., 2023; Wang et al., 2024\)。后续方法通过蒸馏经验或自生成训练数据强化了这一循环,例如 ExpeL 的文本经验提炼和 SPIN 的自博弈微调 \(Zhao et al., 2024; Chen et al., 2024\)。近期工作进一步针对自主智能体改进:UI-Voyager 从失败轨迹中学习 GUI 控制,LSE 训练模型以改进奖励来精炼其自身的测试时上下文 \(Lin et al., 2026; Chen et al., 2026\)。与这些主要跨剧情、跨任务或在外循环更新中进行演化的方法不同,TMEM 执行的是*剧情内参数化自进化*:蒸馏后的经验在单次推理过程中被写入快速 LoRA 权重 $\Delta_t$,因此策略本身实时发生改变,而非仅仅查阅外部记忆或修改后的提示。
## 3 具有参数化记忆的智能体决策过程
我们将 TMEM 形式化为一个智能体决策过程,其中策略可以在推理过程中通过快速 LoRA 更新而改变。每个剧情从任务提示 $q \sim D$ 开始,最多包含 $T$ 次模型生成事件。令 $\mathcal{V}$ 表示有限 token 词汇表,$\mathcal{V}^*$ 表示有限 token 序列的集合。在生成事件 $t \in \{1, \ldots, T\}$ 时,智能体维护一个工作上下文 $h_t \in \mathcal{V}^*$、显式文本记忆 $m_t \in \mathcal{V}^*$,以及由 LoRA 权重表示的快速参数化记忆 $\Delta_t$。生成的输出从自适应策略中采样:
$$a_t \sim \pi_{\theta_0 + \Delta_t}(\cdot \mid c_t), \quad c_t \in \{(q, h_t, m_t),\ (q, h_t, m_t, d)\}, \tag{1}$$
其中 $a_t$ 表示模型生成的动作。其语义由条件上下文决定:在普通上下文 $(q, h_t, m_t)$ 下,它是任务/工具动作或最终响应;在提取上下文 $(q, h_t, m_t, d)$ 下(其中 $d$ 是记忆写入提示),它是记忆写入动作,例如摘要、QA 对、蒸馏事实或指令-响应示例。基础参数 $\theta_0$ 在推理过程中固定,但在强化学习训练中进行优化;$\Delta_t$ 在推理过程中变化,充当快权重记忆。令 $\Delta_t \equiv 0$ 可恢复纯显式记忆智能体。
---
**用于 QA 对提取的记忆写入提示 $d$**
任务:从当前会话中生成有依据的 SFT QA 对。
给定待解决的问题和先前的对话历史,现在请创建基于历史的高质量监督微调(SFT)QA 对。
**要求:**
1. 根据会话中有用信息的多少,自适应地生成 QA 对。
- 如果会话包含丰富、具体的事实,则生成更多 QA 对。
- 如果会话中有用证据有限,则生成较少 QA 对。
- 如果没有可用证据,则返回空 JSON 数组。
2. 可以生成捕捉会话中所学经验的 QA 对,以帮助改善未来的交互,例如偏好、计划、事件和时间细节,而不仅仅是事实性问题。
3. 每个问题必须有依据可答……相似文章
EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构
EvolveMem为LLM智能体引入了一种自演化记忆架构,通过LLM驱动的诊断和迭代研究周期来优化检索配置,在LoCoMo和MemBench等基准测试上取得了显著的性能提升。
ElasticMem:作为LLM智能体可学习资源的潜在记忆
ElasticMem 为 LLM 智能体引入了一种可学习的潜在记忆机制,该机制能够自适应地为检索到的记忆分配可变预算,从而在减少 token 成本的同时,提升内存密集型问答和具身智能体任务的性能。
SimpleMem: 面向大语言模型智能体的高效终身记忆
介绍SimpleMem,一种面向LLM智能体的高效记忆框架,利用语义无损压缩提升准确率并降低token消耗,F1分数提升26.4%,推理时token使用量减少高达30倍。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。
HeLa-Mem:面向LLM智能体的赫布学习与联想记忆
# HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents 来源:[https://arxiv.org/html/2604.16839](https://arxiv.org/html/2604.16839) Jinchang Zhu1,∗,a, Jindong Li1,∗, Cheng Zhang2,∗, Jiahong Liu3, Menglin Yang1,†,b 1香港科技大学(广州) 2吉林大学 3香港中文大学 [email protected] [email protected] ∗同等贡献 †通讯作者 ###### 摘要 长...