面向长周期LLM智能体的选择性记忆保留

arXiv cs.AI 2026/06/30 04:00 论文

memory-augmented llm-agents retention external-memory trace-retain continual-adaptation

摘要

本文提出TraceRetain，这是一个用于冻结LLM智能体中绑定外部存储的轻量级框架，表明选择性记忆保留主要在记忆流包含噪声时与缓存启发式方法区分开，从而带来任务成功率和效率的提升。

arXiv:2606.29178v1 公告类型：新摘要：记忆增强型LLM智能体何时需要保留？我们通过TraceRetain对此进行研究，这是一个用于冻结LLM智能体中绑定外部存储的轻量级框架，根据可解释特征（成功、年龄、访问频率、冗余、特异性、相似性、下游效用）对条目进行评分，并在容量满时驱逐得分最低的条目。在干净的ALFWorld上使用gpt-5-mini，外部存储相较于无记忆在两个随机种子上均有显著提升，但不同绑定保留策略之间的差异落在Wilson 95%置信区间内：T=100到T=200的干净ALFWorld并未自然表现出保留旨在解决的内存污染问题。在受控的噪声写入压力下（75%的合成干扰信息），无界存储和FIFO-K50在Precision@5上下降（从20.2%降至12.4%，从15.8%降至3.8%），而TraceRetain-CEM基本不变（从16.9%降至16.6%），并保持了97/100的任务成功率。其机制在于：无界存储的平均相似度最高（0.87），但精确度最低，表明失败的干扰信息在嵌入空间中与查询相近。保留的分布内评估显示，记忆增强策略在50个任务中解决了47到49个，而无记忆则为39/50。绑定保留在饱和的干净基准测试中以不牺牲任务成功率为代价换来了存储和步骤效率，并且仅在流包含噪声时才与缓存启发式方法区分开来。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:32

# 面向长周期 LLM 智能体的选择性记忆保留
来源：https://arxiv.org/html/2606.29178
###### 摘要

保留对记忆增强型 LLM 智能体何时重要？我们通过 TraceRetain 来研究这一问题。TraceRetain 是一个轻量级框架，用于冻结的 LLM 智能体中的有界外部记忆，它根据可解释特征（成功、年龄、访问频率、冗余度、特异性、相似性、下游效用）对条目进行评分，并在容量超限时驱逐得分最低的条目。在干净的 ALFWorld 上使用 gpt-5-mini，外部记忆在两个随机种子下均能稳健地优于无记忆的情况，但有界保留策略之间的差异落在 Wilson 95% 置信区间内：T=100 到 T=200 的干净 ALFWorld 并未自然表现出记忆保留旨在解决的内存污染问题。在受控的噪声写入压力测试（75% 合成干扰项）下，无界记忆和 FIFO-K50 在 Precision@5 上出现下降（分别从 20.2% 降至 12.4% 和从 15.8% 降至 3.8%），而 TraceRetain-CEM 基本保持不变（从 16.9% 降至 16.6%），并保持了 97/100 的任务成功率。其机制在于：无界记忆的平均相似度最高（0.87），但精确度最低，表明在嵌入空间中，失败的干扰项靠近查询向量。留出式分布内评估显示，记忆增强型策略能解决 50 个任务中的 47-49 个，而无记忆策略仅能解决 39 个。在饱和的干净基准上，有界保留以零任务成功代价换取了内存和步骤效率的提升，并且仅在数据流包含噪声时才与缓存启发式策略区分开来。

LLM 智能体，情景记忆，保留机制，持续适应

## 1 引言

LLM 智能体越来越依赖外部记忆来执行长时间跨度的任务 (Shinn et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib11); Wang et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib15); Park et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib6); Packer et al., 2024 (https://arxiv.org/html/2606.29178#bib.bib5))。存储成功轨迹并检索相关的先前经验支持非参数化适应：行为随着记忆库的变化而变化，而无需更新基础模型。

然而，更多的记忆并不自动更好。随着智能体存储更多回合，检索必须在不断增长的、相似但不一定有用的经验集合中进行搜索。冗余记忆可能排挤掉稀有但重要的记忆，失败的轨迹可能被检索用于新任务，而泛泛的示例可能消耗提示预算却无助于智能体选择更好的动作。我们将这种风险称为**内存污染**：由于无界或管理不善的积累导致的检索质量或下游行为退化。

本文旨在提出一个深思熟虑的实证问题：在当前的记忆增强型智能体基准测试中，保留机制究竟何时才真正重要？答案对可持续的持续适应有直接意义。有界记忆既限制了检索时评分的候选集规模，也限制了长任务流中的提示 token 占用，因此肯定的答案意味着推理成本的降低；否定的答案则意味着工程师可以在不造成损失的情况下默认使用简单的缓存启发式策略。无论哪种结果，对于资源感知的部署都具有信息价值 (Strubell et al., 2019 (https://arxiv.org/html/2606.29178#bib.bib13); Patterson et al., 2021 (https://arxiv.org/html/2606.29178#bib.bib7))。

我们通过 TraceRetain 来研究这个问题。TraceRetain 是一个轻量级的保留框架，它冻结基础 LLM，并使用一个基于可解释特征的小型线性函数对记忆进行评分。当记忆超过容量时，得分最低的条目将被驱逐。我们将 TraceRetain 作为一种探测工具而非优胜方法，并将其与缓存启发式策略（FIFO、LRU、LFU、随机、艾宾浩斯衰减）以及无界记忆进行比较。

我们的发现是对现象的描述，而非方法排名。使用强基础智能体 (gpt-5-mini)，T=100 和 T=200 的干净 ALFWorld (Shridhar et al., 2021 (https://arxiv.org/html/2606.29178#bib.bib12)) 已经高度饱和：大多数有界保留策略聚集在无界记忆的 Wilson 95% 置信区间内，且在这些时间跨度下污染并未自然出现。当我们引入受控的噪声写入压力测试时，无界记忆确实发生退化，而有界保留则有所帮助；在此情况下，TraceRetain-CEM 在检索精度上与缓存启发式策略拉开差距，同时以一半的记忆量保持了任务成功率。检索诊断表明，污染表现为嵌入空间中与失败干扰项的高相似性，而非低相似性——这是插入顺序驱逐策略所忽视的失效模式。

#### 贡献。

1. 1. 我们将外部记忆管理形式化为一个容量受限的保留问题，并将有界保留与长任务流上的推理成本联系起来。
2. 2. 我们引入了 TraceRetain，一个具有可解释特征的轻量级保留框架，包含两种评分器变体：TraceRetain-Linear（固定权重）和 TraceRetain-CEM（交叉熵权重搜索）。
3. 3. 我们在所有条件下报告了 Wilson 95% 置信区间和精确配对符号检验，并确定了有界保留与缓存启发式策略区分开来的关键场景：噪声写入流和留出式分布内评估，而非干净的饱和基准测试。
4. 4. 我们提供了一个受控的诊断方法，可以按需产生内存污染，并揭示了一个检索层级的机制（高相似度，低精确度），解释了为何插入顺序驱逐策略在污染下失效，而任务感知的保留机制则不会。

## 2 相关工作

**记忆增强型 LLM 智能体。** 冻结的 LLM 智能体通常会通过外部状态进行非参数化适应增强：Reflexion 在失败后存储口头自我批评 (Shinn et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib11))，Voyager 为开放式探索构建技能库 (Wang et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib15))，ExpeL 提炼轨迹洞察 (Zhao et al., 2024 (https://arxiv.org/html/2606.29178#bib.bib18))，MemGPT 分层管理上下文 (Packer et al., 2024 (https://arxiv.org/html/2606.29178#bib.bib5))，MemoryBank 应用心理学启发的衰减机制 (Zhong et al., 2024 (https://arxiv.org/html/2606.29178#bib.bib19))，而 Generative Agents 则将观察组织为带时间戳和重要性分数的数据流 (Park et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib6))。这些系统主要关注“写入什么”和“检索什么”；而对于长任务流中容量受限的驱逐策略的研究相对不足。认知架构调查绘制了更广泛的设计空间 (Sumers et al., 2024 (https://arxiv.org/html/2606.29178#bib.bib14))。我们将保留机制作为明确的研究对象，并在匹配容量条件下，将学习型评分器与简单的缓存启发式策略进行基准测试。

**情景记忆与检索增强推理。** 有界经验重放在持续学习中已得到充分确立，其中储层采样、梯度情景记忆和回放缓冲区在数据流压力下管理容量 (Lopez-Paz & Ranzato, 2017 (https://arxiv.org/html/2606.29178#bib.bib4); Rolnick et al., 2019 (https://arxiv.org/html/2606.29178#bib.bib8))。我们将其框架适应于 LLM 智能体场景，其中“重放”是上下文检索而非梯度更新，因此驱逐机制与基于嵌入的检索交互，而非参数遗忘。RAG (Lewis et al., 2020 (https://arxiv.org/html/2606.29178#bib.bib3)) 和推理-行动范式 (Yao et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib17); Schick et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib10)) 将检索扩展到交互式设置，但其索引通常是策划好的语料库；我们的索引则来源于任务流中智能体自身的轨迹，因此保留质量是策略的内生属性。ALFWorld (Shridhar et al., 2021 (https://arxiv.org/html/2606.29178#bib.bib12)) 将 TextWorld (Côté et al., 2018 (https://arxiv.org/html/2606.29178#bib.bib1)) 扩展到具身家庭任务场景，我们使用它是因为其任务族和结果标签使得污染和检索相关性可以直接测量；WebShop (Yao et al., 2022 (https://arxiv.org/html/2606.29178#bib.bib16)) 则是一个互补的多轮基准测试。

## 3 方法

#### 情景记忆设置。

一个智能体解决一个由回合索引 \( t \) 表示的任务序列。在每个步骤中，它嵌入任务，从记忆库 \( \mathcal{M}_t \) 中检索最多 \( k \) 条记忆，并使用冻结的 ReAct 风格 LLM (Yao et al., 2023 (https://arxiv.org/html/2606.29178#bib.bib17)) 执行动作。回合结束后，一条轨迹摘要（任务、结果、交互历史）被添加到 \( \mathcal{M}_t \)。记忆库的容量为 \( K \)；如果 \( |\mathcal{M}_t| > K \)，保留策略必须进行驱逐。

#### 特征。

对于记忆库中的每条记忆 \( m_i \) 在回合 \( t \)，我们首先计算一个特征向量 \( \phi(m_i, t) \)，其组成部分包括：成功/失败、标准化年龄、上次访问间隔、对数访问频率、特异性、冗余度、步骤效率、观察到的下游效用、效用计数置信度、上次检索相似度以及平均检索相似度。保留分数为 \( s_i = \mathbf{w}^\top \phi(m_i, t) \)，其中 \( \mathbf{w} \) 是特征权重向量。当 \( |M_t| > K \) 时，策略驱逐得分最低的条目。附录 C (https://arxiv.org/html/2606.29178#A3) 给出了具体的任务和记忆示例。

#### 评分器变体。

**TraceRetain-Linear** 使用固定的特征权重，旨在奖励成功、具体、频繁访问的记忆，惩罚陈旧、未使用、冗余或失败的记忆；它不需要额外的 LLM 调用。**TraceRetain-CEM** 对相同的特征权重使用交叉熵方法搜索 (Rubinstein, 1999 (https://arxiv.org/html/2606.29178#bib.bib9); de Boer et al., 2005 (https://arxiv.org/html/2606.29178#bib.bib2))，候选评分器在 20 个任务的调整子集上进行评估，并根据结合了成功、步骤效率和检索精确度的标量进行排序。由于调整子集与 seed-42 训练流重叠，seed-43 和 eval-seen 的结果是更干净的泛化检查。我们称此变体为 CEM 而非 RL，因为优化是黑箱群体搜索，而非在线强化学习。

#### 噪声写入压力测试。

为了直接探测污染，我们添加了一个条件：每次真实记忆写入后，紧接着写入三个失败的、相同任务的干扰项条目，因此记忆库中有 75% 是人为构造的合成噪声。干扰项共享当前任务描述和嵌入，但包含失败的轨迹内容。这是一种诊断性压力测试，而非自然 ALFWorld 噪声的模型。

#### 基线。

我们比较了无记忆、无界记忆、FIFO-K50（先进先出）、LRU-K50（最近最少使用）、LFU-K50（最不经常使用）、Random-K50、Ebbinghaus-K50（基于衰减）以及一种探索性的离线策略梯度变体 TraceRetain-RL-K50。我们在主表中报告最强结果，完整结果见附录。

表 1：各条件下的成功计数。干净的 T=100 列是两个种子（42, 43）的平均值；其方括号内的 CI 是针对合并的 n=200 任务池计算的 Wilson 95% 置信区间。TraceRetain-CEM 的权重在 seed-42 训练子集上调整；seed-43 和 eval-seen 是无偏的泛化检验。单子格中的方括号值为百分比形式的 Wilson 95% 置信区间。

## 4 实验

我们在 ALFWorld 家庭操作任务 (Shridhar et al., 2021 (https://arxiv.org/html/2606.29178#bib.bib12)) 上进行评估，使用 gpt-5-mini、text-embedding-3-large、top-5 检索、最大 50 环境步骤，并默认 K=50。我们报告五个条件：干净的 T=100（种子 42 和种子 43）、干净的 T=200（种子 42）、噪声写入 T=100（种子 42），以及一个迁移条件（在 100 个训练任务上写入记忆，然后在 50 个留出的 eval_in_distribution 任务上评估，不再进一步写入）。智能体使用冻结的 ReAct 风格提示，并附带固定的任务特定少样本示例。记忆通过嵌入相似度检索。Precision@5 使用标准化的 ALFWorld 任务键：如果一条检索到的记忆是成功的，并且其任务键与查询完全匹配，或者共享同一任务族且具有相同的目标对象或容器，则被视为相关（参见附录 B (https://arxiv.org/html/2606.29178#A2)）。我们将 Precision@5 视为一个诊断代理指标；任务成功率是主要指标。整个实验足迹约为 4000 个 ALFWorld 回合，且在任何时候都不进行参数更新。

#### 统计报告。

对于此处使用的样本量（每个条件 n=50 到 n=200），接近饱和上限的 Wilson 95% 置信区间半宽约为 ±3 到 ±8 个百分点；我们报告精确置信区间，并将重叠的 CI 视为不确定。对于记忆 vs 无记忆的声明，我们另外报告了在同一任务序列上的精确配对符号检验，该检验控制了每个任务的难度，比单纯的边际 CI 比较更强。

## 5 结果

### 5.1 干净 ALFWorld：记忆有帮助，方法趋于饱和

在 T=100 的两个种子下，所有记忆策略平均比无记忆策略多解决 9 到 12 个任务。在 seed-42 流上的配对符号检验对每种记忆策略相对于无记忆策略都是显著的（例如，TraceRetain-Linear 提升 11 个任务，失去 0 个，p<0.001；FIFO-K50 提升 9 个，失去 0 个，p=0.004）。有界方法之间的差异很小，并且在单种子分辨率下位于 Wilson 95% 置信区间内。表 1 (https://arxiv.org/html/2606.29178#S3.T1) 报告了所有四个条件下的综合情况。

在干净的 T=100 上，TraceRetain-Linear 在双种子均值上（97.5/100）与无界记忆持平，同时只使用了一半的记忆。在更长的 T=200 运行中，TraceRetain-CEM 以最终记忆大小的四分之一与无界记忆持平（192/200）。我们不声称学习型保留机制在干净 ALFWorld 上稳健地优于缓存启发式策略：在 T=200 时，FIFO-K50 与 TraceRetain-Linear 持平（190/200），而在种子 43 上，Random-K50 与 TraceRetain-Linear 持平（96/100）。在干净运行中可辩护的声明是固定容量下的内存效率，而非有界策略之间的方法排名。

### 5.2 噪声写入压力测试：一个受控的污染场景

当 75% 的写入是失败的、相同任务的干扰项时，无界记忆库在第 100 回合增长到 400 个条目，并且各种方法明显区分开来（表 2 (https://arxiv.org/html/2606.29178#S5.T2)）。

表 2：噪声写入 T=100，种子 42。方括号内的值是 Wilson 95% 置信区间。TR- 前缀表示 TraceRetain 变体。有界方法之间的成功率 Wilson 置信区间重叠，因此本表中最强的声明并非成功率排序。区分性信号是 Precision@5 的稳定性以及相对于无记忆的配对符号检验不对称性。在从干净到噪声的转变中，无界记忆的 Precision@5 从 20.2% 下降到 12.4%，FIFO 从 15.8% 骤降到 3.8%，而 TraceRetain-CEM 基本保持不变（16.9% 到 16.6%），TraceRetain-Linear 下降不到一个百分点（16.1% 到 15.4%）。在此场景下，针对无记忆的配对符号检验，TraceRetain-CEM（10 次提升，1 次下降，p=0.012）和 TraceRetain-Linear（p=0.021）达到显著水平，而无界记忆（p=0.065）和 FIFO（p=0.109）则未达到：当存在噪声时，只有保留感知的方法可靠地优于无记忆基线。

检索诊断揭示了其机制。无界记忆取得了最高的平均检索相似度（0.87），但 Precision@5 仅为 12.4%：被污染的记忆库将失败的干扰项放置在嵌入空间中靠近查询向量的位置，因此基于相似度的检索会将其浮出水面。TraceRetain-CEM 以略微降低的相似度（0.82）换取了更高的精确度

面向长周期LLM智能体的选择性记忆保留

相似文章

RecMem：基于重复的记忆整合方法，用于高效且有效的长期运行LLM智能体

学会记住什么：面向长时域语言代理的基于约束优化的可观测性安全记忆保留

受人类启发的LLM智能体记忆架构

SimpleMem: 面向大语言模型智能体的高效终身记忆

ActiveMem：面向长程LLM推理的分布式主动记忆

提交意见反馈