当存储证据不再可用时：Agent 记忆的条件规模评估

arXiv cs.AI 2026/05/11 04:00 论文

摘要

本文提出了一种针对 Agent 记忆的条件规模评估协议，分析随着无关会话的累积，可靠性如何下降。该研究识别了不同记忆接口和大型语言模型（LLM）下的特定失效区域和可用规模边界。

arXiv:2605.07313v1 公告类型：新论文摘要：现有的 Agent 记忆评估报告通常提供固定快照的准确率或检索质量分数，但这些分数未能反映在无关会话（即未被标注为查询相关任务证据的会话）累积的情况下，证据是否依然可用。我们提出了一种在保留证据增长条件下评估 Agent 记忆的条件规模协议：对于每个查询，任务证据保持不变，同时增加无关会话。该协议记录 Agent-记忆轨迹，并报告四项诊断指标：符合预算的可靠性、尾部记忆调用负担、失效区域分解，以及可靠性低于目标值的可用规模边界。将本协议应用于 LongMemEval 和 LoCoMo，涵盖平面、二维平面和分层记忆接口，结果显示可靠性损失并非单一现象。在 LongMemEval 中，HippoRAG 虽然保持在两次调用的预算范围内，但随着无关会话的增加，其符合预算的可靠性下降了 16-20 个百分点；LiCoMemory 的观测失效情况高度依赖于 Agent，其中 Qwen3-8B 超出了预算，而 Qwen3-32B 和 Qwen3-235B 在测试范围内保持了可靠性。这一结果支持了一个框架，即关于可扩展记忆的主张应取决于 Agent、接口、规模范围和交互预算。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:16

# 当存储的证据不再可用时：对智能体记忆进行规模条件评估

来源：https://arxiv.org/html/2605.07313
邵家奇 香港科技大学，香港；昆山杜克大学，中国 & 陆逸逸$^{1}$脚注标记：1 昆山杜克大学，中国 & 张云真 昆山杜克大学，中国 & 罗冰 昆山杜克大学，中国

###### 摘要

记忆-智能体评估通常报告固定快照的准确率或检索质量，但这些分数无法显示随着无关会话（未标注为查询相关任务证据的会话）的积累，证据是否仍然可用。我们提出了一种在证据保留增长下的智能体记忆规模条件评估协议：对于每个查询，保持任务证据固定，同时增加无关会话。该协议记录智能体-记忆轨迹，并报告四项诊断指标：符合预算的可靠性、尾部记忆调用负担、故障模式分解，以及可靠性低于目标时的可用规模边界。将该协议应用于 LongMemEval 和 LoCoMo，涵盖扁平、平面和分层记忆接口，结果显示可靠性下降并非单一现象。在 LongMemEval 中，HippoRAG 保持在两次调用预算内，但随着无关会话的增加，符合预算的可靠性下降了 16-20 个百分点；LiCoMemory 的观测失败在很大程度上取决于智能体，其中 Qwen3-8B 超出预算，而 Qwen3-32B 和 Qwen3-235B 在测试范围内保持可靠。这一结果支持一种框架，使可缩放记忆的声明有条件地依赖于智能体、接口、规模范围以及交互预算。

## 1 引言

LLM 智能体结合了模型推理、外部工具、结构化工作流以及自主的环境交互（Schick 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib1); Yao 等.,2022 (https://arxiv.org/html/2605.07313#bib.bib2); Wu 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib3); Zhou 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib4)）。为了支持长视界交互，智能体通常配备记忆系统，这些系统跨会话持久化信息，并在推理时提供相关上下文（Park 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib5); Packer 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib6); Zhong 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib7); Xu 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib8); Li 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib9)）。

先前的智能体记忆研究主要分为两类：*系统*研究设计检索相关证据的记忆后端（Fang 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib10); Li 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib9); Jiménez Gutiérrez 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib11); Huang 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib12)）。*评估*研究通常使用固定的记忆快照来评估准确率或检索质量（Wu 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib13); Maharana 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib14); He 等.,2026 (https://arxiv.org/html/2605.07313#bib.bib15)）。然而，部署中的智能体会随着时间积累会话和观测数据（Packer 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib6); Wu 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib13); Maharana 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib14); Hu 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib16)）。固定快照分数无法告诉我们，随着无关可访问历史的增长，可扩展性声明能延伸多远，也无法说明后来的失败是源于检索排序、过度交互、答案合成还是评分噪声。

为了填补这一空白，我们研究了**大规模记忆下的智能体行为**：在保持任务相关证据固定的同时，增加无关的可访问记忆。我们采用了来自 LongMemEval（Wu 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib13)）的证据保留缩放构建。我们的目标不是引入新的基准或记忆架构，而是将此构建转化为智能体-记忆系统的轨迹级评估协议。如图1 (https://arxiv.org/html/2605.07313#S1.F1)(a) 所示，这提供了一种受控干预，以询问随着可访问历史的增长，存储的证据是否仍然可用。

随着可访问记忆的增长，通过特定接口定位、选择、验证和使用正确证据可能会变得更加困难。我们使用*智能体面向的交互负担*来指代这种推理时的负担，区别于存储大小、离线索引成本、隐藏的后端遍历或端到端系统成本。困难的形式可能取决于记忆接口：单次遍历系统可能在预算内给出错误答案，而多跳系统可能在遍历和验证上花费过多的记忆调用（图1 (https://arxiv.org/html/2605.07313#S1.F1)(b)）。

我们将记忆可扩展性作为一种在证据保留增长下的评估声明进行研究：记忆侧的干预扩大了可访问历史，但报告的量是从智能体-记忆轨迹中计算得出的。该协议记录这些轨迹，并报告 Pass@B、尾部检索调用负担、故障模式分解（$p_{\mathrm{exh}}$ 和 $p_{\mathrm{wrong}}$），以及标记可靠性首次低于目标的可用规模边界。我们的核心主张是，可扩展记忆的报告应表述为与明确的规模和检索预算条件绑定的智能体-接口声明，而不仅仅是存储容量或固定快照准确率。

引用说明 Figure 1: 大规模记忆概览。(a) 证据保留缩放：保持任务相关证据固定，同时增加无关的可访问记忆。(b) 交互负担：更大的记忆可能触发长尾的检索-验证循环（更多的智能体发出的记忆调用）。(c) 可靠性和可用规模边界：在固定检索预算下，交互负担和预算内错误导致失败，使不同智能体-记忆系统的可靠性首次低于目标的规模发生偏移。评估范围。我们在证据保留增长下评估可用记忆。检索调用预算统计轨迹中可见的智能体发出的记忆 API 调用。我们不声称测量总存储可扩展性、离线索引成本、隐藏的后端图计算、返回证据的语义密度、对抗性记忆鲁棒性或过时/矛盾记忆管理。返回的证据单位数量相匹配，但比较应被视为智能体面向的接口评估，而非完整的端到端系统成本比较。我们的贡献总结如下：

- • 一种用于可用智能体记忆的规模条件评估协议。对于每个查询，标注的任务证据保持不变，同时根据共享的规模阶梯注入无关会话。该协议评估智能体在规定的记忆调用预算下，是否仍能通过指定的记忆接口使用证据。
- • 一套用于可扩展记忆声明的轨迹级诊断套件。我们报告符合预算的可靠性、尾部检索调用负担、故障模式分解以及可靠性低于目标的规模边界。这些诊断共同区分了在预算内给出错误答案的系统与违反交互预算的系统。
- • 跨记忆接口家族和智能体的实证审计。在 LongMemEval 和 LoCoMo 上，我们将协议应用于扁平、平面和分层记忆接口。结果表明，相似的可靠性曲线可能对应不同的观测故障模式，且可扩展记忆声明必须与智能体、接口、规模范围和预算绑定。

## 2 相关工作

##### 记忆规模与记忆接口。

先前的工作将记忆规模作为长输入上下文、增长的对话历史以及外部记忆系统设计进行研究。长上下文基准显示，即使相关证据出现在输入中，也可能未被充分利用（Liu 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib17); Bai 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib18); Hsieh 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib19)）；长记忆和智能体记忆基准评估了增长的历史、多会话对话以及交互式记忆使用（Wu 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib13); Maharana 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib14); Hu 等.,2026 (https://arxiv.org/html/2605.07313#bib.bib20); He 等.,2026 (https://arxiv.org/html/2605.07313#bib.bib15); Jiang 等.,2026 (https://arxiv.org/html/2605.07313#bib.bib21)）。记忆系统通过类似操作系统、生命周期管理、轻量级、图或分层接口组织外部状态（Packer 等.,2023 (https://arxiv.org/html/2605.07313#bib.bib6); Li 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib9); Fang 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib10); Jiménez Gutiérrez 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib11); Huang 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib12)）。遵循最近的分类，我们使用扁平、平面和分层接口作为检索时接口的轴线（Hu 等.,2025 (https://arxiv.org/html/2605.07313#bib.bib16)）。这些工作确立了规模和接口设计的重要性，但它们本身并未明确说明规模诱导的失败是源于证据选择、过度的智能体-记忆交互、停止行为还是答案合成。

##### 审计记忆可扩展性声明。

端点准确率、检索召回率、延迟和成本是有用的，但它们可以将不同的故障模式合并为一个分数。在证据保留增长下，可靠性的下降可能意味着证据未被返回，智能体使用了过多的记忆调用，搜索未能停止，或者尽管保持在预算内但最终答案是错误的。因此，我们将记忆可扩展性视为一种智能体-接口评估声明：在任务证据固定、无关记忆增加、检索调用预算明确且返回证据曝光匹配的情况下，可扩展记忆报告应包含 Pass@B、P90R、预算诱导与预算内错误率，以及崩溃起始点。我们的目标不是另一个记忆系统排行榜，而是一种审计视角，用于询问随着可访问记忆的增长，存储的证据是否仍然可用。

## 3 规模条件的智能体-记忆评估

本节规定了用于使可扩展记忆声明可审计的评估协议和轨迹级诊断指标。

\{definitionbox\}

协议。对于每个基准查询 $q$，评估过程如下：

1. 1\. 识别标注的任务相关证据会话 $E(q)$；
2. 2\. 通过保持 $E(q)$ 固定并添加 $N_{\mathrm{irr}}(s)$ 个无关会话，构建历史 $H^{(s)}(q)$；
3. 3\. 运行配备记忆接口 $\mathcal{M}$ 的智能体 $\mathcal{A}$，并记录所有智能体发出的记忆调用；
4. 4\. 评分最终答案，并计算符合预算的可靠性、检索调用分位数、故障模式分解和崩溃起始点。

### 3.1 规模下的智能体-记忆交互

我们将可用记忆的可扩展性作为一种智能体-接口操作属性进行研究，而不是作为记忆后端固有的存储可扩展性。规模干预应用于可访问历史 $H^{(s)}(q)$，而测量的对象是当智能体模型 $\mathcal{A}$ 在检索调用预算下使用记忆接口 $\mathcal{M}$ 时产生的轨迹。对于查询 $q \sim \mathcal{D}$ 和规模条件 $s \in \mathcal{S}$，令 $H^{(s)}(q)$ 表示规模 $s$ 下的可访问历史。当上下文清晰时，我们简写为 $H^{(s)}$。

##### 证据保留的记忆缩放。

令 $y(q)$ 表示黄金答案，令 $E(q)$ 表示查询 $q$ 的任务相关证据会话集合。家族 $\{H^{(s)}(q)\}_{s \in \mathcal{S}}$ 是*证据保留的*，如果对于每个 $s$，我们有 $E(q) \subseteq H^{(s)}(q)$，集合 $E(q)$ 在 $s$ 之间保持不变，且 $H^{(s)}(q) \setminus E(q)$ 仅包含额外的无关会话。这遵循 LongMemEval（Wu 等.,2024 (https://arxiv.org/html/2605.07313#bib.bib13)）。它保持答案证据固定，同时改变检索控制问题。

##### 智能体-记忆轨迹。

令 $\mathcal{A}_{\mathrm{ext}}(\mathcal{M})$ 表示计入检索调用预算的智能体发出的外部记忆 API 调用集合。一次展开（rollout）为

$\tau=(o_1,a_1,o_2,a_2,...,o_T,a_T), \quad \tau \sim P(\tau \mid q,\mathcal{A},\mathcal{M},H^{(s)}(q)),$

其中 $o_t$ 和 $a_t$ 分别表示观测和行动，$t$ 索引步骤。定义检索调用计数：

$R(\tau):=\sum_{t=1}^{T}\mathbf{1}[a_t \in \mathcal{A}_{\mathrm{ext}}(\mathcal{M})],$

并令 $C(\tau) \in \{0,1\}$ 表示最终答案的正确性：如果展开 $\tau$ 返回正确的最终答案，则 $C(\tau)=1$，否则 $C(\tau)=0$。在我们的实验中，$\mathcal{S}=\{s_0,...,s_4\}$ 是一个共享的离散阶梯，基准间的无关会话数量相匹配（表4 (https://arxiv.org/html/2605.07313#A1.T4)）。预算 ID 和返回项奇偶约束在 §4 (https://arxiv.org/html/2605.07313#S4) 中指定。对于基于图系统，我们使用 top-$k=12$，返回项是模型可见的块级证据单位，而非内部图节点、路径或来源会话 ID。

### 3.2 记忆可扩展性的轨迹级诊断

为了表征随着 $s$ 增加时的智能体-记忆行为，我们问：（1）在固定检索调用预算下可靠性是否保持？（2）交互负担是否随规模增长？（3）哪种观测到的故障源解释了任何可靠性下降？（4）在什么规模下可靠性崩溃？

#### 3.2.1 在固定检索调用预算下可靠性是否保持？

\{definitionbox\}

###### 定义 1（符合预算的可靠性 — Pass@B）。

令 $R(\tau)$ 为上述定义的检索调用计数。定义每次展开的成功指示器

$\mathrm{pass}_B(\tau):=\mathbf{1}[C(\tau)=1 \;\wedge\; R(\tau)\leq B]$.

系统在规模 $s$ 下的预算内可靠性 $(\mathcal{A},\mathcal{M})$ 为

$\mathrm{Pass@B}(\mathcal{A},\mathcal{M},s):=\mathbb{E}_{q\sim\mathcal{D}}\,\mathbb{E}_{\tau\sim P(\cdot \mid q,\mathcal{A},\mathcal{M},H^{(s)}(q))}\!\left[\mathrm{pass}_B(\tau)\right].$
(1)

$\mathrm{pass}_B(\tau) \in \{0,1\}$ 是每次展开的二进制指示器，而 Pass@B 是其在任务和展开联合分布上的期望。在实践中，我们通过平均评估展开的 $\mathrm{pass}_B(\tau)$ 来估计 Pass@B。该指标是一种符合预算的可靠性度量，而非代码生成评估中的 pass@k：仅当最终答案正确且检索调用计数

当存储证据不再可用时：Agent 记忆的条件规模评估

相似文章

STALE：LLM智能体能否识别记忆何时失效？

从存储到经验：大语言模型智能体记忆机制演进综述

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

@omarsar0: // LLM 智能体中的记忆诅咒 //（建议收藏）过长的历史记录显然会导致智能体性能下降，因为它们变得越来越…

LongMemEval-V2：评估长期智能体记忆，迈向经验丰富的同事

提交意见反馈