WhenLoss：诊断长上下文记忆系统中的写入与检索瓶颈

arXiv cs.CL 2026/05/26 04:00 论文

摘要

介绍了一种四条件诊断协议，用于识别长上下文记忆系统的失败是由于写入端的压缩丢弃了证据，还是检索端未能找到已存储的信息。分析表明，大多数基线模型的写入端差距占主导，从而推动了所提出的预期预测压缩（EPC）方法，该方法提高了相关证据的保留能力。

arXiv:2605.24579v1 公告类型：新摘要：长上下文记忆系统在固定预算下常常失败，但端到端评估无法揭示证据是在压缩过程中被丢弃，还是被保留但从未被检索。我们引入了一种四条件诊断协议，在截断全上下文（TFC）、理想证据（OE）、完整存储记忆（CSM）和检索记忆（RM）下评估固定阅读器。在这个固定预算的LongMemEval设置下，对于大多数测试的基线模型，写入端差距超过了检索端差距，其中六个基线中有四个在我们的默认诊断阈值下稳健地表现为写入主导。受此诊断启发，我们提出了预期预测压缩（EPC），它将关键决策——保留哪些信息——转移到写入时间，通过使用LLM来预测未来可能的问题，并在令牌预算下保留最少的支持证据，同时在提问时保持检索不变。在所有500个LongMemEval问题中，使用三个阅读器（GPT-5.2、Claude Sonnet 4、Gemini 2.5 Pro），EPC在所有系统中获得了最高的CSM分数（0.49 vs 最强基线Summary (LLM)的0.44），将Delta_write降低到0.04，同时使Delta_retr与其他基于LLM的系统相当。这些结果表明，在这个基准测试和评估设置下，改善写入阶段保留的内容是在测试系统中获得性能提升的关键途径。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:04

# 诊断长上下文记忆系统中的写入与检索瓶颈
来源：https://arxiv.org/html/2605.24579
###### 摘要

长上下文记忆系统在固定预算下常常失效，但端到端评估无法揭示证据是在压缩过程中被丢弃，还是被保留但未被检索到。我们引入一个四条件诊断协议，在截断全文（TFC）、Oracle证据（OE）、完整存储记忆（CSM）和检索记忆（RM）四种条件下评估固定阅读器。在此固定预算的 LongMemEval 设置下，大多数测试基线的写入侧差距超过检索侧差距，其中六个基线中有四个在我们的默认诊断裕度下稳健地呈现“写入主导”。受此诊断启发，我们提出**期望预测压缩（EPC）**，该方法将关键决策——保留哪些信息——转移到写入阶段：通过使用 LLM 预判未来可能的问题，并在 token 预算下保留最少的支持证据，同时在提问阶段保持检索不变。在全部 500 个 LongMemEval 问题（使用三个阅读器：GPT-5.2、Claude Sonnet 4、Gemini 2.5 Pro）上，EPC 在所有系统中取得了最高的 CSM 分数（0.49，而最强基线 Summary (LLM) 为 0.44），将 Δ_write 降至 0.04，同时 Δ_retr 与其他基于 LLM 的系统相当。这些结果表明，在该基准和评估设置下，改进写入阶段所保留的内容是提升所测试系统性能的关键途径。

**WhenLoss：诊断长上下文记忆系统中的写入与检索瓶颈**

蒋南宇，林科颂琦，吴吉隆

## 1 引言

用户与 AI 助手聊天三个月——分享餐厅偏好、旅行计划、项目截止日期。有一天他们问：“我四月提到过喜欢哪家泰国菜？”系统失败了。但失败的原因很重要：是记忆系统在压缩时丢弃了该细节，还是该细节存储在记忆中但检索时遗漏了？前者需要更好的压缩；后者需要更好的检索。端到端准确率——大多数基准报告的唯一指标——无法区分这两者。

这不是一个假设性问题。记忆增强型 LLM 现在使用多种写入策略——分块存储（Lewis 等，2020 (https://arxiv.org/html/2605.24579#bib.bib5)）、会话摘要（Wang 等，2024 (https://arxiv.org/html/2605.24579#bib.bib8)）、摘要树（Chen 等，2024 (https://arxiv.org/html/2605.24579#bib.bib2)）、要点页面（Lee 等，2024 (https://arxiv.org/html/2605.24579#bib.bib3)）、重要性评分库（Zhong 等，2024 (https://arxiv.org/html/2605.24579#bib.bib4)）——但评估通常只报告端到端性能。当系统得分较低时，实践者无法判断应该投资于压缩还是检索。

我们通过在同一阅读器上评估四种受控输入（这些输入替换或绕过记忆管道的不同部分）来揭示这些阶段级效应。由此产生的**四条件诊断协议**（§3 (https://arxiv.org/html/2605.24579#S3)）通过比较 Oracle 证据（OE）与完整存储记忆（CSM）来估计写入侧差距，比较 CSM 与检索记忆（RM）来估计检索侧差距。该协议是可操作的——它能定位性能下降的位置，而不声称识别根本原因。

将该协议应用于 LongMemEval（Wu 等，2025 (https://arxiv.org/html/2605.24579#bib.bib1)）上的六个基线系统，我们发现一个一致的差异：大多数基线的写入侧差距超过检索侧差距，其中四个基线在我们的默认诊断裕度下稳健地呈现写入主导。对于这些基线操作点，写入阶段丢失的性能多于检索阶段。

这一发现表明，应利用预期的未来问题来指导写入时的压缩。挑战在于压缩发生在问题到达**之前**。标准摘要器不知道哪些事实以后会重要。**期望预测压缩（EPC）**（§4 (https://arxiv.org/html/2605.24579#S4)）通过提示 LLM 生成关于对话的可能的未来问题来解决这一问题。这些自生成的探查问题随后指导在固定 token 预算下的证据选择——保留最可能需要的具体事实、日期和偏好，而不是生成通用的可读摘要。

在 500 个 LongMemEval 问题（使用三个阅读器：GPT-5.2、Claude Sonnet 4、Gemini 2.5 Pro）上，EPC 在所有测试系统中取得了最高的 CSM 分数，写入侧差距最低（Δ_write=0.04）。在第二个基准（LoCoMo）上，EPC 再次取得最低的写入侧差距（Δ_write=0.06）。成本匹配的比较分离了额外 LLM 调用的增益，预算扫描显示优势在紧预算下最大——这正是选择正确证据至关重要的场景。

## 2 相关工作

#### 长上下文记忆系统。

先前的工作探索了多种用于长交互的记忆系统。MemGPT（Packer 等，2024 (https://arxiv.org/html/2605.24579#bib.bib10)）引入了虚拟内存层次结构；MemWalker（Chen 等，2024 (https://arxiv.org/html/2605.24579#bib.bib2)）将长文档组织为摘要树；ReadAgent（Lee 等，2024 (https://arxiv.org/html/2605.24579#bib.bib3)）存储要点并在读取时展开；MemoryBank（Zhong 等，2024 (https://arxiv.org/html/2605.24579#bib.bib4)）按重要性和时间衰减对记忆评分；而 Wang 等人（2024 (https://arxiv.org/html/2605.24579#bib.bib8)）训练了一个与模型联合的长期记忆模块。Zhang 等人（2024 (https://arxiv.org/html/2605.24579#bib.bib9)）更广泛地调查了这些记忆机制。我们的重点互补：与其提出另一个端到端系统，我们关注如何**定位记忆管道中性能下降的位置**。

#### 记忆评估与错误分析。

LongMemEval（Wu 等，2025 (https://arxiv.org/html/2605.24579#bib.bib1)）提供了多会话对话以及黄金轮次级证据标注，使得可以对照明确的支持证据评估记忆系统。在检索增强生成中，Xu 等人（2024b (https://arxiv.org/html/2605.24579#bib.bib7)）比较了基于检索和长上下文的方法，但他们评估的是端到端性能，没有分离写入侧与检索侧的退化。我们的协议填补了这一空白。

#### 针对下游任务的压缩。

提示与上下文压缩方法（Jiang 等，2023 (https://arxiv.org/html/2605.24579#bib.bib15)；Pan 等，2024 (https://arxiv.org/html/2605.24579#bib.bib18)）在保留通用效用性的同时减少 token 数量。查询感知变体——RECOMP（Xu 等，2024a (https://arxiv.org/html/2605.24579#bib.bib19)）以及更广泛的查询聚焦摘要传统（Daumé III and Marcu, 2006 (https://arxiv.org/html/2605.24579#bib.bib20)；Baume 等，2018 (https://arxiv.org/html/2605.24579#bib.bib21)）——通过将压缩条件化于已知的下游查询进一步前进。EPC 则在查询可用之前运行。它通过 LLM 自问答近似未来的问题分布，并最小化可能未来问题的期望答案损失，而不是优化通用可读性或对已知查询的响应。

## 3 诊断协议

本节定义四个受控输入条件、由此产生的写入侧和检索侧指标，以及用于标注主导瓶颈的规则。

### 3.1 问题形式化

考虑一个在会话历史 H={s_1,s_2,...,s_n}（由 n 个会话组成）上运行的记忆增强型问答系统。给定问题 q、黄金答案 y 以及从 H 中提取的黄金证据轮次 E_q，系统必须：(1) 将历史**写入**到预算有限的记忆存储 M（容量为 B 个 token），(2) 从 M 中**读取**检索到的内容 R⊆M，为回答 q 提供上下文。这里，写入阶段表示问题前的处理，它将历史存储、索引、淘汰或压缩到 M 中；检索是提问时从该存储中选择内容。

### 3.2 四个条件

我们定义四个评估条件，每个条件向固定阅读器提供不同的输入，以隔离参考性能和记忆管道效应（图1 (https://arxiv.org/html/2605.24579#S3.F1)）：

- **TFC（截断全文）**：阅读器接收经过截断（固定 32K token 上下文预算）后的 H。不涉及记忆系统。
- **OE（Oracle 证据）**：阅读器只接收黄金证据轮次 E_q——移除干扰项，无截断。
- **CSM（完整存储记忆）**：阅读器接收写入阶段后记忆 M 中的所有内容。
- **RM（检索记忆）**：阅读器接收检索到的子集 R⊆M。

两个差距定位记忆管道中性能下降的位置：OE→CSM 定义写入侧差距，CSM→RM 定义检索侧差距。适用两个注意事项。首先，OE–TFC 差距混合了干扰项移除与强加的上下文预算，因此 OE>TFC 不能隔离任一效应。其次，OE→CSM 差距应解读为写入侧退化的上界：它也可能反映存储记忆与阅读器期望之间的格式不匹配，或上下文线索的丢失。因此，这些差距是**操作性**指标，用于定位性能下降的位置，而非对单一机制的因果归因。虽然每个条件单独来看都很简单，但先前的评估仅报告端到端分数（RM 或等效值），使得无法确定失败源于压缩还是检索。该协议的贡献在于将这些条件组合成一个可复用的诊断，任何记忆系统都可以在不更改架构的情况下运行。

### 3.3 瓶颈指标

对于评分指标 φ，我们使用两个差距作为**操作性瓶颈指标**：

Δ_write = φ(OE) - φ(CSM)      (1)
Δ_retr = φ(CSM) - φ(RM)        (2)

它们是可加的：φ(OE) - φ(RM) = Δ_write + Δ_retr。为简洁起见，下文记 Δ_w = Δ_write，Δ_r = Δ_retr。

### 3.4 诊断规则

裕度 ε=0.02：

诊断 = 
  Write, 若 Δ_w > Δ_r + ε
  Retrieval, 若 Δ_r > Δ_w + ε
  Mixed, 其他情况                   (3)

裕度仅影响接近平衡的系统；在 ε∈[0,0.05] 下，四个基线仍然是明确的 Write，而 Summary (LLM) 和 ReadAgent 位于边界附近。

[图1：四个条件诊断协议。每个条件由同一阅读器评估；Δ_write=φ(OE)-φ(CSM)，Δ_retr=φ(CSM)-φ(RM)。]

图 1：四个条件诊断协议。每个条件由同一阅读器评估；Δ_write=φ(OE)-φ(CSM)，Δ_retr=φ(CSM)-φ(RM)。

## 4 期望预测压缩

考虑 LLM 摘要，这是我们测试系统中查询无关压缩的最强基线（表3 (https://arxiv.org/html/2605.24579#S6.T3)）。它将 121K token 的对话压缩成 5K token 的流畅文本——然而，即使阅读器可以访问所有存储记忆，也只有不到一半的问题被正确回答（CSM = .44）。哪些信息丢失了？摘要器保留了广义上显著的内容——讨论的主题、做出的决定——但省略了下游问题所针对的具体日期、实体名称和偏好细节。这促使我们寻求一个优先考虑支持证据而非仅可读摘要的压缩目标。

我们提出**期望预测压缩（EPC）**，相应地调整压缩目标。

### 4.1 公式化

给定对话片段 x（在我们的实验中为一个会话）和 token 预算 B，令 Q(x) 表示 x 中可能被问到的未来问题集合，w(q) 为每个问题的估计似然。令 A(c,q) 表示阅读器在上下文 c 下对问题 q 的答案，L 为衡量答案退化的损失函数。EPC 寻找最小化期望答案损失的压缩记忆 m*：

m* = argmin_{|m|≤B} ∑_{q∈Q(x)} w(q) · L(A(x,q), A(m,q))      (4)

其中加权和近似于未来问题分布上的期望。这大致受率失真理论（Cover and Thomas, 2006 (https://arxiv.org/html/2605.24579#bib.bib14)）的启发，其中预算 B 扮演率约束的角色，失真为未来问题答案损失，而非表面重建误差。实际实现使用贪婪启发式（式5 (https://arxiv.org/html/2605.24579#S4.E5)）而非形式化的率失真优化；该连接是概念性的而非算法性的。

### 4.2 LLM 自问答 EPC

由于 Q(x) 在写入时未知，我们通过**LLM 自问答**近似：LLM 首先生成该片段可能被问及的探查问题，然后利用它们指导证据选择。实现中将生成的探查问题视为 Q(x) 的无加权近似。图2 (https://arxiv.org/html/2605.24579#S4.F2) 说明了该过程：

[对话片段 x → Self-Question: 1. 生成探查问题 {q_1...q_k} → Evidence ID: 2. 识别证据单元 {e_i} → Merge & Select: 3. 在预算 B 下选择记忆 m* → 送至检索]

图 2：EPC 写入管道。① 生成探查问题。② 识别支持证据。③ 在预算 B 下合并并选择。

#### 步骤 1：生成探查问题。

给定片段 x，提示 LLM 生成 k=5 个可能的未来问题，针对事实细节、偏好、计划、时间信息和状态变化。

#### 步骤 2：识别支持证据。

对于每个探查问题 q_i，LLM 识别最小支持证据：具体轮次、跨度、实体。

#### 步骤 3：合并、评分并选择。

重叠的证据跨度被合并，每个证据单元 e 获得效用分数：

u(e) = α · coverage(e) + β · specificity(e) - λ · redundancy(e)      (5)

其中 coverage 统计 e 支持的探查问题数量；specificity 奖励命名实体、日期和数字；redundancy 惩罚与已选证据的重叠。在每个贪婪选择步骤中，按当前 u(e) 排序，直到预算 B 耗尽，每个选中的证据单元被格式化为 [Q][E][S] 条目（其中 Q 是探针问题的引用，E 是证据跨度，S 是来源轮次）。

WhenLoss：诊断长上下文记忆系统中的写入与检索瓶颈

相似文章

价值感知KV缓存淘汰何时有效？一种针对非单调缓存压缩的固定契约诊断方法

回收评估：有损记忆比空记忆更糟糕

MemTrace：探究最终准确率在长期记忆中遗漏的内容

长上下文与检索增强语言模型中证据使用的四条件诊断协议

决策感知记忆卡：面向工具使用LLM代理的反事实启发式上下文选择与压缩

提交意见反馈