SaliMory：面向对话智能体的认知记忆编排框架

arXiv cs.CL 2026/06/04 04:00 论文

摘要

SaliMory 是一个框架，通过训练单一语言模型来管理对话智能体的认知结构化记忆（包括用户事实、偏好和工作记忆），采用分层阶段式过程奖励与奖励分解对比精化机制。该框架将记忆归因失败率降低了三分之一，端到端准确率超越现有最优方法逾10%，并将良好个性化率提升至原来的两倍以上。

arXiv:2606.04120v1 公告类型：新论文摘要：作为长期伴侣的对话智能体必须在所有交互过程中维持持久记忆。然而，单纯通过原始检索扩展上下文窗口会降低推理质量，而通过标准强化学习训练记忆智能体则会在多阶段流水线中造成严重的信用分配瓶颈。为解决这一问题，我们提出了 SALIMORY——一个训练单一语言模型以管理认知结构化记忆的框架，涵盖用户事实、偏好与工作记忆。通过引入分层阶段式过程奖励与奖励分解对比精化机制，SALIMORY 为不同记忆操作（选择性过滤、整合与线索驱动召回）提供端到端的隔离监督信号。SALIMORY 将记忆归因失败率降低了三分之一，端到端准确率超越现有最优方法逾10%，并将良好个性化率提升至原来的两倍以上。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:12

# \method：为对话智能体编排认知记忆
来源：https://arxiv.org/html/2606.04120
Xinyuan Zhang†Hongda JiangShiun\-Zu KuoHyokun YunEjaz AhmedShereen OrabyZiyun LiSanat SharmaAnn LeeAhmed AlyAnuj KumarRaffay HamidXin Luna Dong†Meta Reality Labs\{kkaizh,dylanz426,lunadong\}@meta\.com (https://arxiv.org/html/2606.04120v1/mailto:%7Bkkaizh,dylanz426,lunadong%[email protected])

###### 摘要

作为终身伴侣的对话智能体必须在所有交互中保持持久记忆。然而，单纯通过扩展上下文窗口并结合原始检索会降低推理质量，而通过标准强化学习训练记忆智能体则会在多阶段流水线中造成严重的信用分配瓶颈。为此，我们提出 \method——一个训练单一语言模型来管理认知结构化记忆的框架，涵盖用户事实、偏好和工作记忆。通过引入分层分阶段过程奖励与奖励分解对比精炼，\method 为不同记忆操作（选择性过滤、整合与线索驱动的回忆）提供端到端的独立监督。\method 将记忆归因失败减少了三分之一，端到端准确率超越最优方法逾 10%，良好个性化率提升超过一倍。

## 1 引言

参见图 1：LoCoMo 上的门控错误归因。我们将每个错误响应追溯到流水线中最早的失败节点（顶部）。记忆错误——即显著信息在记忆形成过程中丢失或失真——在各基线中占主导地位（例如 MemGAS 高达 52%），远超画像生成错误与响应生成错误之和。对话式 AI 的演进正从孤立的单轮交互迅速转向终身数字伴侣。随着 AI 智能体日益融入日常生活，在标准 LLM 上下文窗口限制之外维持持久上下文已成为必然需求\(xu2022longtimenosee;bae2022keepmeupdated\)。然而，仅仅附加外部记忆模块远远不够：用户的交互历史往往庞大、重复，且充斥着琐碎信息。真正的挑战不在于存储，而在于*管理*——决定记住什么、如何组织记忆，以及在特定上下文中召回什么。

目前已出现两种主要范式，但各有不足。一个极端是存储所有过去的交互，并在新问题到来时通过检索增强生成（RAG）来提取相关上下文。然而随着记忆量增长，检索结果往往变得嘈杂且重复\(borgeaud2022;zhong2024memorybank;lee2024human\)。另一趋势是主动压缩和整理长期记忆，但无论是基于提示的方法\(li2024ldagent;xu2025amem\)还是基于强化学习的方法\(yan2025memoryr1;wang2025memalpha\)，均未能证明可以维持高质量记忆——即在跨越多元话题的未来对话中，可靠地捕获用户偏好同时保留显著但细微的细节。我们在 LoCoMo 基准\(maharana2024locomo\)上的错误分析表明，在最先进的解决方案中，不精确或不完整的记忆会导致多达 52% 的问题无法获得良好的个性化回答。

人类如何在不被压垮的情况下应对一生的经历？认知科学表明，我们并不试图记住一切\(atkinson1968;baddeley2000\)：*选择性注意*过滤被编码的内容，近期痕迹在*工作记忆*中保持活跃，以塑造持续的决策\(baddeleyhitch1974\)。在长期记忆中留存的内容具有结构性组织：持久的*事实*作为关于真实情况的硬性约束，而充满价值判断的*偏好*则作为关于感受是否合理的软性偏置\(tulving1972\)。

受上述原则启发，我们提出 \method——一个围绕三种互补存储构建的智能体记忆管理框架：关于用户可验证事实的*事实快照*、捕获主观品味的*长期偏好*，以及用户可能仍记忆犹新的近期细节所构成的*短期工作记忆*。事实快照提供硬性约束，偏好提供软性标准，工作记忆则呈现值得再次关注的新兴兴趣。一个单一的记忆管理模块以三种角色操作这些存储：（i）*选择性注意*：判断哪些对话轮次显著到值得记录；（ii）*整合*：更新和遗忘记忆；（iii）*线索驱动的利用*：在推理时检索并应用相关记忆。

\method 通过强化学习（RL）训练一个紧凑的语言模型来执行上述三种角色。由于单凭最终答案质量的奖励过于稀疏且距离中间记忆决策过远，我们引入两种互补机制。*分阶段过程奖励*不仅对最终答案的正确性和个性化质量评分，还对生成的记忆质量及每个中间决策（显著性、利用率）的合理性进行评分。*奖励分解对比精炼*步骤则进一步放大记忆管理信号：在每个 Group Relative Policy Optimization（GRPO）\(shao2024grpo\) rollout 批次中，我们构建角色特定的偏好对，以提升整体目标中记忆决策的权重。这两种机制共同解决了信用分配问题。

综上，本文有三项贡献：

- •**认知启发的记忆架构。** 我们将事实快照、主观偏好和短期工作记忆分离，并定义三种互补的记忆管理角色——显著性过滤器、记忆增强器和记忆利用器——共同支撑长时程对话。
- •**记忆锚定的强化学习。** 我们提出一套分阶段过程奖励系统，在每个阶段追踪记忆质量，并在 GRPO rollout 上进一步提出奖励分解对比精炼，保障记忆形成质量与最终响应生成质量。
- •**新基准与评估协议。** 为全面评估记忆对对话智能体的影响，我们引入新的 LoCoMo\-P13n 基准，在原始 LoCoMo 基础上加入可个性化查询。我们还引入多步评估协议，同时考察精确记忆召回与个性化问答能力。实验结果表明，使用 9B 模型，\method 端到端准确率超越 SOTA 10.2%，良好个性化率大幅提升 23.5 个百分点。

## 2 相关工作

**记忆增强语言模型。** 为 LLM 配备持久上下文的传统方式遵循两种范式。参数化记忆通过微调（如 FireAct\(chen2023fireact\)、AgentLumos\(yin2024agent\)）或软参数（SELF\-PARAM\(wang2024self\)）更新模型权重，但存在灾难性遗忘和对未见查询泛化性差的问题。基于检索的记忆将\(borgeaud2022;lee2024human\)经验抽象为外部数据存储，使用语义搜索获取相关上下文。然而，由于检索纯粹依赖语义匹配而非下游效用，它难以可靠地区分关键客观事实与一时评论，常常返回嘈杂或碎片化的上下文。

**对话记忆结构。** 为克服 RAG 的局限，智能体系统将上下文组织为不同拓扑结构。线性记忆按顺序处理历史；MemGPT\(packer2023memgpt\)使用类操作系统的 FIFO 队列管理上下文，而 MemoryBank\(zhong2024memorybank\)则对较旧的交互进行衰减。分层记忆对信息进行分级以优先保证相关性，MemoryOS\(kang2025memory\)根据访问频率将记忆分为短期、中期和长期存储，LD\-Agent\(li2025hello\)则将瞬时对话与持久人设分离。此外，树形和图形记忆映射关系依赖，A\-Mem\(xu2025amem\)构建动态网络，AssoMem\(zhang2025assomem\)模拟人类联想记忆以支持密集搜索，Mem0\(chhikara2025mem0\)则利用以实体为中心的图。尽管这些显式拓扑结构改善了组织方式，但它们依赖静态提示和脆弱的启发式规则。

**用于记忆管理的强化学习。** 为克服静态启发式规则的局限，近期研究越来越多地将记忆管理表述为 RL 问题。MEM1\(zhou2025mem1\)使用 RL 将历史压缩为固定大小的状态，但其单一记忆无法区分事实与偏好。MemRL\(zhang2026memrl\)在运行时应用 RL 更新检索 Q 值，但忽略了记忆创建质量，而 MemGen\(zhang2025memgen\)生成隐式的、人类不可读的潜在记忆。与我们工作最相关的是 Memory\-R1\(yan2025memoryr1\)和 Mem\-α\(wang2025memalpha\)，它们训练智能体执行显式记忆操作（如 ADD、UPDATE）。尽管具有开创性，但其单一奖励模糊了多阶段流水线中失败的根源。HCAPO\(tan2026hindsight\)通过后见之明重新加权来缓解这一问题，但缺乏对不同角色的独立监督。\method 通过引入分阶段过程奖励系统和奖励分解对比精炼来解决这一问题，提供端到端优化结构化多阶段记忆系统所需的细粒度信用分配。

## 3 方法

参见图 2：\method 架构。我们提出 \method，一个端到端的智能体记忆框架，旨在协调和优化对话记忆以支撑下游响应生成。

### 3.1 问题定义与记忆库

在**长时程对话**场景中，智能体接收所有对话历史 $\mathcal{H}$ 和当前用户查询 $q$。目标是生成一个**情境化**且**个性化**的答案 $\hat{a}$，满足两个标准：准确回答查询，并无缝融入个人历史。

由于 $\mathcal{H}$ 无限增长且充斥着琐碎信息，我们不直接对其进行条件化。取而代之，我们维护一个动态演化的**记忆库** $\mathcal{M}$（由 $\mathcal{H}$ 派生），并将任务重新表述为 $\hat{a}=\pi_{\text{gen}}(q,\mathcal{M})$。受人类记忆系统启发，$\mathcal{M}$ 不是一个扁平缓冲区，而是三个专用存储 $\mathcal{M}=(\bar{F},\bar{P},\bar{W})$：（i）*事实库 $\bar{F}$*：关于用户的客观陈述，可被验证（如乳糖不耐受）；（ii）*偏好库 $\bar{P}$*：主观品味与倾向，作为风格定制的软性标准（如偏好燕麦奶）；（iii）*工作记忆 $\bar{W}$*：用户可能仍记忆犹新的近期显著对话轮次（如今晨询问有机食品）。将长期画像与短期上下文分离、将客观事实与主观偏好分离，使智能体能够加以区分，从而实现比扁平上下文窗口更精准的个性化。

在此结构化记忆的基础上，核心挑战转变为*动态管理*。有效的记忆管理器必须自主解决三个顺序决策：

- （i）*什么进入记忆？* 充当注意力门控，决定哪些对话轮次携带值得提取的显著信息，哪些应丢弃。
- （ii）*记忆如何更新？* 将每次提取路由到正确的存储（$\bar{F}$、$\bar{P}$ 或 $\bar{W}$），与现有条目进行调和，并从工作记忆中淘汰过时条目。
- （iii）*记忆如何使用？* 在查询时，将三个存储中的相关条目综合为适应查询的画像，以条件化生成器。

### 3.2 \method 架构与 RL 框架

为了将记忆管理的认知负担与对话推理分离以优化延迟，\method 架构（图 2）包含两个不同的计算阶段：构建和维护结构化记忆的**离线阶段**，以及利用记忆的**运行时阶段**。

**离线阶段**异步处理每个会话的对话，以生成更新后的记忆库 $\mathcal{M}$。首先，**显著性过滤器**丢弃瞬时噪声。其次，**memBooster** 处理显著对话轮次，增量更新事实库 $\bar{F}$ 和偏好库 $\bar{P}$，并在滑动时间窗口内维护工作记忆库 $\bar{W}$。

**运行时阶段**在新用户查询 $q$ 到达时执行。**memUtilizer** 从当前记忆库中找到相关记忆，获得适应性用户画像 $\mathcal{M}_{q}$。为确保记忆管理与基础对话推理相隔离，一个单独的完全冻结的 LLM（$\pi_{gen}$）随后生成最终响应 $\hat{a}=\pi_{gen}(q,\mathcal{M}_{q})$。

为自主执行上述三种记忆决策，\method 通过 RL 训练单一统一的策略模型 $\pi_{\theta}$，而非依赖独立的专用模型。通过对 $\pi_{\theta}$ 施加不同的指令提示，该单一模型学会充当显著性过滤器、记忆增强器和画像利用器。

我们将任意给定步骤的**状态**正式定义为对话上下文与记忆库的组合 $(q,\mathcal{H},\mathcal{M})$。**动作空间**对应策略模型 $\pi_{\theta}$ 的生成输出，包括显著性决策、更新后的记忆 $\mathcal{M}$ 以及查询相关的画像 $\mathcal{M}_{q}$。RL 训练的目标是通过这些动作操控状态，以最大化最终下游响应 $\hat{a}$ 的质量。

### 3.3 分阶段过程奖励系统

推理模型 RL 领域的最新进展\(guo2025deepseekr1\)大量依赖带变量奖励的强化学习（RLVR），其中模型仅针对基于最终结果的奖励进行优化。然而，将纯 RLVR 应用于复杂的多阶段记忆流水线会造成严重的信用分配瓶颈。如果冻结的生成器产生不正确或个性化不足的最终答案，仅基于结果的奖励无法判断流水线在哪个环节失败。

为解决这一问题，\method 将学习信号分解为密集的分层分阶段过程奖励，利用 LLM 裁判为每个特定角色提供有针对性的正交反馈。

**奖励 1：响应质量（乘法门控）** 主要目标针对最终生成答案 $\hat{a}$ 与真实答案 $a$ 评估准确率 $\alpha\in[0,1]$ 和个性化质量 $p\in[0,1]\cup\{\texttt{n/a}\}$。我们使用严格的乘法门控来构建此奖励：

$$R_{1}=\begin{cases}\alpha\cdot(1+\lambda_{p}\cdot p)&\text{若个性化适用}\\ \alpha&\text{否则}\end{cases}\tag{1}$$

这种乘法形式嵌入了一个关键的归纳偏置：个性化只有在底层答案事实正确时才有价值。通过乘法运算，一个不正确但高度个性化的响应将获得 $R_{1}\approx 0$，从而防止策略学习"装饰"幻觉式答案。

**奖励 2：记忆质量（非对称惩罚）** 为独立于最终答案直接监督记忆增强器的写入行为，裁判对最终记忆库 $\mathcal{M}_{K}$ 评估事实性 $\phi_{f}$（忠实于来源的条目比例）和模糊性 $\phi_{v}$（失去可操作具体性的条目比例）。将综合记忆质量定义为 $\gamma=\phi_{f}\cdot(1-\phi_{v})$，我们应用非对称奖励：

$$R_{2}=-\lambda_{\text{pen}}\cdot(1-\gamma)+\lambda_{\text{bon}}\cdot\gamma,\quad\text{其中}\;\lambda_{p}$$

SaliMory：面向对话智能体的认知记忆编排框架

相似文章

Cognis：面向对话式 AI 智能体的上下文感知记忆系统

在长期用户交互中个性化具身多模态大语言模型智能体

从回想到遗忘：为个性化智能体评估长期记忆

supermemoryai/supermemory

学习检索：面向文本到SQL智能体的双层长期记忆

提交意见反馈