学会记住什么:面向长时域语言代理的基于约束优化的可观测性安全记忆保留
摘要
本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。
arXiv:2606.10616v1 公告类型:新
摘要:长时域语言代理积累的观测结果、推理轨迹和检索事实会超出其有限的上下文窗口,使得记忆保留成为一个基本的资源分配问题。现有记忆系统通过启发式评分、检索优化或学习压缩改进了管理,但大多将保留视为局部决策问题,并未在现实可观测性约束下明确建模其长期后果。为填补这一空白,我们将记忆保留公式化为一个约束随机优化问题,包含明确的预算可行性、证据效用以及延迟成本,包括遗漏惩罚、重新获取延迟和过时信息风险。然后,我们提出了OSL-MR(面向记忆保留的可观测性安全学习),这是一个新颖框架,强制分离在线可观测特征和离线可用的监督(OAS)。OSL-MR结合了一个从实际证据监督中训练的证据学习器和一个混合评分启发式,该启发式既作为可部署的在线安全基线,又作为结构化的归纳先验用于学习。由此产生的策略直接根据交互数据学习查询条件下的证据价值,同时在相同的可观测性约束下保持可部署性。在LOCOMO和LongMemEval上的实验表明,OSL-MR在严格记忆预算下始终优于基于最近性的方法、生成式智能体风格评分和其他启发式基线。混合评分先验进一步提高了精确度,同时保持了召回率,敏感性分析表明在广泛的成本配置下具有鲁棒性。
查看缓存全文
缓存时间: 2026/06/10 06:16
# 学习该记住什么:通过约束优化实现长时语言智能体的可观测性安全记忆留存 来源:https://arxiv.org/html/2606.10616 康庆灿1∗, 刘明阳2∗, 凯世雄1, 梁凯超1, 钟涛1, 袁明轩1† 1华为诺亚方舟实验室 2香港城市大学计算机科学系 [email protected] {kangqingcan, kaishixiong, liangkaichao}@huawei.com {zhongtao5, Yuan.Mingxuan}@huawei.com ###### 摘要 长时语言智能体积累的观测、推理轨迹和检索事实会超出其有限的上下文窗口,使得记忆留存成为一个根本性的资源分配问题。现有记忆系统通过启发式评分、检索优化或学习压缩来改进管理,但大多将留存视为局部决策问题,并未在现实的可观测性约束下显式建模其长期后果。为填补这一空白,我们将记忆留存形式化为一个带显式预算可行性、证据效用以及延迟成本(包括错失惩罚、重新获取延迟和过时信息风险)的约束随机优化问题。随后,我们提出OSL-MR(可观测性安全的记忆留存学习),这是一个新颖的框架,它强制在线可观测特征与离线可用监督(OAS)之间严格分离。OSL-MR结合了一个从实现的证据监督中训练得到的证据学习器,以及一个混合分数启发式方法,该方法既可作为可部署的在线安全基线,也可作为学习的结构化归纳先验。由此产生的策略直接从交互数据中学习查询条件化的证据价值,同时保持在同一可观测性约束下可部署。在LOCOMO和LongMemEval上的实验表明,OSL-MR在严格预算下持续优于基于最近性的方法、生成式智能体风格评分以及其他启发式基线。混合分数先验在保持召回率的同时进一步提升了精确率,敏感性分析证明了其在各种成本配置下的鲁棒性。 11footnotetext:\*同等贡献。22footnotetext:††通讯作者。 ## 1 引言 大语言模型智能体越来越多地需要在长时程上运行,这要求它们在有限的上下文和成本预算下决定保留、驱逐或重新获取哪些记忆 Hu 等,2025 (https://arxiv.org/html/2606.10616#bib.bib22);Huang 等,2026 (https://arxiv.org/html/2606.10616#bib.bib21)。大多数现有记忆系统依赖启发式评分、检索优化或学习压缩 Park 等,2023 (https://arxiv.org/html/2606.10616#bib.bib2);Packer 等,2023 (https://arxiv.org/html/2606.10616#bib.bib1);Zhong 等,2024 (https://arxiv.org/html/2606.10616#bib.bib3);Jiang 等,2023 (https://arxiv.org/html/2606.10616#bib.bib5),但将留存视为局部决策问题。它们缺乏一个能捕捉长期后果(如错失未来证据、重新获取成本以及在真实部分可观测性下的过时信息)的原则性形式化。 我们通过将记忆留存形式化为一个约束随机优化问题来填补这一空白,该问题显式考虑了预算可行性、证据效用以及包含错失惩罚、重新获取延迟和过时信息风险在内的延迟成本。据我们所知,先前关于记忆留存的工作——无论是基于启发式评分、检索优化还是强化学习——都没有显式形式化底层的决策问题。现有方法在提出解决方案时,并没有首先定义在预算约束、延迟后果和部分可观测性下,最优留存意味着什么。OSL-MR首次提供了一个将留存视为长时程序列决策问题的约束随机优化形式化,学习目标自然由此导出。相比之下,先前基于优化的方法,如 Fofadiya & Tiwari (Fofadiya and Tiwari,2026 (https://arxiv.org/html/2606.10616#bib.bib6)),将留存视为单步约束优化,在每一步独立优化即时相关性,而未考虑当前决策如何影响未来证据的可用性或引发延迟惩罚。这种局部视角忽略了记忆留存本质上的长时程性质。 在操作化这一形式化时的一个核心挑战是可观测性:评估留存决策所需的许多信号(例如,金标准证据、答案正确性、语义新鲜度)只有在决策做出之后才可用。在部署时使用它们会创造一种不切实际的信息优势。因此,我们引入了**在线可观测特征**(查询上下文、记忆元数据、交互历史)与**离线可用监督(OAS)**(金标准证据、答案文本、地面真值新鲜度)之间的严格分离。OAS仅用于训练和评估;可部署策略必须仅依赖在线可观测输入。这种分离不仅仅是一个理论约束——它保证了在此规则下学习的任何策略都能在真实世界系统中部署,无需对未来信息进行预言机访问,使其适用于必须实时做出决策的在线交互式智能体。 基于这一优化基础与可观测性规则,我们提出了OSL-MR(可观测性安全的记忆留存学习)。在部分可观测性下,精确优化是难以处理的,因此OSL-MR引入了两个互补组件:(i) 一个从交互日志中离线训练的证据学习器,使用从实现证据(金标准成员标签)导出的监督信号;以及 (ii) 一个混合分数启发式方法,它既作为冷启动可部署基线,也作为在线安全的可行性先验。该框架遵循一个实用的分阶段部署过程:初始阶段,混合分数启发式单独运行,确保从第一个用户查询起系统功能正常,同时记录所有交互。一旦收集到足够数据,证据学习器被离线训练并作为冻结策略部署,无缝替换启发式方法,而不违反可观测性约束。这种设计弥合了离线训练与在线推理之间的差距。通过直接从金标准标签学习查询条件化的证据分数,OSL-MR绕过了对通用重要性预言机的需求。整体架构提供了一个统一的视角,在一致的可观测性约束下,将启发式评分、优化和学习联系在一起。 我们的贡献有三方面。第一,我们提供了一个约束优化形式化,将记忆留存形式化为一个在硬预算下的序列决策问题,显式建模了证据效用、存储成本、错失惩罚、重新获取延迟和过时风险。第二,我们引入了OSL-MR,一个可观测性安全的学习框架,强制严格的在线/OAS分离,并整合了混合分数先验、优化形式化以及一个从直接证据监督中训练的证据学习器。第三,在两个公开的长时程基准LoCoMo (Maharana 等,2024 (https://arxiv.org/html/2606.10616#bib.bib30)) 和 LongMemEval (Wu 等,2025 (https://arxiv.org/html/2606.10616#bib.bib31)) 上,OSL-MR持续优于基于最近性的方法、生成式智能体风格评分和其他启发式基线,尤其是在严格预算下。混合分数先验在保持召回率的同时提升了精确率,敏感性分析证实了在各种成本配置下的鲁棒性。 ## 2 相关工作 ### 2.1 记忆系统与长时语言智能体 长时语言智能体依赖外部记忆机制来扩展其有效上下文。早期系统将情景经验或工具跟踪存储在向量数据库中;MemGPT (Packer 等,2023 (https://arxiv.org/html/2606.10616#bib.bib1)) 引入了受操作系统启发的层次化分页,而 MemoryBank (Zhong 等,2024 (https://arxiv.org/html/2606.10616#bib.bib3)) 将艾宾浩斯式遗忘动力学融入检索。生成式智能体 (Park 等,2023 (https://arxiv.org/html/2606.10616#bib.bib2)) 按近期性、相关性和重要性对记忆排序;然而,它们的静态重要性分数旨在捕捉通用显著性而非查询特定的证据价值,这可能使得它们在容量约束下对证据留存效果较差。最近的工作扩展了记忆生命周期的其他部分:Mem0 (Chhikara 等,2025 (https://arxiv.org/html/2606.10616#bib.bib23)) 专注于结构化记忆写入,MEM1 (Zhou 等,2025 (https://arxiv.org/html/2606.10616#bib.bib24)) 通过强化学习学习紧凑的潜在表示,而提示压缩方法 (Jiang 等,2023 (https://arxiv.org/html/2606.10616#bib.bib5)) 减少了上下文成本。尽管有这些进展,留存决策通常在检索或压缩流水线中隐式处理,而将留存形式化为一个显式的长时程优化问题仍然探索不足。据我们所知,先前的工作已涉及个别方面——预算感知选择、延迟奖励训练或部分可观测性——但一个整合这些维度的统一约束随机优化框架尚未被开发。我们的工作旨在通过将留存形式化为这样一个优化问题,并强制执行在线可观测特征与离线可用监督(OAS)之间的严格分离,来填补这一空白。 ### 2.2 作为资源分配的记忆留存 记忆留存是一个不确定性下的资源分配问题。综述文章强调了缺乏建模延迟成本和权衡的统一形式化 (Hu 等,2025 (https://arxiv.org/html/2606.10616#bib.bib22); Huang 等,2026 (https://arxiv.org/html/2606.10616#bib.bib21))。一些工作引入了成本约束检索的优化(例如,AdaGReS (Anonymous,2025 (https://arxiv.org/html/2606.10616#bib.bib7)),CORAG (Wang 等,2024 (https://arxiv.org/html/2606.10616#bib.bib8))),但它们关注的是单轮上下文选择而非长时程记忆留存。约束优化视角也已被探索用于留存本身。具体来说,Fofadiya 和 Tiwari (Fofadiya and Tiwari,2026 (https://arxiv.org/html/2606.10616#bib.bib6)) 将记忆留存形式化为一个单步预算优化,在每一步独立最大化即时相关性,而未显式考虑当前决策可能如何影响未来证据的可用性或引发延迟惩罚。这种单步视角未能完全捕捉交互式智能体设置中出现的长期后果。 相比之下,OSL-MR将留存建模为多步序列决策问题,优化整个时域上的累积奖励。BudgetMem方法 (Alla 等 (Alla 等,2026 (https://arxiv.org/html/2606.10616#bib.bib26)),Zhang 等 (Zhang 等,2026a (https://arxiv.org/html/2606.10616#bib.bib27)) ) 也作为单步决策运行,Mem-T (Yue 等,2026 (https://arxiv.org/html/2606.10616#bib.bib28)) 和 MemAct (Zhang 等,2026c (https://arxiv.org/html/2606.10616#bib.bib29)) 也是如此。表1 (https://arxiv.org/html/2606.10616#S2.T1) 从五个维度比较了代表性方法:约束优化、延迟反馈、部分可观测性、在线/OAS分离以及长时程序列视角。这些方法中没有一个整合了所有五个维度。OSL-MR是首个这样做的,它使用约束随机优化形式化来定义长时程留存目标,显式建模延迟成本,尊重部分可观测性,强制执行在线/OAS分离,并从日志数据中训练证据学习器——作为仅使用在线安全特征的冻结策略部署。 ### 2.3 基于学习的记忆策略与可观测性分离 近期基于学习的系统使用下游信号优化记忆策略。Mem-α (Wang 等,2025 (https://arxiv.org/html/2606.10616#bib.bib15)) 应用强化学习来学习记忆构建;CSIM (Zhou 等,2025 (https://arxiv.org/html/2606.10616#bib.bib16)) 将上下文压缩为紧凑的步骤表示;而 MemRL (Zhang 等,2026b (https://arxiv.org/html/2606.10616#bib.bib25)) 将检索框架为基于价值的决策,从环境反馈中更新效用估计。虽然这些工作改进了记忆操作,但它们主要关注检索或压缩,而非在硬预算约束下的留存。STALE基准 (Chao 等,2026 (https://arxiv.org/html/2606.10616#bib.bib19)) 揭示,LLM智能体难以检测存储记忆何时过时,这激发了在可观测的时间信号与潜在的语义有效性之间进行清晰分离——这正是我们在线/OAS分离背后的原则。许多现有学习方法依赖在部署时可能不可用的监督信号。OSL-MR通过在离线训练时仅使用金标准证据,而部署策略仅访问在线可观测特征,解决了这一差距。这种设计在部分可观测性下保持了有效性,并清晰地连接了优化、学习和部署。我们的框架与检索侧优化(例如MemRL)互补,将留存与检索统一在统一的约束优化形式化下是未来工作的一个有前景的方向。 表1:相关记忆留存方法的比较。OSL-MR是首个同时满足所有五个准则的方法。 | 方法 | 约束优化 | 延迟反馈 | 部分可观测性 | 在线/OAS分离 | 长时程序列 | |------|----------|----------|--------------|--------------|----------| | 生成式智能体 | × | × | × | × | × | | BudgetMem | × | × | × | × | × | | Mem-T | × | ✓ | × | × | ✓ | | MemAct | × | × | × | × | ✓ | | Fofadiya & Tiwari | ✓ (单步) | × | × | × | × | | OSL-MR (我们的) | ✓ (多步) | ✓ | ✓ | ✓ | ✓ | ## 3 方法 我们提出OSL-MR,一个针对在严格预算约束和部分可观测性下运行的长时语言智能体的记忆留存框架。核心挑战在于,记忆决策必须在有限的上下文容量下序列化进行,而它们的后果——如信息丢失、重新计算成本以及使用过时信息——仅在将来可观测。这创造了一个延迟且部分可观测的决策问题,其中朴素启发式规则或局部评分策略是不够的。 为解决此问题,OSL-MR将记忆留存形式化为一个在显式可观测性分离下的约束序列优化问题。该框架整合了三个紧密耦合的组件:(i) 一个约束优化形式化,定义了预算限制下的长时程留存目标;(ii) 一个从交互日志中离线训练的证据学习器,它使用从实现的证据结构导出的监督信号来优化启发式策略;以及 (iii) 一个混合分数留存策略,它提供了一个完全可部署的冷启动解决方案和一个强大的归纳基线。图1 (https://arxiv.org/html/2606.10616#S3.F1) 提供了整体框架及其数据流的高级说明。 请参阅图注 图1:OSL-MR框架概述。该框架将在线可观测输入(查询、记忆元数据、交互历史)与离线可用监督(金标准证据、答案文本)分离开。在冷启动期间,混合分数启发式方法在预算下选择保留记忆
相似文章
面向长周期LLM代理的Meta-Cognitive Memory Policy Optimization
介绍了Belief Entropy和Metacognitive Memory Policy Optimization (MMPO),以提高长周期LLM代理的记忆质量,优于现有方法,并在长上下文中保持性能。
Memory-R2: 面向长程记忆增强型LLM代理的公平信用分配
Memory-R2 引入了 LoGo-GRPO,这是一种结合了局部与全局分组相对优化的训练框架,为长程记忆增强型LLM代理提供更公平的信用分配,从而在多种骨干网络上提升准确率和推理延迟。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
SimpleMem: 面向大语言模型智能体的高效终身记忆
介绍SimpleMem,一种面向LLM智能体的高效记忆框架,利用语义无损压缩提升准确率并降低token消耗,F1分数提升26.4%,推理时token使用量减少高达30倍。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。