面向长周期LLM代理的Meta-Cognitive Memory Policy Optimization
摘要
介绍了Belief Entropy和Metacognitive Memory Policy Optimization (MMPO),以提高长周期LLM代理的记忆质量,优于现有方法,并在长上下文中保持性能。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - 面向长程LLM智能体的元认知记忆策略优化
来源:https://huggingface.co/papers/2605.30159 发布于5月28日
·
由https://huggingface.co/ziyan2003提交
liu (https://huggingface.co/ziyan2003)于6月5日
摘要
记忆增强型语言模型在处理长程任务时,由于递归摘要中的信息丢失而表现不佳。一种利用信念熵和元认知策略优化的新方法,通过关注记忆质量而非仅仅结果成功,显著提升了性能。
记忆增强型LLM智能体通过将交互轨迹递归地总结为紧凑记忆,来应对复杂的长程任务。然而,现有方法通常使用基于结果的强化学习来训练这些记忆策略,无法定位中间记忆质量下降的位置。随着交互的展开,模糊的递归摘要逐步丢弃任务相关信息并引入语义噪声,加剧了信念偏差,模糊了智能体对潜在任务状态的估计,最终导致长程推理失败。因此,我们认为记忆优化不应仅仅关注轨迹级别的成功,而应关注由中间摘要所诱导的信念的清晰度。为此,我们引入信念熵——一种自监督代理指标,用于探测模型在给定当前记忆时对潜在任务状态的不确定程度。基于这一代理指标,我们提出元认知记忆策略优化 (MMPO)。MMPO 不仅依赖稀疏的基于结果的信号,还通过明确惩罚那些导致高认知不确定性的摘要,提供细粒度、针对记忆的监督。实验表明,在多种长程任务上,MMPO 始终优于现有方法,即使在扩展至175万 token 的上下文中,仍能保持97.1%的性能。
查看 arXiv 页面 (https://arxiv.org/abs/2605.30159) 查看 PDF (https://arxiv.org/pdf/2605.30159) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30159)
在你的智能体中获取此论文:
hf papers read 2605\.30159
还没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.30159 即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.30159 即可从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用 arxiv.org/abs/2605.30159 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集中,即可从此页面链接。
相似文章
信念记忆:部分可观测性下的智能体记忆
本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。
Memory-R2: 面向长程记忆增强型LLM代理的公平信用分配
Memory-R2 引入了 LoGo-GRPO,这是一种结合了局部与全局分组相对优化的训练框架,为长程记忆增强型LLM代理提供更公平的信用分配,从而在多种骨干网络上提升准确率和推理延迟。
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
先个性化再存储:面向长周期智能体的个性化记忆基准测试与学习
本文介绍了PerMemBench,这是首个用于评估基于LLM的智能体中个性化记忆系统的基准测试,并提出了一个会话级存储门控框架,该框架根据个体用户上下文调整记忆策略。