面向长周期LLM代理的Meta-Cognitive Memory Policy Optimization

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

介绍了Belief Entropy和Metacognitive Memory Policy Optimization (MMPO)，以提高长周期LLM代理的记忆质量，优于现有方法，并在长上下文中保持性能。

记忆增强的LLM代理通过递归地将交互轨迹总结为紧凑的记忆来处理复杂的长期任务。然而，现有方法通常使用基于结果的强化学习来训练这些记忆策略，未能定位中间记忆质量下降的位置。随着交互的展开，模糊的递归总结逐渐丢弃任务相关信息并引入语义噪声。这加剧了信念偏差，模糊了代理对潜在任务状态的估计，最终扰乱长期推理。因此，我们认为记忆优化不应仅仅关注轨迹层面的成功，而应关注中间总结所引发的信念的清晰度。为此，我们引入了Belief Entropy，一种自监督代理，用于探测模型在当前记忆下对潜在任务状态的不确定性程度。基于这一代理，我们提出了Metacognitive Memory Policy Optimization (MMPO)。MMPO不仅仅依赖于稀疏的基于结果的信号，而是通过明确惩罚导致高认知不确定性的总结，提供细粒度的、针对记忆的监督。实验表明，MMPO在各种长期任务上持续优于现有方法，即使在扩展到1.75M token的上下文时，仍保持97.1%的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - 面向长程LLM智能体的元认知记忆策略优化

来源：https://huggingface.co/papers/2605.30159 发布于5月28日

由https://huggingface.co/ziyan2003提交

liu (https://huggingface.co/ziyan2003)于6月5日

摘要

记忆增强型语言模型在处理长程任务时，由于递归摘要中的信息丢失而表现不佳。一种利用信念熵和元认知策略优化的新方法，通过关注记忆质量而非仅仅结果成功，显著提升了性能。

记忆增强型LLM智能体通过将交互轨迹递归地总结为紧凑记忆，来应对复杂的长程任务。然而，现有方法通常使用基于结果的强化学习来训练这些记忆策略，无法定位中间记忆质量下降的位置。随着交互的展开，模糊的递归摘要逐步丢弃任务相关信息并引入语义噪声，加剧了信念偏差，模糊了智能体对潜在任务状态的估计，最终导致长程推理失败。因此，我们认为记忆优化不应仅仅关注轨迹级别的成功，而应关注由中间摘要所诱导的信念的清晰度。为此，我们引入信念熵——一种自监督代理指标，用于探测模型在给定当前记忆时对潜在任务状态的不确定程度。基于这一代理指标，我们提出元认知记忆策略优化 (MMPO)。MMPO 不仅依赖稀疏的基于结果的信号，还通过明确惩罚那些导致高认知不确定性的摘要，提供细粒度、针对记忆的监督。实验表明，在多种长程任务上，MMPO 始终优于现有方法，即使在扩展至175万 token 的上下文中，仍能保持97.1%的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30159) 查看 PDF (https://arxiv.org/pdf/2605.30159) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30159)

在你的智能体中获取此论文：

hf papers read 2605\.30159

还没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30159 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30159 即可从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用 arxiv.org/abs/2605.30159 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集中，即可从此页面链接。

面向长周期LLM代理的Meta-Cognitive Memory Policy Optimization

论文页面 - 面向长程LLM智能体的元认知记忆策略优化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

信念记忆：部分可观测性下的智能体记忆

MemGym：面向LLM智能体的长时记忆环境

Memory-R2: 面向长程记忆增强型LLM代理的公平信用分配

PolicyBank：为LLM智能体演进策略理解

先个性化再存储：面向长周期智能体的个性化记忆基准测试与学习

提交意见反馈