面向长周期LLM代理的Meta-Cognitive Memory Policy Optimization

Hugging Face Daily Papers 论文

摘要

介绍了Belief Entropy和Metacognitive Memory Policy Optimization (MMPO),以提高长周期LLM代理的记忆质量,优于现有方法,并在长上下文中保持性能。

记忆增强的LLM代理通过递归地将交互轨迹总结为紧凑的记忆来处理复杂的长期任务。然而,现有方法通常使用基于结果的强化学习来训练这些记忆策略,未能定位中间记忆质量下降的位置。随着交互的展开,模糊的递归总结逐渐丢弃任务相关信息并引入语义噪声。这加剧了信念偏差,模糊了代理对潜在任务状态的估计,最终扰乱长期推理。因此,我们认为记忆优化不应仅仅关注轨迹层面的成功,而应关注中间总结所引发的信念的清晰度。为此,我们引入了Belief Entropy,一种自监督代理,用于探测模型在当前记忆下对潜在任务状态的不确定性程度。基于这一代理,我们提出了Metacognitive Memory Policy Optimization (MMPO)。MMPO不仅仅依赖于稀疏的基于结果的信号,而是通过明确惩罚导致高认知不确定性的总结,提供细粒度的、针对记忆的监督。实验表明,MMPO在各种长期任务上持续优于现有方法,即使在扩展到1.75M token的上下文时,仍保持97.1%的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - 面向长程LLM智能体的元认知记忆策略优化

来源:https://huggingface.co/papers/2605.30159 发布于5月28日

·

由https://huggingface.co/ziyan2003提交

liu (https://huggingface.co/ziyan2003)于6月5日

摘要

记忆增强型语言模型在处理长程任务时,由于递归摘要中的信息丢失而表现不佳。一种利用信念熵和元认知策略优化的新方法,通过关注记忆质量而非仅仅结果成功,显著提升了性能。

记忆增强型LLM智能体通过将交互轨迹递归地总结为紧凑记忆,来应对复杂的长程任务。然而,现有方法通常使用基于结果的强化学习来训练这些记忆策略,无法定位中间记忆质量下降的位置。随着交互的展开,模糊的递归摘要逐步丢弃任务相关信息并引入语义噪声,加剧了信念偏差,模糊了智能体对潜在任务状态的估计,最终导致长程推理失败。因此,我们认为记忆优化不应仅仅关注轨迹级别的成功,而应关注由中间摘要所诱导的信念的清晰度。为此,我们引入信念熵——一种自监督代理指标,用于探测模型在给定当前记忆时对潜在任务状态的不确定程度。基于这一代理指标,我们提出元认知记忆策略优化 (MMPO)。MMPO 不仅依赖稀疏的基于结果的信号,还通过明确惩罚那些导致高认知不确定性的摘要,提供细粒度、针对记忆的监督。实验表明,在多种长程任务上,MMPO 始终优于现有方法,即使在扩展至175万 token 的上下文中,仍能保持97.1%的性能。

查看 arXiv 页面 (https://arxiv.org/abs/2605.30159) 查看 PDF (https://arxiv.org/pdf/2605.30159) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30159)

在你的智能体中获取此论文:

hf papers read 2605\.30159

还没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.30159 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.30159 即可从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用 arxiv.org/abs/2605.30159 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集中,即可从此页面链接。

相似文章

信念记忆:部分可观测性下的智能体记忆

arXiv cs.AI

本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。