标签
本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。
本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。