partial-observability

标签

Cards List
#partial-observability

信念记忆:部分可观测性下的智能体记忆

arXiv cs.AI · 2天前 缓存

本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。

0 人收藏 0 人点赞
#partial-observability

神经伴随状态策略:在循环强化学习中构建隐藏状态

arXiv cs.LG · 2天前 缓存

本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈