partial-observability

标签

Cards List
#partial-observability

Agent-BRACE:通过语言化状态不确定性在长视距任务中分离信念与行动

arXiv cs.CL · 16小时前 缓存

本文介绍了 Agent-BRACE,该方法将大型语言模型(LLM)智能体解耦为信念状态模型和策略模型,以处理部分可观测环境中的长视距任务。通过语言化状态不确定性,该方法在保持上下文窗口大小恒定的同时,相比基线方法实现了显著的性能提升。

0 人收藏 0 人点赞
#partial-observability

信念记忆:部分可观测性下的智能体记忆

arXiv cs.AI · 5天前 缓存

本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。

0 人收藏 0 人点赞
#partial-observability

神经伴随状态策略:在循环强化学习中构建隐藏状态

arXiv cs.LG · 5天前 缓存

本文提出了神经伴随状态策略,建立了循环强化学习隐藏状态与庞特里亚金极小值原理之间的正式联系,以增强可解释性和鲁棒性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈