标签
本文提出了一个框架,将部分可观测马尔可夫决策过程与生化反应动力学联系起来,用于建模单细胞藻类的趋光性,并利用逆向强化学习从实验轨迹中推断行为目标。
本文提出了一种面向锂生产多目标决策的POMDP框架,处理地质、需求与定价不确定性,以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化,优于基于人类启发式的方法。
本文将癌症治疗建模为使用主动推理的信念空间规划问题,推导出一个预期自由能目标,该目标在测量预算约束下统一了目标导向控制与信息获取。该框架在AACR Project GENIE的真实临床数据上得到验证,展示了同时进行患者分类与高治疗疗效的能力。
在对抗性POMDP(CybORG CAGE-2)中对复合LLM智能体设计进行了一项受控研究,系统性地在五个模型系列中变化上下文、推理与层次结构。主要发现:程序化状态抽象每token产生巨大回报,无推理工具的层次结构实现了最佳绝对性能,并且上下文工程比深度推理更具成本效益。
本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。
本文提出了一种新颖框架,通过整合采样、自动机学习和模型检测,为部分可观察马尔可夫决策过程(POMDPs)合成有限状态控制器。该方法为现有形式化合成工具难以解决的阈值安全问题提供了形式化保证。
本文提出了一种注意力引导的决策框架,用于医院药剂师管理药品短缺,通过将药品动态分解为紧急子集和监控子集来对有限理性进行建模,并表明选择性注意力可以在不进行完整状态推理的情况下实现稳定的决策。
本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。
本文引入了上下文收集决策过程(CGDP),这是一个用于建模LLM智能体搜索行为的POMDP框架,提出了能够提升多跳推理能力并降低Token消耗且不影响性能的干预措施。