pomdp

#pomdp

在化学反应网络中实现强化学习：以趋光性作为好奇心驱动的探索

arXiv cs.LG ↗ · 4天前缓存

本文提出了一个框架，将部分可观测马尔可夫决策过程与生化反应动力学联系起来，用于建模单细胞藻类的趋光性，并利用逆向强化学习从实验轨迹中推断行为目标。

0 人收藏 0 人点赞

#pomdp

在地质、需求与定价不确定性下优化锂生产决策：面向多目标决策的POMDP框架

arXiv cs.AI ↗ · 2026-06-18 缓存

本文提出了一种面向锂生产多目标决策的POMDP框架，处理地质、需求与定价不确定性，以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化，优于基于人类启发式的方法。

0 人收藏 0 人点赞

#pomdp

基于主动推理的个性化癌症治疗信念空间控制

arXiv cs.AI ↗ · 2026-06-10 缓存

本文将癌症治疗建模为使用主动推理的信念空间规划问题，推导出一个预期自由能目标，该目标在测量预算约束下统一了目标导向控制与信息获取。该框架在AACR Project GENIE的真实临床数据上得到验证，展示了同时进行患者分类与高治疗疗效的能力。

0 人收藏 0 人点赞

#pomdp

更小的抽象状态空间实现强化学习中的跨尺度泛化

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出了强化学习中分布外泛化的首个理论模型，表明更小的抽象状态空间能够在POMDP中实现跨尺度泛化。

0 人收藏 0 人点赞

#pomdp

上下文、推理与层次结构：对抗性POMDP中复合LLM智能体设计的成本-性能研究

arXiv cs.AI ↗ · 2026-05-18 缓存

在对抗性POMDP（CybORG CAGE-2）中对复合LLM智能体设计进行了一项受控研究，系统性地在五个模型系列中变化上下文、推理与层次结构。主要发现：程序化状态抽象每token产生巨大回报，无推理工具的层次结构实现了最佳绝对性能，并且上下文工程比深度推理更具成本效益。

0 人收藏 0 人点赞

#pomdp

部分可观测下安全关键控制的动作条件风险门控

arXiv cs.LG ↗ · 2026-05-15 缓存

本文提出了动作条件风险门控（Action-Conditioned Risk Gating），一种用于部分可观测下风险敏感控制的轻量级强化学习方法，该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。

0 人收藏 0 人点赞

#pomdp

POMDP策略合成：通过学习融合采样与模型检测

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出了一种新颖框架，通过整合采样、自动机学习和模型检测，为部分可观察马尔可夫决策过程（POMDPs）合成有限状态控制器。该方法为现有形式化合成工具难以解决的阈值安全问题提供了形式化保证。

0 人收藏 0 人点赞

#pomdp

利用注意力引导的动态分解建模药品短缺药剂师的有限理性

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出了一种注意力引导的决策框架，用于医院药剂师管理药品短缺，通过将药品动态分解为紧急子集和监控子集来对有限理性进行建模，并表明选择性注意力可以在不进行完整状态推理的情况下实现稳定的决策。

0 人收藏 0 人点赞

#pomdp

使用语言模型先验从观测中学习POMDP世界模型

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

本文介绍了Pinductor，一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法，其性能与具有特权隐藏状态访问的方法相当，同时超越了传统的表格方法。

0 人收藏 0 人点赞

#pomdp

上下文收集决策过程：用于智能体搜索的POMDP框架

arXiv cs.AI ↗ · 2026-05-11 缓存

本文引入了上下文收集决策过程（CGDP），这是一个用于建模LLM智能体搜索行为的POMDP框架，提出了能够提升多跳推理能力并降低Token消耗且不影响性能的干预措施。

0 人收藏 0 人点赞

#pomdp

基于路径策略梯度的非短视主动特征获取

arXiv cs.LG ↗ · 2026-05-08 缓存

本文提出了 NM-PPG，这是一种利用路径策略梯度优化昂贵预测场景中顺序特征选择的非短视主动特征获取方法。

0 人收藏 0 人点赞

pomdp

提交意见反馈