在化学反应网络中实现强化学习:以趋光性作为好奇心驱动的探索
摘要
本文提出了一个框架,将部分可观测马尔可夫决策过程与生化反应动力学联系起来,用于建模单细胞藻类的趋光性,并利用逆向强化学习从实验轨迹中推断行为目标。
arXiv:2606.26168v1 公告类型:新
摘要:生命系统利用嘈杂且不完整的感知信号在环境中导航。在单细胞藻类中,趋光性通常被建模为由刺激-反应规则驱动的机械性跑-停过程。然而,这种描述忽略了生物体主动采样环境以减少感知模糊性的行为。从最小认知的角度,我们将这种导航重新定义为一种主观的、信息驱动的感知运动过程。为此,我们提出了一个框架,将部分可观测马尔可夫决策过程与生化反应动力学联系起来。环境变量是隐藏的,而细胞通过一个无记忆的贝叶斯步骤,每次观测后更新最小内部状态。这些内部动力学在朝向光定向与探索性重定向之间取得平衡,并可通过化学反应网络常微分方程实现。我们的模型包含一个用于光感受的生物物理观测过程,以及一个化学上可计算的信息增益多项式边界。通过使用逆向强化学习对30条实验记录的衣藻轨迹进行分析,我们推断出与观测到的趋光运动一致的行为目标,并将所得动力学与标准随机模拟算法基线进行基准测试。我们的模型再现了经验性的光对准分布,与基于该数据集的目标SSA基线相当。在此框架内,跑-停交替作为一种信息获取策略出现:停转使细胞重新定向以采样新的感知配置并解决感知模糊性,展示了细胞内生化网络如何在细胞导航中支持自适应信息寻求行为。
查看缓存全文
缓存时间: 2026/06/26 05:14
# 强化学习在化学反应网络中的实现:以好奇心驱动的探索为例的趋光性应用 来源:https://arxiv.org/abs/2606.26168 查看PDF (https://arxiv.org/pdf/2606.26168) > 摘要:生命系统通过嘈杂且不完整的感官信号来导航环境。在单细胞藻类中,趋光性常被建模为一个由刺激-响应规则驱动的机械性“游动-翻滚”过程。然而,这种描述忽略了生物如何主动采样环境以减少感官模糊性。从最小认知视角出发,我们将这一导航过程重新定义为一种主观的、信息驱动的感知运动过程。为此,我们提出了一个框架,将部分可观测马尔可夫决策过程 (POMDP) 与生化反应动力学联系起来。环境变量是隐藏的,而细胞通过一个无记忆的贝叶斯步骤,根据每次观测更新一个最小的内部状态。这些内部动态在朝向光源定向与探索性重新定向之间取得平衡,并可通过化学反应网络常微分方程 (CRN-ODEs) 实现。我们的模型包括一个用于光感受的生物物理观测过程,以及一个可化学计算的信息增益多项式上界。通过对30条实验记录的衣藻 (Chlamydomonas) 轨迹应用逆向强化学习 (IRL),我们推断出了与观测到的趋光运动一致的行为目标,并将所得动态与标准随机模拟算法 (SSA) 基线进行了基准测试。我们的模型再现了经验性的光对准分布,其效果与该数据集上的目标SSA基线相当。在此框架内,“游动-翻滚”交替作为一项信息获取策略出现:翻滚使细胞重新定向,以采样新的感官配置并解决感官模糊性,从而证明细胞内生化网络如何支持细胞导航中的适应性信息寻求行为。 ## 提交历史 来自:Gregoire Sergeant-Perthuis \[查看邮件 (https://arxiv.org/show-email/576731b7/2606.26168)\] \[通过CCSD代理\] **\[v1\]**2026年6月24日星期三 08:11:14 UTC (1,163 KB)
相似文章
物理约束MCMC与化学信息高斯过程协同用于反应网络发现
本文提出了PC-MCMC-CIGP,这是一种灰盒工作流,结合了spike-and-slab拓扑采样、物理约束和化学信息高斯过程用于反应网络发现。该方法在苯乙烯环氧化反应中提高了产率,并在氢-溴基准测试中区分了基本反应路径与欺骗性拟合。
面向化学语言模型的不确定性感知强化学习
提出了两种互补方法,将预测不确定性融入化学语言模型的强化学习中,提高了鲁棒性,并在从头分子设计中将真实命中率提升了0.25。
部分可观测环境中的生成模型预测规划导航
本文介绍了BeliefDiffusion,一种结合扩散模型表示多模态信念分布和使用模型预测控制在部分可观测环境中进行规划的框架,相比基线方法取得了更好的导航成功率和路径效率。
基于预测奖励的强化学习
OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。
@svlevine: 我们可以学习一个模型,为机器人强化学习提供塑造的“过程奖励”,它会随着策略的改进而自动演变…
这项工作提出了一个模型,该模型学习塑造的“过程奖励”用于机器人强化学习,该奖励会随着策略的改进而自动演变,从而在基准测试和实际环境中提升性能。