在化学反应网络中实现强化学习：以趋光性作为好奇心驱动的探索

arXiv cs.LG 2026/06/26 04:00 论文

摘要

本文提出了一个框架，将部分可观测马尔可夫决策过程与生化反应动力学联系起来，用于建模单细胞藻类的趋光性，并利用逆向强化学习从实验轨迹中推断行为目标。

arXiv:2606.26168v1 公告类型：新摘要：生命系统利用嘈杂且不完整的感知信号在环境中导航。在单细胞藻类中，趋光性通常被建模为由刺激-反应规则驱动的机械性跑-停过程。然而，这种描述忽略了生物体主动采样环境以减少感知模糊性的行为。从最小认知的角度，我们将这种导航重新定义为一种主观的、信息驱动的感知运动过程。为此，我们提出了一个框架，将部分可观测马尔可夫决策过程与生化反应动力学联系起来。环境变量是隐藏的，而细胞通过一个无记忆的贝叶斯步骤，每次观测后更新最小内部状态。这些内部动力学在朝向光定向与探索性重定向之间取得平衡，并可通过化学反应网络常微分方程实现。我们的模型包含一个用于光感受的生物物理观测过程，以及一个化学上可计算的信息增益多项式边界。通过使用逆向强化学习对30条实验记录的衣藻轨迹进行分析，我们推断出与观测到的趋光运动一致的行为目标，并将所得动力学与标准随机模拟算法基线进行基准测试。我们的模型再现了经验性的光对准分布，与基于该数据集的目标SSA基线相当。在此框架内，跑-停交替作为一种信息获取策略出现：停转使细胞重新定向以采样新的感知配置并解决感知模糊性，展示了细胞内生化网络如何在细胞导航中支持自适应信息寻求行为。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:14

# 强化学习在化学反应网络中的实现：以好奇心驱动的探索为例的趋光性应用
来源：https://arxiv.org/abs/2606.26168
查看PDF (https://arxiv.org/pdf/2606.26168)

> 摘要：生命系统通过嘈杂且不完整的感官信号来导航环境。在单细胞藻类中，趋光性常被建模为一个由刺激-响应规则驱动的机械性“游动-翻滚”过程。然而，这种描述忽略了生物如何主动采样环境以减少感官模糊性。从最小认知视角出发，我们将这一导航过程重新定义为一种主观的、信息驱动的感知运动过程。为此，我们提出了一个框架，将部分可观测马尔可夫决策过程 (POMDP) 与生化反应动力学联系起来。环境变量是隐藏的，而细胞通过一个无记忆的贝叶斯步骤，根据每次观测更新一个最小的内部状态。这些内部动态在朝向光源定向与探索性重新定向之间取得平衡，并可通过化学反应网络常微分方程 (CRN-ODEs) 实现。我们的模型包括一个用于光感受的生物物理观测过程，以及一个可化学计算的信息增益多项式上界。通过对30条实验记录的衣藻 (Chlamydomonas) 轨迹应用逆向强化学习 (IRL)，我们推断出了与观测到的趋光运动一致的行为目标，并将所得动态与标准随机模拟算法 (SSA) 基线进行了基准测试。我们的模型再现了经验性的光对准分布，其效果与该数据集上的目标SSA基线相当。在此框架内，“游动-翻滚”交替作为一项信息获取策略出现：翻滚使细胞重新定向，以采样新的感官配置并解决感官模糊性，从而证明细胞内生化网络如何支持细胞导航中的适应性信息寻求行为。

## 提交历史

来自：Gregoire Sergeant-Perthuis \[查看邮件 (https://arxiv.org/show-email/576731b7/2606.26168)\] \[通过CCSD代理\] **\[v1\]**2026年6月24日星期三 08:11:14 UTC (1,163 KB)

在化学反应网络中实现强化学习：以趋光性作为好奇心驱动的探索

相似文章

物理约束MCMC与化学信息高斯过程协同用于反应网络发现

面向化学语言模型的不确定性感知强化学习

部分可观测环境中的生成模型预测规划导航

基于预测奖励的强化学习

@svlevine: 我们可以学习一个模型，为机器人强化学习提供塑造的“过程奖励”，它会随着策略的改进而自动演变…

提交意见反馈