标签
本文提出了一个用于连续环境中深度强化学习的理论框架,利用随机控制理论将其建模为连续时间随机过程。作者刻画了在两层网络无限宽极限下的演员-评论家算法的动力学,并推导了一个在极小的学习率下状态分布无穷小变化的方程。
提出了一个连续性准则,用于将离散时间因果先验数据拟合网络扩展到连续时间,利用随机微分方程(SDE)。引入了分类体系和细网格积分方法,在不规则观测时间表上优于朴素积分方法。