标签
本文提出了STHTD-MP,一种行为诱导的Mirror-Prox时序差分方法,用于强化学习中的更快速离策略预测。该方法用行为策略贝尔曼矩阵替换协方差度量,并提供了收敛性分析和实验比较。
本文针对恒定步长Q学习,开发了一种符号分离的有限时间误差分析,将误差分解为负部和正部,并提供了揭示与过估计相关的不对称性的界。
本文提出了一种针对使用线性函数逼近的Q学习的切换系统理论,利用联合谱半径分析了在确定性、独立同分布(i.i.d.)及马尔可夫观测下的收敛稳定性。
本文通过提供一个反例解决了一个强化学习领域的开放性问题,表明在平均奖励设置下,尽管差分时序差分学习在使用局部时钟时能够收敛,但在使用全局时钟时可能会发散。