convergence-analysis

#convergence-analysis

行为诱导的Mirror-Prox时序差分学习实现更快的离策略预测

arXiv cs.AI ↗ · 2026-05-29 缓存

本文提出了STHTD-MP，一种行为诱导的Mirror-Prox时序差分方法，用于强化学习中的更快速离策略预测。该方法用行为策略贝尔曼矩阵替换协方差度量，并提供了收敛性分析和实验比较。

0 人收藏 0 人点赞

#convergence-analysis

arXiv cs.AI ↗ · 2026-05-18 缓存

本文针对恒定步长Q学习，开发了一种符号分离的有限时间误差分析，将误差分解为负部和正部，并提供了揭示与过估计相关的不对称性的界。

0 人收藏 0 人点赞

#convergence-analysis

arXiv cs.LG ↗ · 2026-05-13 缓存

本文提出了一种针对使用线性函数逼近的Q学习的切换系统理论，利用联合谱半径分析了在确定性、独立同分布（i.i.d.）及马尔可夫观测下的收敛稳定性。

0 人收藏 0 人点赞

#convergence-analysis

arXiv cs.LG ↗ · 2026-05-11 缓存

本文通过提供一个反例解决了一个强化学习领域的开放性问题，表明在平均奖励设置下，尽管差分时序差分学习在使用局部时钟时能够收敛，但在使用全局时钟时可能会发散。

0 人收藏 0 人点赞