convergence-analysis

标签

Cards List
#convergence-analysis

行为诱导的Mirror-Prox时序差分学习实现更快的离策略预测

arXiv cs.AI · 2026-05-29 缓存

本文提出了STHTD-MP,一种行为诱导的Mirror-Prox时序差分方法,用于强化学习中的更快速离策略预测。该方法用行为策略贝尔曼矩阵替换协方差度量,并提供了收敛性分析和实验比较。

0 人收藏 0 人点赞
#convergence-analysis

Q学习的符号分离有限时间误差分析

arXiv cs.AI · 2026-05-18 缓存

本文针对恒定步长Q学习,开发了一种符号分离的有限时间误差分析,将误差分解为负部和正部,并提供了揭示与过估计相关的不对称性的界。

0 人收藏 0 人点赞
#convergence-analysis

基于线性函数逼近的Q学习切换系统理论

arXiv cs.LG · 2026-05-13 缓存

本文提出了一种针对使用线性函数逼近的Q学习的切换系统理论,利用联合谱半径分析了在确定性、独立同分布(i.i.d.)及马尔可夫观测下的收敛稳定性。

0 人收藏 0 人点赞
#convergence-analysis

论在无局部时钟条件下差分时序差分学习的发散性

arXiv cs.LG · 2026-05-11 缓存

本文通过提供一个反例解决了一个强化学习领域的开放性问题,表明在平均奖励设置下,尽管差分时序差分学习在使用局部时钟时能够收敛,但在使用全局时钟时可能会发散。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈