finite-time-analysis

#finite-time-analysis

单一步长足以用于无投影线性TD(0)：通过Polyak--Ruppert平均同时实现鲁棒和快速收敛率

arXiv cs.LG ↗ · 2026-06-25 缓存

本文为在马尔可夫采样下的使用Polyak-Ruppert平均的无投影线性TD(0)算法提供了高概率保证，使用单一步长调度，该调度同时实现了鲁棒的无曲率依赖和快速的曲率依赖收敛率。

0 人收藏 0 人点赞

#finite-time-analysis

arXiv cs.AI ↗ · 2026-05-18 缓存

本文针对恒定步长Q学习，开发了一种符号分离的有限时间误差分析，将误差分解为负部和正部，并提供了揭示与过估计相关的不对称性的界。

0 人收藏 0 人点赞