标签
本文为在马尔可夫采样下的使用Polyak-Ruppert平均的无投影线性TD(0)算法提供了高概率保证,使用单一步长调度,该调度同时实现了鲁棒的无曲率依赖和快速的曲率依赖收敛率。
本文针对恒定步长Q学习,开发了一种符号分离的有限时间误差分析,将误差分解为负部和正部,并提供了揭示与过估计相关的不对称性的界。