tabular-mdp

#tabular-mdp

探索起点并不足够：Monte Carlo探索起点的反例与修正

arXiv cs.LG ↗ · 5天前缓存

本文展示了反例，表明在表格强化学习中，Monte Carlo Exploring Starts可能收敛到次优解，并提供了一种修改方法，通过将学习率与更新频率成反比缩放，保证收敛到最优性。

0 人收藏 0 人点赞