标签
本文展示了反例,表明在表格强化学习中,Monte Carlo Exploring Starts可能收敛到次优解,并提供了一种修改方法,通过将学习率与更新频率成反比缩放,保证收敛到最优性。
本文推导了两层和三层线性神经网络在一步和两步梯度下降后梯度和测试损失的精确闭式表达式,刻画了最优学习率选择,并揭示了一个独特的早期训练阶段:在该阶段中,初始时不等层学习率是最优的。