标签
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。
作者认为,虽然“苦涩的教训”和“没有免费午餐”的直觉在孤立状态下具有误导性,但当两者结合时,它们提供了正确的视角。