标签
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
描述了一种训练技术,涉及 Spike-aware 教学奖励(惩罚不合理跳跃)和 Surprisal-gated 模仿(学生快速学习简单标记,缓慢学习困难标记)。