标签
Souradip Chakraborty的一条推文提出,在强化学习中使用特权信息主动采样展开(rollouts),与传统盲采样方法形成对比。该推文以一句关于优秀教师设计学生自己就能搭建的示范的引言开头。
一篇关于Pedagogical RL的研究论文的公告,该论文提出利用特权信息主动采样强化学习算法通常忽略的轨迹。