标签
Noah Ziems 表达了对他们在 Pedagogical RL 上最近工作的兴奋之情,该工作旨在改变像编程这样复杂的智能体任务的数据收集方式。
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。