标签
介绍了Pedagogical RL,一种利用特权信息指导成功轨迹采样以增强LLM推理的方法,相比GRPO和在线策略蒸馏,实现了高达40%的相对增益。
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。