@rronak_: MIT的Omar Khattab实验室再次取得突破! Pedagogical RL - 如今,RL依赖于纯熵来采样新轨迹。……
摘要
MIT研究人员提出了一种名为Pedagogical RL的新强化学习方法,该方法利用具有特权信息的教师模型和尖峰感知可学习性奖励,显著提高了样本效率和收敛速度,优于GRPO和OPSD等现有方法。
查看缓存全文
缓存时间: 2026/05/20 02:24
MIT Omar Khattab 实验室再次取得突破!
教学强化学习(Pedagogical RL)-
当前,强化学习完全依赖熵来采样新轨迹。这种做法效率低下,并且会将性能上限限制在当前模型已经能够触及的范围内。
在几乎所有的强化学习设置中,我们都忽略了来自评判或奖励信号的宝贵信息,而这些信息可以极大地改进采样。
自然的解决方案是引入一个拥有特权信息的教师模型。但问题是,这会导致模型严重偏离策略,甚至产生作弊行为,从而导致训练崩溃。
因此,为了充分实现这一目标,团队定义了一种新的尖峰感知可学习性奖励——从学生的角度,对高意外性标记进行不成比例的惩罚,从而通过强化学习训练教师模型。同时,他们还在将生成轨迹传递给学生时的最终损失函数中引入了 surprisal-gate(意外门控)。
总的来说,这使得收敛速度显著快于其他对比方法(GRPO、OPSD),效果令人印象深刻。
作者:@SOURADIPCHAKR18 @NoahZiems @furongh @Meng_CS @amritsinghbedi3 @lateinteraction
相似文章
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。
@lateinteraction: 你可能错过了:阅读关于Pedagogical RL的博客,与其盲目地从你的LLM中采样,不如利用用于RLVR的标签!学习…
介绍了Pedagogical RL,一种利用特权信息指导成功轨迹采样以增强LLM推理的方法,相比GRPO和在线策略蒸馏,实现了高达40%的相对增益。
@SOURADIPCHAKR18:我们描述了关于*教学RL*的早期实验:一种苦教训式的*训练*特权自我教师…
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。
@NoahZiems: 我们最近关于Pedagogical RL的工作发表了!
一篇关于Pedagogical RL的研究论文的公告,该论文提出利用特权信息主动采样强化学习算法通常忽略的轨迹。