@rronak_: MIT的Omar Khattab实验室再次取得突破! Pedagogical RL - 如今,RL依赖于纯熵来采样新轨迹。……

X AI KOLs Following 论文

摘要

MIT研究人员提出了一种名为Pedagogical RL的新强化学习方法,该方法利用具有特权信息的教师模型和尖峰感知可学习性奖励,显著提高了样本效率和收敛速度,优于GRPO和OPSD等现有方法。

MIT的Omar Khattab实验室再次取得突破! Pedagogical RL - 如今,RL依赖于纯熵来采样新轨迹。这非常低效,并且将性能限制在当前模型已经能够触及的范围内。 在几乎所有的RL设置中,我们都把来自评判者或奖励信号的有价值信息搁置了,而这些信息本可以极大地改进采样。 自然而然的解决方案是部署一个具有特权信息的教师模型。但问题是,这会与模型产生严重的策略偏移,甚至可能被视为作弊,从而导致训练失败。 因此,为了完全实现这一目标,团队定义了一种新的尖峰感知可学习性奖励——从学生的角度不成比例地惩罚高意外性(high-surprise)的令牌,从而对教师进行RL训练。同时,他们还在最终的损失函数中引入了意外性门控(surprisal-gate),用于处理将这些生成的轨迹传递给学生的过程。 总的来说,这比任何其他比较的方法(GRPO, OPSD)实现了更快的收敛速度,非常令人印象深刻。 作者:@SOURADIPCHAKR18 @NoahZiems @furongh @Meng_CS @amritsinghbedi3 @lateinteraction
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:24

MIT Omar Khattab 实验室再次取得突破!

教学强化学习(Pedagogical RL)-

当前,强化学习完全依赖熵来采样新轨迹。这种做法效率低下,并且会将性能上限限制在当前模型已经能够触及的范围内。

在几乎所有的强化学习设置中,我们都忽略了来自评判或奖励信号的宝贵信息,而这些信息可以极大地改进采样。

自然的解决方案是引入一个拥有特权信息的教师模型。但问题是,这会导致模型严重偏离策略,甚至产生作弊行为,从而导致训练崩溃。

因此,为了充分实现这一目标,团队定义了一种新的尖峰感知可学习性奖励——从学生的角度,对高意外性标记进行不成比例的惩罚,从而通过强化学习训练教师模型。同时,他们还在将生成轨迹传递给学生时的最终损失函数中引入了 surprisal-gate(意外门控)。

总的来说,这使得收敛速度显著快于其他对比方法(GRPO、OPSD),效果令人印象深刻。

作者:@SOURADIPCHAKR18 @NoahZiems @furongh @Meng_CS @amritsinghbedi3 @lateinteraction

相似文章