@rronak_: MIT的Omar Khattab实验室再次取得突破！ Pedagogical RL - 如今，RL依赖于纯熵来采样新轨迹。……

X AI KOLs Following 2026/05/19 15:03 论文

reinforcement-learning machine-learning mit teacher-model sample-efficiency pedagogical-rl

摘要

MIT研究人员提出了一种名为Pedagogical RL的新强化学习方法，该方法利用具有特权信息的教师模型和尖峰感知可学习性奖励，显著提高了样本效率和收敛速度，优于GRPO和OPSD等现有方法。

MIT的Omar Khattab实验室再次取得突破！ Pedagogical RL - 如今，RL依赖于纯熵来采样新轨迹。这非常低效，并且将性能限制在当前模型已经能够触及的范围内。在几乎所有的RL设置中，我们都把来自评判者或奖励信号的有价值信息搁置了，而这些信息本可以极大地改进采样。自然而然的解决方案是部署一个具有特权信息的教师模型。但问题是，这会与模型产生严重的策略偏移，甚至可能被视为作弊，从而导致训练失败。因此，为了完全实现这一目标，团队定义了一种新的尖峰感知可学习性奖励——从学生的角度不成比例地惩罚高意外性（high-surprise）的令牌，从而对教师进行RL训练。同时，他们还在最终的损失函数中引入了意外性门控（surprisal-gate），用于处理将这些生成的轨迹传递给学生的过程。总的来说，这比任何其他比较的方法（GRPO, OPSD）实现了更快的收敛速度，非常令人印象深刻。作者：@SOURADIPCHAKR18 @NoahZiems @furongh @Meng_CS @amritsinghbedi3 @lateinteraction

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:24

MIT Omar Khattab 实验室再次取得突破！

教学强化学习（Pedagogical RL）-

当前，强化学习完全依赖熵来采样新轨迹。这种做法效率低下，并且会将性能上限限制在当前模型已经能够触及的范围内。

在几乎所有的强化学习设置中，我们都忽略了来自评判或奖励信号的宝贵信息，而这些信息可以极大地改进采样。

自然的解决方案是引入一个拥有特权信息的教师模型。但问题是，这会导致模型严重偏离策略，甚至产生作弊行为，从而导致训练崩溃。

因此，为了充分实现这一目标，团队定义了一种新的尖峰感知可学习性奖励——从学生的角度，对高意外性标记进行不成比例的惩罚，从而通过强化学习训练教师模型。同时，他们还在将生成轨迹传递给学生时的最终损失函数中引入了 surprisal-gate（意外门控）。

总的来说，这使得收敛速度显著快于其他对比方法（GRPO、OPSD），效果令人印象深刻。

作者：@SOURADIPCHAKR18 @NoahZiems @furongh @Meng_CS @amritsinghbedi3 @lateinteraction

@rronak_: MIT的Omar Khattab实验室再次取得突破！ Pedagogical RL - 如今，RL依赖于纯熵来采样新轨迹。……

相似文章

@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来：训练你的自教师……

@lateinteraction: 你可能错过了：阅读关于Pedagogical RL的博客，与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习…

@SOURADIPCHAKR18：我们描述了关于教学RL的早期实验：一种苦教训式的训练特权自我教师…

@NoahZiems: 我们最近关于Pedagogical RL的工作发表了！

提交意见反馈