@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
摘要
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
查看缓存全文
缓存时间: 2026/05/18 22:38
MIT 刚刚发布了一种新的强化学习方法,叫做 Pedagogical RL。
核心教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据。
这个理念类似于教别人反向传播。
假设你有一个很小的计算图:
z = wx + b
a = ReLU(z)
L = (a - y)²
如果你已经理解了反向传播,可以直接跳到梯度:
dL/dw = 2(a - y) · 1[z > 0] · x
答案是对的,但跳过了推理过程。
要真正掌握,你需要把计算分解成局部环节:
dL/da = 2(a - y)
da/dz = 1[z > 0]
dz/dw = x
然后反向传播就是把这些局部导数沿着图反向组合起来:
dL/dw = dL/da · da/dz · dz/dw = 2(a - y) · 1[z > 0] · x
直接给学生展示最终的梯度,并不能教会他们在新的计算图上找到梯度。
即使告诉他们“就用链式法则”,这一步可能也太大了——如果他们还不理解如何将计算分解为中间节点和局部导数的话。
推理强化学习也有同样的失败模式。
一次展开可以通过验证器,但其中可能包含一个学生模型几乎永远不会采取的步骤。
这个轨迹得到了正确的答案,但学习信号很脆弱,因为路径离学生当前的策略太远了。
Pedagogical RL 训练一个知道答案的特权老师,然后奖励它生成对学生而言仍然可学习的轨迹。
诀窍是使用一种“尖峰感知奖励”。它在轨迹中惩罚单次巨大的意外差距,即使该轨迹的平均似然看起来没问题。
然后学生通过“惊异门控模仿”进行学习:那些对学生来说仍然太意外的老师 token 会被降低权重。
老师正在学习如何根据学生当前的水平来教学。
Pedagogical RL 通过高效选择学生最准备好学习的轨迹,使强化学习更加高效。
更少等待模型获得幸运的展开,更多来自符合学生当前水平的示例的训练信号。
完整博客在评论区。
这里是完整博客:https://noahziems.com/pedagogical-rl
就这些。
谢谢!一定也要看看博客。值得一读。
相似文章
@rronak_: MIT的Omar Khattab实验室再次取得突破! Pedagogical RL - 如今,RL依赖于纯熵来采样新轨迹。……
MIT研究人员提出了一种名为Pedagogical RL的新强化学习方法,该方法利用具有特权信息的教师模型和尖峰感知可学习性奖励,显著提高了样本效率和收敛速度,优于GRPO和OPSD等现有方法。
@SOURADIPCHAKR18:我们描述了关于*教学RL*的早期实验:一种苦教训式的*训练*特权自我教师…
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。
@lateinteraction: 你可能错过了:阅读关于Pedagogical RL的博客,与其盲目地从你的LLM中采样,不如利用用于RLVR的标签!学习…
介绍了Pedagogical RL,一种利用特权信息指导成功轨迹采样以增强LLM推理的方法,相比GRPO和在线策略蒸馏,实现了高达40%的相对增益。
@NoahZiems: 我们最近关于Pedagogical RL的工作发表了!
一篇关于Pedagogical RL的研究论文的公告,该论文提出利用特权信息主动采样强化学习算法通常忽略的轨迹。