@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

X AI KOLs Following 论文

摘要

MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。

MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。 主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据。 这与教别人反向传播的概念类似。 假设你有一个小的计算图: z = wx + b a = ReLU(z) L = (a - y)² 如果你已经理解了反向传播,你可以直接跳到梯度: dL/dw = 2(a - y) · 1[z > 0] · x 答案是正确的,但它跳过了推理过程。 要真正理解,你需要将计算分解为局部部分: dL/da = 2(a - y) da/dz = 1[z > 0] dz/dw = x 然后反向传播就是将这些局部导数沿计算图向后组合: dL/dw = dL/da · da/dz · dz/dw = 2(a - y) · 1[z > 0] · x 向学生展示最终的梯度并不能教会他们如何在新的计算图上求梯度。 即使告诉他们“只需使用链式法则”,如果学生不理解如何将计算分解为中间节点和局部导数,这个跳跃也可能太大。 推理强化学习也有同样的失败模式。 一次 rollout 可能会通过验证器,但其中包含一个学生模型基本不会采用的步骤。 轨迹得到了正确答案,但学习信号是脆弱的,因为路径与学生当前的策略相差太远。 Pedagogical RL 训练一个知道答案的特权教师模型,然后奖励它生成对学生模型保持可学习性的轨迹。 技巧是使用一个 spike-aware 奖励。它会惩罚轨迹中单个巨大的意外跳跃,即使轨迹的平均似然看起来没问题。 然后学生通过意外度门控模仿学习来学习,其中仍然过于令人意外的教师 token 会被降低权重。 教师正在学习如何根据学生当前的水平进行教学。 Pedagogical RL 通过高效地选择学生最准备好学习的轨迹,使强化学习更加高效。 减少了等待模型获得幸运 rollout 的时间。更多来自符合学生当前水平的示例的训练信号。 完整博客见评论
查看原文
查看缓存全文

缓存时间: 2026/05/18 22:38

MIT 刚刚发布了一种新的强化学习方法,叫做 Pedagogical RL。

核心教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据。

这个理念类似于教别人反向传播。

假设你有一个很小的计算图:

z = wx + b
a = ReLU(z)
L = (a - y)²

如果你已经理解了反向传播,可以直接跳到梯度:

dL/dw = 2(a - y) · 1[z > 0] · x

答案是对的,但跳过了推理过程。

要真正掌握,你需要把计算分解成局部环节:

dL/da = 2(a - y)
da/dz = 1[z > 0]
dz/dw = x

然后反向传播就是把这些局部导数沿着图反向组合起来:

dL/dw = dL/da · da/dz · dz/dw = 2(a - y) · 1[z > 0] · x

直接给学生展示最终的梯度,并不能教会他们在新的计算图上找到梯度。

即使告诉他们“就用链式法则”,这一步可能也太大了——如果他们还不理解如何将计算分解为中间节点和局部导数的话。

推理强化学习也有同样的失败模式。

一次展开可以通过验证器,但其中可能包含一个学生模型几乎永远不会采取的步骤。

这个轨迹得到了正确的答案,但学习信号很脆弱,因为路径离学生当前的策略太远了。

Pedagogical RL 训练一个知道答案的特权老师,然后奖励它生成对学生而言仍然可学习的轨迹。

诀窍是使用一种“尖峰感知奖励”。它在轨迹中惩罚单次巨大的意外差距,即使该轨迹的平均似然看起来没问题。

然后学生通过“惊异门控模仿”进行学习:那些对学生来说仍然太意外的老师 token 会被降低权重。

老师正在学习如何根据学生当前的水平来教学。

Pedagogical RL 通过高效选择学生最准备好学习的轨迹,使强化学习更加高效。

更少等待模型获得幸运的展开,更多来自符合学生当前水平的示例的训练信号。

完整博客在评论区。

这里是完整博客:https://noahziems.com/pedagogical-rl

就这些。

谢谢!一定也要看看博客。值得一读。

相似文章