@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

X AI KOLs Following 2026/05/18 16:27 论文

reinforcement-learning pedagogical-rl mit training-data reasoning student-teacher efficiency

摘要

MIT 引入了 Pedagogical RL，该方法通过惩罚令人意外的步骤来训练一个教师模型，使其为学生模型生成易于学习的轨迹，从而提高强化学习的训练效率。

MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据。这与教别人反向传播的概念类似。假设你有一个小的计算图： z = wx + b a = ReLU(z) L = (a - y)² 如果你已经理解了反向传播，你可以直接跳到梯度： dL/dw = 2(a - y) · 1[z > 0] · x 答案是正确的，但它跳过了推理过程。要真正理解，你需要将计算分解为局部部分： dL/da = 2(a - y) da/dz = 1[z > 0] dz/dw = x 然后反向传播就是将这些局部导数沿计算图向后组合： dL/dw = dL/da · da/dz · dz/dw = 2(a - y) · 1[z > 0] · x 向学生展示最终的梯度并不能教会他们如何在新的计算图上求梯度。即使告诉他们“只需使用链式法则”，如果学生不理解如何将计算分解为中间节点和局部导数，这个跳跃也可能太大。推理强化学习也有同样的失败模式。一次 rollout 可能会通过验证器，但其中包含一个学生模型基本不会采用的步骤。轨迹得到了正确答案，但学习信号是脆弱的，因为路径与学生当前的策略相差太远。 Pedagogical RL 训练一个知道答案的特权教师模型，然后奖励它生成对学生模型保持可学习性的轨迹。技巧是使用一个 spike-aware 奖励。它会惩罚轨迹中单个巨大的意外跳跃，即使轨迹的平均似然看起来没问题。然后学生通过意外度门控模仿学习来学习，其中仍然过于令人意外的教师 token 会被降低权重。教师正在学习如何根据学生当前的水平进行教学。 Pedagogical RL 通过高效地选择学生最准备好学习的轨迹，使强化学习更加高效。减少了等待模型获得幸运 rollout 的时间。更多来自符合学生当前水平的示例的训练信号。完整博客见评论

查看原文

查看缓存全文

缓存时间: 2026/05/18 22:38

MIT 刚刚发布了一种新的强化学习方法，叫做 Pedagogical RL。

核心教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据。

这个理念类似于教别人反向传播。

假设你有一个很小的计算图：

z = wx + b
a = ReLU(z)
L = (a - y)²

如果你已经理解了反向传播，可以直接跳到梯度：

dL/dw = 2(a - y) · 1[z > 0] · x

答案是对的，但跳过了推理过程。

要真正掌握，你需要把计算分解成局部环节：

dL/da = 2(a - y)
da/dz = 1[z > 0]
dz/dw = x

然后反向传播就是把这些局部导数沿着图反向组合起来：

dL/dw = dL/da · da/dz · dz/dw = 2(a - y) · 1[z > 0] · x

直接给学生展示最终的梯度，并不能教会他们在新的计算图上找到梯度。

即使告诉他们“就用链式法则”，这一步可能也太大了——如果他们还不理解如何将计算分解为中间节点和局部导数的话。

推理强化学习也有同样的失败模式。

一次展开可以通过验证器，但其中可能包含一个学生模型几乎永远不会采取的步骤。

这个轨迹得到了正确的答案，但学习信号很脆弱，因为路径离学生当前的策略太远了。

Pedagogical RL 训练一个知道答案的特权老师，然后奖励它生成对学生而言仍然可学习的轨迹。

诀窍是使用一种“尖峰感知奖励”。它在轨迹中惩罚单次巨大的意外差距，即使该轨迹的平均似然看起来没问题。

然后学生通过“惊异门控模仿”进行学习：那些对学生来说仍然太意外的老师 token 会被降低权重。

老师正在学习如何根据学生当前的水平来教学。

Pedagogical RL 通过高效选择学生最准备好学习的轨迹，使强化学习更加高效。

更少等待模型获得幸运的展开，更多来自符合学生当前水平的示例的训练信号。

完整博客在评论区。

这里是完整博客：https://noahziems.com/pedagogical-rl

就这些。

谢谢！一定也要看看博客。值得一读。

@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

相似文章

@rronak_: MIT的Omar Khattab实验室再次取得突破！ Pedagogical RL - 如今，RL依赖于纯熵来采样新轨迹。……

@SOURADIPCHAKR18：我们描述了关于教学RL的早期实验：一种苦教训式的训练特权自我教师…

@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来：训练你的自教师……

@lateinteraction: 你可能错过了：阅读关于Pedagogical RL的博客，与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习…

@NoahZiems: 我们最近关于Pedagogical RL的工作发表了！

提交意见反馈