@lateinteraction: 你可能错过了：阅读关于Pedagogical RL的博客，与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习…

X AI KOLs Following 2026/05/15 13:27 论文

reinforcement-learning llm pedagogical-rl reasoning self-teaching on-policy-distillation

摘要

介绍了Pedagogical RL，一种利用特权信息指导成功轨迹采样以增强LLM推理的方法，相比GRPO和在线策略蒸馏，实现了高达40%的相对增益。

你可能错过了：阅读关于Pedagogical RL的博客。与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习直接近似你的LLM中那些实际正确的可能展开的分布。然后从*那个*分布中采样！https://noahziems.com/pedagogical-rl

查看原文

查看缓存全文

缓存时间: 2026/05/16 09:16

ICYMI：阅读关于教学式强化学习的博客
与其盲目地从你的LLM中采样，不如利用RLVR所用的标签！学会直接近似你的LLM实际上正确的合理 rollout 的分布。然后从那个分布中采样！https://noahziems.com/pedagogical-rl

教学式强化学习：教导模型利用特权信息自我学习

来源：https://noahziems.com/pedagogical-rl

Souradip Chakraborty*,1,2,Noah Ziems*,1,3, Furong Huang2,Meng Jiang3,Amrit Singh Bedi4,Omar Khattab1
1MIT 2UMD 3UND 4UCF
*同等贡献

传统的强化学习和在线策略蒸馏算法依赖于特权信息（如标注的最终答案或执行反馈）来评估 rollout，但实际上并未利用它们来找到好的 rollout。如果你的模型无法偶然生成成功的轨迹，RL 就会停滞不前。在本文中，我们提出一个问题：我们能否利用特权信息来主动采样那些 RL 算法本应通过大量计算偶然得到的 rollout？换句话说，我们如何让 RL 中的采样变得更幸运？我们描述了关于教学式强化学习的早期实验，这是一种教导模型自我学习的范式，旨在生成不仅正确，而且每一步都对其自身学习合理且有用的 rollout。具体来说，我们定义了一个尖峰感知教学奖励，用它来对作为自我教师的模型进行 RL 训练，然后通过惊奇门控模仿將其教学guidance 同化。我们在两个推理任务上评估了 LLM，并与 GRPO、在线策略自蒸馏以及其他离线策略自蒸馏方法进行了比较。我们发现，教学式 RL 学习速度显著加快，相对性能提升高达 40%。我们分享这些早期结果，旨在鼓励社区考虑超越单纯编辑在线策略学习目标的范式——我们认为后者正在成为瓶颈所在。

TL;DR —— 在线策略 RL 盲目地搜索成功，而教学式 RL 则自我训练以变得幸运，即它学会高效采样自身可以学习的、合理且成功的轨迹。

1. 纯粹的在线策略算法盲目采样

我们研究可验证的 RL 问题，其中每个提示 $x$ 都附带特权上下文 $c$ ，例如最终答案或执行反馈。我们的目标是学习接收 $x$ 并生成一个轨迹 $\\tau = (\\tau\_1,\\ldots,\\tau\_T,y)$ ，其中可能包含推理 token、工具调用和最终预测 $y$ ，从而最大化给定的奖励函数 $R(x,c,\\tau)$ ，例如一个检查正确性的验证器 $R(x,c,y) = \\mathbb{I}[y == c]$ 。RL 的一个关键挑战在于，我们并没有被给予某些“理想”的轨迹供我们学习。相反，我们必须自己采样它们。像 GRPO 这样的在线策略 RL 方法使用模型自身采样轨迹 $\\tau \\sim \\pi\_\\theta(\\cdot \\mid x)$ ，观察奖励，然后放大它偶然遇到的成功动作。类似地，最近一波（https://thinkingmachines.ai/blog/on-policy-distillation/）（https://arxiv.org/abs/2601.18734）的（https://arxiv.org/abs/2601.19897）在线策略蒸馏（https://arxiv.org/abs/2306.13649）方法也以相同的方式盲目采样，但随后利用基于特权信息 $(x, c)$ 的自我教师生成更密集的 token 级训练信号。这里奇怪的效率低下之处在于：即使这些算法拥有能够严格约束成功形态的信息 $c$ ，采样器仍然像盲人一样探索。但首先，我们手头到底有没有值得学习的轨迹？

2. 理想的采样器：最近成功

我们可能希望从中采样的一个分布是：学生策略在成功条件下的分布： $q\_\\theta^\\star(\\tau \\mid x,c) \\propto \\pi\_\\theta(\\tau \\mid x)R(x,c,\\tau)$ 。这个学生策略的最近成功分布包含的响应既在 $R(x,c,\\tau)$ （或 $R(x,c, y)$ ）下正确，又可学习。也就是说，这些响应最接近学生在更大计算量下的在线策略 RL 中可能合理生成的结果。我们能否利用特权信息来主动采样那些 RL 算法本应通过大量计算偶然得到的 rollout？

有几种自然的方法可以近似最近成功采样。

1. 拒绝采样：我们可以简单地从学生策略 $\\pi\_\\theta$ 中采样更多次。当在可承受的 $K$ 下 pass@ $K$ 已经足够有吸引力时，这可能有效。

2. 特权教师采样：我们可以从一个特权的自我教师中采样，即学生自身能访问特权上下文， $\\tau \\sim \\pi\_\{\\theta\}(\\cdot \\mid x,c)$ 。这增加了正确性的机会，但它很可能通过走捷径“作弊”，而这些捷径只有在教师看到了 $c$ 时才有意义。换句话说，我们冒着主要采样到满足 $R(x,c,\\tau)=1$ 但仍在学生策略下极不可能出现、因而不可学习的轨迹的风险，即 $\\pi\_\\theta(\\tau \\mid x)\\ll 1$ 。

3. 乘积采样：一种合理的近似最近成功采样的方法是在解码过程中混合学生策略和特权教师： \[q_{\mathrm{mix}}(\tau_t \mid \tau_

@lateinteraction: 你可能错过了：阅读关于Pedagogical RL的博客，与其盲目地从你的LLM中采样，不如利用用于RLVR的标签！学习…

教学式强化学习：教导模型利用特权信息自我学习

1. 纯粹的在线策略算法盲目采样

2. 理想的采样器：最近成功

相似文章

@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来：训练你的自教师……

@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...

@NoahZiems: 我们最近关于Pedagogical RL的工作发表了！

@rronak_: MIT的Omar Khattab实验室再次取得突破！ Pedagogical RL - 如今，RL依赖于纯熵来采样新轨迹。……

@SOURADIPCHAKR18：典型的RL算法和同策略蒸馏方法是盲目采样器：它们使用特权信息来评分rollouts……

提交意见反馈