@SOURADIPCHAKR18: 两个因素使其有效。1. Spike-aware 教学奖励:仅当模型正确且合理时才给予奖励。惩…
摘要
描述了一种训练技术,涉及 Spike-aware 教学奖励(惩罚不合理跳跃)和 Surprisal-gated 模仿(学生快速学习简单标记,缓慢学习困难标记)。
两个因素使其有效。
1. Spike-aware 教学奖励:仅当模型正确且合理时才给予奖励。惩罚单个不可能跳跃,而不仅仅是高平均 NLL
2. Surprisal-gated 模仿:让学生快速吸收简单的教师标记,而困难的则吸收较少 https://t.co/QQlbcjk0UX
查看缓存全文
缓存时间: 2026/05/15 23:10
这项工作得以实现,依靠两点。
-
峰值感知教学奖惩机制:只有当模型的回答不仅正确而且合理时,才给予奖励。要惩罚那些不符合逻辑的“大跳跃”,而非仅仅关注平均负对数似然(NLL)的高低。
-
惊奇门控模仿机制:让学生模型快速吸收教师模型中简单的标记,而对于难度较大的标记,则减缓吸收速度。 https://t.co/QQlbcjk0UX
相似文章
@rronak_: MIT的Omar Khattab实验室再次取得突破! Pedagogical RL - 如今,RL依赖于纯熵来采样新轨迹。……
MIT研究人员提出了一种名为Pedagogical RL的新强化学习方法,该方法利用具有特权信息的教师模型和尖峰感知可学习性奖励,显著提高了样本效率和收敛速度,优于GRPO和OPSD等现有方法。
可解释的教学示例
研究表明,通过迭代训练师生神经网络,教师能学到可解释的教学策略,即选择或生成人类能够理解和有效学习的教学示例。
@SOURADIPCHAKR18:我们描述了关于*教学RL*的早期实验:一种苦教训式的*训练*特权自我教师…
介绍了教学RL,一种范式,其中训练特权自我教师以生成正确且易于遵循的轨迹,表明这是一个相对简单的RL问题。
@bradenjhancock: 换句话说:人类正在教教师模型如何像优秀的人类教师教其他人那样教其他模…
人类正在训练教师模型,使其以循序渐进的方式教学生模型,并对跳跃式教学进行惩罚,从而提高模型的智能。
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。