@bradenjhancock: 换句话说:人类正在教教师模型如何像优秀的人类教师教其他人那样教其他模…
摘要
人类正在训练教师模型,使其以循序渐进的方式教学生模型,并对跳跃式教学进行惩罚,从而提高模型的智能。
换句话说:人类正在教教师模型如何像优秀的人类教师教其他人那样教其他模型,这样我们就可以制造出更聪明的模型,进而教人类变得更聪明。直觉:一个好的教师模型不仅会引导出正确的答案——它还会按照学生可以遵循的一系列步骤来做。教师模型会因做出突兀的跳跃而受到惩罚。来自@lateinteraction的CSAIL实验室的更多酷炫工作!
相似文章
可解释的教学示例
研究表明,通过迭代训练师生神经网络,教师能学到可解释的教学策略,即选择或生成人类能够理解和有效学习的教学示例。
@jeremyphoward: 我觉得训练模型自主去尝试自己做所有事情的趋势是反人类的。…
Jeremy Howard 反对训练AI模型自主地做所有事情,而主张训练LLMs来支持人类学习、创造力和迭代实验。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
@OpenAI: 训练模型涉及许多技术和社会流程,因此必须在过程中内置对CoT评分的防范措施。
OpenAI正在改进安全措施,以防止模型训练中的CoT评分问题,包括实时检测、意外评分预防和压力测试。