标签
一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。
符号门控在线策略蒸馏(SG-OPD)通过使用二元验证器作为教师监督的信任信号,增强了标准在线策略蒸馏,在竞赛级数学推理基准上提升了性能。
Z-Reward 是一个教师-学生框架,它将复杂推理与高效的奖励部署解耦,用于文本到图像的训练。该框架使用 27B 教师模型达到了 89.6% 的人类偏好准确率,使用 9B 学生模型达到了 88.6%,超过了先前的方法。
提示级蒸馏(PLD)从教师模型中提取推理模式,转化为结构化指令用于学生模型的系统提示,在不增加微调开销的情况下提升推理任务性能。
本文提出了一种原则性的离线推理蒸馏框架,能够校正教师-学生分布漂移,在数学基准测试上提升推理准确性,且无需在线推理。
本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。
OpenAI 提出了师生课程学习(TSCL)框架,其中一个教师算法自动为学生选择子任务以学习复杂任务,基于学习曲线斜率进行优化并防止遗忘。该方法在十进制加法和 Minecraft 导航任务上与手工设计的课程相当或更优,使得之前无法通过直接训练实现的解决方案成为可能。