标签
OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。
本文介绍了在策略框架自蒸馏(OPHSD),该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能,使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。
本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
本文介绍了TESSY,一种用于微调推理模型的教师-学生协作框架。该框架通过将生成过程解耦为能力令牌(来自教师)和风格令牌(来自学生),生成符合在线策略的SFT数据,从而解决了使用离线策略教师数据时的灾难性遗忘问题。