标签
介绍 AwesomeOPD,一个专门收集 LLM、VLM 和 Agent 在训练中使用的 On-Policy Distillation (OPD) 和 Self-Distillation 相关开源代码与论文的精选列表。该列表按教师来源、监督信号、rollout 用法和训练阶段对资源进行了详细分类和标注。
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。
本论文研究了监督微调(SFT)如何通过导致知识退化而增加大语言模型的幻觉问题,并提出了一种基于自蒸馏的方法来缓解这一问题,同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制,并演示了包括参数冻结和自蒸馏在内的解决方案。
MARCO 提出一种轻量高速的语义对应模型,通过由粗到精的目标与自蒸馏框架结合 DINOv2,在未知关键点上也达到 SOTA 精度与泛化能力。
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。