标签
MixSD 提出了一种面向语言模型知识注入的自蒸馏方法,该方法将监督信号与模型自身的原生分布对齐,从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆,同时保留高达 100% 的基础能力,远超标准 SFT。