knowledge-injection

#knowledge-injection

MixSD：混合上下文自蒸馏知识注入

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

MixSD 提出了一种面向语言模型知识注入的自蒸馏方法，该方法将监督信号与模型自身的原生分布对齐，从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆，同时保留高达 100% 的基础能力，远超标准 SFT。

0 人收藏 0 人点赞