knowledge-injection

标签

Cards List
#knowledge-injection

MixSD:混合上下文自蒸馏知识注入

Hugging Face Daily Papers · 2026-05-16 缓存

MixSD 提出了一种面向语言模型知识注入的自蒸馏方法,该方法将监督信号与模型自身的原生分布对齐,从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆,同时保留高达 100% 的基础能力,远超标准 SFT。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈