knowledge-injection

#knowledge-injection

解耦的Mixture-of-Experts用于参数化知识注入

arXiv cs.CL ↗ · 2026-06-15 缓存

Decoupled Mixture-of-Experts (DMoE) 提出了一种用于参数化知识注入的模块化架构，将专家和路由器从基础模型中解耦，以实现高效的自回归推理并缓解灾难性遗忘。

0 人收藏 0 人点赞

#knowledge-injection

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

MixSD 提出了一种面向语言模型知识注入的自蒸馏方法，该方法将监督信号与模型自身的原生分布对齐，从而减少微调过程中的灾难性遗忘。它能够实现近乎完美的记忆，同时保留高达 100% 的基础能力，远超标准 SFT。

0 人收藏 0 人点赞