将混合专家模型剪枝与蒸馏为稠密语言模型
摘要
一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构,相比传统剪枝方法实现了更优的性能和效率。
查看缓存全文
缓存时间: 2026/06/10 00:12
论文页面 - 将混合专家模型剪枝与蒸馏为密集语言模型
来源:https://huggingface.co/papers/2605.28207
摘要
一个系统性的框架通过专家评分、选择、分组和知识蒸馏,将混合专家模型转化为密集架构,在性能和效率上均优于传统剪枝方法。
混合专家(https://huggingface.co/papers?q=Mixture-of-Experts)(MoE)如今已是前沿语言模型的主流架构,但它需要将所有专家参数加载到内存中,因此在内存受限的部署场景下并不理想。现有的压缩方法会减少专家数量,但输出结果仍然是具有相同根本局限性的 MoE 模型。我们提出了首个系统性的框架,用于将训练好的 MoE 模型转换为标准的全密集架构:对专家进行评分、选择和分组,然后拼接成密集的前馈网络(FFN),并通过来自 MoE 教师模型的知识蒸馏(https://huggingface.co/papers?q=knowledge%20distillation)进行精炼。我们在 Qwen3-30B-A3B 上评估了 7 种评分方法、5 种分组方法和 2 种幅度缩放方法,覆盖多种选定专家数量,共产生 350 种配置。我们发现评分方法的选择影响最大,我们新提出的多样性感知评分在 Qwen3-30B-A3B、DeepSeek-V2-Lite 和 GPT-OSS-20B 上始终优于之前的方法。在参数数量匹配的受控比较下,MoE 转密集模型在约 4B token 蒸馏后的平均下游准确率上比密集到密集剪枝高出 +6.3 个百分点,且训练挂钟速度快了 1.6 倍。
查看 arXiv 页面(https://arxiv.org/abs/2605.28207)查看 PDF(https://arxiv.org/pdf/2605.28207)GitHub0(https://github.com/krafton-ai/moe-to-dense)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28207)
在你的代理中获取此论文:
hf papers read 2605.28207
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 2
EvanOLeary/laguna-xs2-densify-smoke 更新于 11 天前(https://huggingface.co/EvanOLeary/laguna-xs2-densify-smoke)
EvanOLeary/laguna-xs2-dense-k8-recon 文本生成·3B·更新于 11 天前·210(https://huggingface.co/EvanOLeary/laguna-xs2-dense-k8-recon)
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.28207 即可从此页面链接。
引用此论文的 Space 0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.28207 即可从此页面链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
SHAPE: 面向稀疏混合专家大语言模型的联盟感知专家剪枝
SHAPE提出了一种面向稀疏MoE大语言模型的联盟感知专家剪枝框架,该框架利用路由轨迹上的Shapley式归因来识别关键专家,在20-40%剪枝率下实现了有竞争力的准确率,并降低了GPU内存占用。
SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏
本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
TENP: 用于混合专家的梯形专家神经元剪枝
TENP 提出了一种用于混合专家大语言模型的结构化剪枝框架,该框架保留重要专家,对较不重要的专家进行神经元剪枝,从而在 Qwen 和 DeepSeek 模型上实现高稀疏度且精度损失极小。
少即是MoE:裁剪领域专用语言模型中的专家
本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。