将混合专家模型剪枝与蒸馏为稠密语言模型

Hugging Face Daily Papers 论文

摘要

一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构,相比传统剪枝方法实现了更优的性能和效率。

混合专家模型(MoE)目前是前沿语言模型的主流架构,但它需要将所有专家参数加载到内存中,因此对于内存受限的部署场景不太理想。现有的压缩方法减少了专家数量,但输出仍然是MoE模型,存在同样的根本限制。我们提出了首个系统框架,用于将训练好的MoE转换为标准的全稠密架构:专家被评分、选择和分组,然后拼接成一个稠密的前馈网络(FFN),并通过MoE教师的知识蒸馏进行精炼。我们在Qwen3-30B-A3B上评估了7种评分方法、5种分组方法和2种幅度缩放方法,涵盖了一系列选定的专家数量,共得到350种配置。我们发现评分方法的选择影响最大,我们提出的新颖的多样性感知评分方法在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上始终优于之前的方法。在参数数量匹配的受控比较中,MoE转稠密方法在约40亿token的蒸馏后,平均下游准确率比稠密到稠密的剪枝高出6.3个百分点,训练挂钟速度提升1.6倍。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:12

论文页面 - 将混合专家模型剪枝与蒸馏为密集语言模型

来源:https://huggingface.co/papers/2605.28207

摘要

一个系统性的框架通过专家评分、选择、分组和知识蒸馏,将混合专家模型转化为密集架构,在性能和效率上均优于传统剪枝方法。

混合专家(https://huggingface.co/papers?q=Mixture-of-Experts)(MoE)如今已是前沿语言模型的主流架构,但它需要将所有专家参数加载到内存中,因此在内存受限的部署场景下并不理想。现有的压缩方法会减少专家数量,但输出结果仍然是具有相同根本局限性的 MoE 模型。我们提出了首个系统性的框架,用于将训练好的 MoE 模型转换为标准的全密集架构:对专家进行评分、选择和分组,然后拼接成密集的前馈网络(FFN),并通过来自 MoE 教师模型的知识蒸馏(https://huggingface.co/papers?q=knowledge%20distillation)进行精炼。我们在 Qwen3-30B-A3B 上评估了 7 种评分方法、5 种分组方法和 2 种幅度缩放方法,覆盖多种选定专家数量,共产生 350 种配置。我们发现评分方法的选择影响最大,我们新提出的多样性感知评分在 Qwen3-30B-A3B、DeepSeek-V2-Lite 和 GPT-OSS-20B 上始终优于之前的方法。在参数数量匹配的受控比较下,MoE 转密集模型在约 4B token 蒸馏后的平均下游准确率上比密集到密集剪枝高出 +6.3 个百分点,且训练挂钟速度快了 1.6 倍。

查看 arXiv 页面(https://arxiv.org/abs/2605.28207)查看 PDF(https://arxiv.org/pdf/2605.28207)GitHub0(https://github.com/krafton-ai/moe-to-dense)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.28207)

在你的代理中获取此论文:

hf papers read 2605.28207

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 2

EvanOLeary/laguna-xs2-densify-smoke 更新于 11 天前(https://huggingface.co/EvanOLeary/laguna-xs2-densify-smoke)

EvanOLeary/laguna-xs2-dense-k8-recon 文本生成·3B·更新于 11 天前·210(https://huggingface.co/EvanOLeary/laguna-xs2-dense-k8-recon)

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.28207 即可从此页面链接。

引用此论文的 Space 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.28207 即可从此页面链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏

Hugging Face Daily Papers

本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。

TENP: 用于混合专家的梯形专家神经元剪枝

arXiv cs.LG

TENP 提出了一种用于混合专家大语言模型的结构化剪枝框架,该框架保留重要专家,对较不重要的专家进行神经元剪枝,从而在 Qwen 和 DeepSeek 模型上实现高稀疏度且精度损失极小。

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。