将混合专家模型剪枝与蒸馏为稠密语言模型

Hugging Face Daily Papers 2026/05/27 00:00 论文

摘要

一个系统框架通过专家评分、选择、分组和知识蒸馏将混合专家模型转换为稠密架构，相比传统剪枝方法实现了更优的性能和效率。

混合专家模型（MoE）目前是前沿语言模型的主流架构，但它需要将所有专家参数加载到内存中，因此对于内存受限的部署场景不太理想。现有的压缩方法减少了专家数量，但输出仍然是MoE模型，存在同样的根本限制。我们提出了首个系统框架，用于将训练好的MoE转换为标准的全稠密架构：专家被评分、选择和分组，然后拼接成一个稠密的前馈网络（FFN），并通过MoE教师的知识蒸馏进行精炼。我们在Qwen3-30B-A3B上评估了7种评分方法、5种分组方法和2种幅度缩放方法，涵盖了一系列选定的专家数量，共得到350种配置。我们发现评分方法的选择影响最大，我们提出的新颖的多样性感知评分方法在Qwen3-30B-A3B、DeepSeek-V2-Lite和GPT-OSS-20B上始终优于之前的方法。在参数数量匹配的受控比较中，MoE转稠密方法在约40亿token的蒸馏后，平均下游准确率比稠密到稠密的剪枝高出6.3个百分点，训练挂钟速度提升1.6倍。

查看原文

查看缓存全文

缓存时间: 2026/06/10 00:12

论文页面 - 将混合专家模型剪枝与蒸馏为密集语言模型

来源：https://huggingface.co/papers/2605.28207

摘要

一个系统性的框架通过专家评分、选择、分组和知识蒸馏，将混合专家模型转化为密集架构，在性能和效率上均优于传统剪枝方法。

混合专家（https://huggingface.co/papers?q=Mixture-of-Experts）（MoE）如今已是前沿语言模型的主流架构，但它需要将所有专家参数加载到内存中，因此在内存受限的部署场景下并不理想。现有的压缩方法会减少专家数量，但输出结果仍然是具有相同根本局限性的 MoE 模型。我们提出了首个系统性的框架，用于将训练好的 MoE 模型转换为标准的全密集架构：对专家进行评分、选择和分组，然后拼接成密集的前馈网络（FFN），并通过来自 MoE 教师模型的知识蒸馏（https://huggingface.co/papers?q=knowledge%20distillation）进行精炼。我们在 Qwen3-30B-A3B 上评估了 7 种评分方法、5 种分组方法和 2 种幅度缩放方法，覆盖多种选定专家数量，共产生 350 种配置。我们发现评分方法的选择影响最大，我们新提出的多样性感知评分在 Qwen3-30B-A3B、DeepSeek-V2-Lite 和 GPT-OSS-20B 上始终优于之前的方法。在参数数量匹配的受控比较下，MoE 转密集模型在约 4B token 蒸馏后的平均下游准确率上比密集到密集剪枝高出 +6.3 个百分点，且训练挂钟速度快了 1.6 倍。

查看 arXiv 页面（https://arxiv.org/abs/2605.28207）查看 PDF（https://arxiv.org/pdf/2605.28207）GitHub0（https://github.com/krafton-ai/moe-to-dense）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.28207）

在你的代理中获取此论文：

hf papers read 2605.28207

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 2

EvanOLeary/laguna-xs2-densify-smoke 更新于 11 天前（https://huggingface.co/EvanOLeary/laguna-xs2-densify-smoke）

EvanOLeary/laguna-xs2-dense-k8-recon 文本生成·3B·更新于 11 天前·210（https://huggingface.co/EvanOLeary/laguna-xs2-dense-k8-recon）

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.28207 即可从此页面链接。

引用此论文的 Space 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.28207 即可从此页面链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接。

将混合专家模型剪枝与蒸馏为稠密语言模型

论文页面 - 将混合专家模型剪枝与蒸馏为密集语言模型

摘要

引用此论文的模型 2

EvanOLeary/laguna-xs2-densify-smoke 更新于 11 天前（https://huggingface.co/EvanOLeary/laguna-xs2-densify-smoke）

EvanOLeary/laguna-xs2-dense-k8-recon 文本生成·3B·更新于 11 天前·210（https://huggingface.co/EvanOLeary/laguna-xs2-dense-k8-recon）

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

修剪不良专家需要MAESTRO

SHAPE: 面向稀疏混合专家大语言模型的联盟感知专家剪枝

SlimQwen：探索大规模MoE模型预训练中的剪枝与蒸馏

用于剪枝稀疏混合专家语言模型的通用专家覆盖方法

关于生物医学领域中剪枝混合专家模型的效用和事实可靠性

提交意见反馈