通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers 论文

摘要

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

混合专家模型(MoE)通过稀疏专家激活高效扩展语言模型,其动态变体通过根据输入调整激活的专家进一步减少计算量。现有的动态MoE方法通常依赖于从头预训练或特定任务适配,而将已训练的MoE进行实际转换的研究尚不充分。实现这种适配可以直接缓解推理成本,允许简单令牌在服务期间绕过不必要的专家。本文介绍了零专家自蒸馏适配(ZEDA),一种低成本框架,将后训练的静态MoE模型转换为高效的动态模型。为了稳定这种架构转换,ZEDA在每个MoE层中注入无参数的零输出专家,并通过两阶段自蒸馏适配增强后的模型,利用原始MoE作为冻结教师,并应用组级平衡损失。在Qwen3-30B-A3B和GLM-4.7-Flash上,涵盖数学、代码和指令遵循的11个基准测试中,ZEDA消除了超过50%的专家FLOP,且精度损失极小。它在两个模型上分别比最强的动态MoE基线高出6.1和4.0个点,并实现了约1.20倍的端到端推理加速。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:31

论文页面 - 后训练 MoE 可通过自蒸馏跳过一半专家

来源:https://huggingface.co/papers/2605.18643 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

零专家自蒸馏适配(ZEDA)通过将静态模型转换为自适应模型,实现高效的动态混合专家模型,从而降低计算成本并提升推理速度。

Mixture-of-Experts (MoE) 通过稀疏专家激活高效扩展语言模型,其动态变体进一步根据输入依赖调整激活的专家,从而减少计算量。现有动态 MoE 方法通常依赖从头预训练或任务特定适配,对于已完全训练 MoE 的实际转换则少有探索。实现这种适配可直接通过让简单令牌在服务过程中绕过不必要的专家来降低推理成本。本文提出零专家自蒸馏适配(ZEDA),一种低成本框架,能将后训练的静态 MoE 模型转换为高效的动态 MoE。为稳定这一架构转换,ZEDA 在每个 MoE 层中注入无参数零输出专家,并通过两阶段自蒸馏适配增强后的模型:利用原始 MoE 作为冻结教师,并应用组级平衡损失。在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上,覆盖数学、代码和指令跟随等 11 个基准测试,ZEDA 在精度损失极小的情况下消除了超过 50% 的专家 FLOPs。它在两个模型上分别比最强的动态 MoE 基线高 6.1 和 4.0 分,并实现约 1.20 倍的端到端推理加速。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18643) 查看 PDF (https://arxiv.org/pdf/2605.18643) GitHub (https://github.com/TsinghuaC3I/ZEDA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18643)

在你的代理中获取这篇论文:

hf papers read 2605.18643

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型链接本论文

在模型 README.md 中引用 arxiv.org/abs/2605.18643 即可从本页链接。

引用该论文的数据集 0

没有数据集链接本论文

在数据集 README.md 中引用 arxiv.org/abs/2605.18643 即可从本页链接。

引用该论文的 Spaces 0

没有 Space 链接本论文

在 Space README.md 中引用 arxiv.org/abs/2605.18643 即可从本页链接。

包含该论文的收藏 1

相似文章

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。