通过自蒸馏,后训练MoE可跳过一半专家
摘要
ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。
查看缓存全文
缓存时间: 2026/05/19 06:31
论文页面 - 后训练 MoE 可通过自蒸馏跳过一半专家
来源:https://huggingface.co/papers/2605.18643 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
零专家自蒸馏适配(ZEDA)通过将静态模型转换为自适应模型,实现高效的动态混合专家模型,从而降低计算成本并提升推理速度。
Mixture-of-Experts (MoE) 通过稀疏专家激活高效扩展语言模型,其动态变体进一步根据输入依赖调整激活的专家,从而减少计算量。现有动态 MoE 方法通常依赖从头预训练或任务特定适配,对于已完全训练 MoE 的实际转换则少有探索。实现这种适配可直接通过让简单令牌在服务过程中绕过不必要的专家来降低推理成本。本文提出零专家自蒸馏适配(ZEDA),一种低成本框架,能将后训练的静态 MoE 模型转换为高效的动态 MoE。为稳定这一架构转换,ZEDA 在每个 MoE 层中注入无参数零输出专家,并通过两阶段自蒸馏适配增强后的模型:利用原始 MoE 作为冻结教师,并应用组级平衡损失。在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上,覆盖数学、代码和指令跟随等 11 个基准测试,ZEDA 在精度损失极小的情况下消除了超过 50% 的专家 FLOPs。它在两个模型上分别比最强的动态 MoE 基线高 6.1 和 4.0 分,并实现约 1.20 倍的端到端推理加速。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18643) 查看 PDF (https://arxiv.org/pdf/2605.18643) GitHub (https://github.com/TsinghuaC3I/ZEDA) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18643)
在你的代理中获取这篇论文:
hf papers read 2605.18643
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
没有模型链接本论文
在模型 README.md 中引用 arxiv.org/abs/2605.18643 即可从本页链接。
引用该论文的数据集 0
没有数据集链接本论文
在数据集 README.md 中引用 arxiv.org/abs/2605.18643 即可从本页链接。
引用该论文的 Spaces 0
没有 Space 链接本论文
在 Space README.md 中引用 arxiv.org/abs/2605.18643 即可从本页链接。
包含该论文的收藏 1
相似文章
@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…
一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。
少即是MoE:裁剪领域专用语言模型中的专家
本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
EMO:用于涌现模块化的专家混合模型预训练
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
@FinanceYF5: MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”,最高跳过约 50% 专…
论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上,提出的ZEDA方法让模型学会跳过这些计算,最高节省一半专家计算。