@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…
摘要
一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。
查看缓存全文
缓存时间: 2026/05/24 22:37
大型MoE模型可能会将一半的专家算力浪费在几乎不需要专家帮助的token上。
本文中,50%的专家计算被移除,精度几乎无损失。
这使得像Qwen3和GLM这类已训练好的MoE模型,在token过于简单无需专家处理时,会停止调用一半的专家。
零专家自蒸馏适应(ZEDA),一个低成本框架,能将训练后的静态MoE模型转化为高效的动态模型。
研究表明,许多MoE token实际上并不需要真正的专家,只需要获得跳过它们的权限。
这听起来像是一个小小的路由技巧,但它改变了部署语言模型的经济性。
标准的MoE模型虽然已经避免了使用每个参数,但它们仍然对每个token花费相同的专家预算。
ZEDA为路由器添加了一个奇怪的新选项:输出完全为空的专家。
当模型将token路由到这些零专家之一时,并不会让模型变得更笨;而是承认这个token不需要另一个昂贵的变换。
巧妙之处并非在于这个虚拟专家,而在于适应方法。
无需从头重新训练模型,原始MoE成为冻结的教师,而新的动态版本则学习何时可以安全地跳过计算。
在Qwen3-30B-A3B和GLM-4.7-Flash上,结果大约是移除了一半的专家计算,平均精度损失极小,实际推理速度提升约20%。
更深层的发现是:计算量并非简单跟随任务难度。
模型在不确定性或师生分歧较高时花费更多专家预算,而结构化的代码和数学片段通常需要更少。
这使得ZEDA感觉更像是对计算不确定性的关注,而非简单的剪枝。
论文链接 – arxiv.org/abs/2605.18643
论文标题:《Post-Trained MoE Can Skip Half Experts via Self-Distillation》
相似文章
通过自蒸馏,后训练MoE可跳过一半专家
ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。
@FinanceYF5: MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”,最高跳过约 50% 专…
论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上,提出的ZEDA方法让模型学会跳过这些计算,最高节省一半专家计算。
SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏
本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。
少即是MoE:裁剪领域专用语言模型中的专家
本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。