@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

X AI KOLs Timeline 论文

摘要

一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。

一个大MoE模型可能浪费了一半的专家计算资源在那些几乎不需要专家帮助的token上。 本文中,移除了50%的专家计算,而精度几乎没有损失。 这使得已经训练好的MoE模型(如Qwen3和GLM)在token太简单而不需要专家时,停止调用一半的专家。 Zero-Expert Self-Distillation Adaptation (ZEDA),一个低成本框架,将训练后的静态MoE模型转化为高效的动态模型。 表明许多MoE token不需要真正的专家,只需要允许跳过它们。 这听起来像是一个小小的路由技巧,但它改变了部署语言模型的经济性。 标准的MoE模型已经避免了使用每一个参数,但它们仍然在每个token上花费相同的专家预算。 ZEDA为路由器添加了一个奇怪的新选项:输出完全为空的专家。 当模型将一个token路由到这些零专家之一时,它并没有让模型变得更笨;而是承认这个token不需要另一个昂贵的变换。 巧妙之处不在于虚拟专家,而在于适应方法。 不是从头重新训练模型,而是将原始MoE作为冻结的教师模型,而新的动态版本学习何时可以安全地跳过工作。 在Qwen3-30B-A3B和GLM-4.7-Flash上,结果大约是移除了半数的专家计算,平均精度仅有轻微损失,实际推理速度提升约20%。 更深层的发现是:计算使用并不简单地跟踪任务难度。 模型在不确定性或师生分歧上升的地方花费了更多专家预算,而结构化代码和数学片段通常需要更少。 这让ZEDA感觉不像剪枝,而更像是对计算不确定性的关注。 ---- 论文链接 – arxiv. org/abs/2605.18643 论文标题:"Post-Trained MoE Can Skip Half Experts via Self-Distillation"
查看原文
查看缓存全文

缓存时间: 2026/05/24 22:37

大型MoE模型可能会将一半的专家算力浪费在几乎不需要专家帮助的token上。

本文中,50%的专家计算被移除,精度几乎无损失。

这使得像Qwen3和GLM这类已训练好的MoE模型,在token过于简单无需专家处理时,会停止调用一半的专家。

零专家自蒸馏适应(ZEDA),一个低成本框架,能将训练后的静态MoE模型转化为高效的动态模型。

研究表明,许多MoE token实际上并不需要真正的专家,只需要获得跳过它们的权限。

这听起来像是一个小小的路由技巧,但它改变了部署语言模型的经济性。

标准的MoE模型虽然已经避免了使用每个参数,但它们仍然对每个token花费相同的专家预算。

ZEDA为路由器添加了一个奇怪的新选项:输出完全为空的专家。

当模型将token路由到这些零专家之一时,并不会让模型变得更笨;而是承认这个token不需要另一个昂贵的变换。

巧妙之处并非在于这个虚拟专家,而在于适应方法。

无需从头重新训练模型,原始MoE成为冻结的教师,而新的动态版本则学习何时可以安全地跳过计算。

在Qwen3-30B-A3B和GLM-4.7-Flash上,结果大约是移除了一半的专家计算,平均精度损失极小,实际推理速度提升约20%。

更深层的发现是:计算量并非简单跟随任务难度。

模型在不确定性或师生分歧较高时花费更多专家预算,而结构化的代码和数学片段通常需要更少。

这使得ZEDA感觉更像是对计算不确定性的关注,而非简单的剪枝。


论文链接 – arxiv.org/abs/2605.18643

论文标题:《Post-Trained MoE Can Skip Half Experts via Self-Distillation》

相似文章

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏

Hugging Face Daily Papers

本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。