@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

X AI KOLs Timeline 2026/05/24 18:43 论文

摘要

一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法，允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算，而精度损失极小，通过添加输出为空的虚拟专家，实现约20%的推理加速。

一个大MoE模型可能浪费了一半的专家计算资源在那些几乎不需要专家帮助的token上。本文中，移除了50%的专家计算，而精度几乎没有损失。这使得已经训练好的MoE模型（如Qwen3和GLM）在token太简单而不需要专家时，停止调用一半的专家。 Zero-Expert Self-Distillation Adaptation (ZEDA)，一个低成本框架，将训练后的静态MoE模型转化为高效的动态模型。表明许多MoE token不需要真正的专家，只需要允许跳过它们。这听起来像是一个小小的路由技巧，但它改变了部署语言模型的经济性。标准的MoE模型已经避免了使用每一个参数，但它们仍然在每个token上花费相同的专家预算。 ZEDA为路由器添加了一个奇怪的新选项：输出完全为空的专家。当模型将一个token路由到这些零专家之一时，它并没有让模型变得更笨；而是承认这个token不需要另一个昂贵的变换。巧妙之处不在于虚拟专家，而在于适应方法。不是从头重新训练模型，而是将原始MoE作为冻结的教师模型，而新的动态版本学习何时可以安全地跳过工作。在Qwen3-30B-A3B和GLM-4.7-Flash上，结果大约是移除了半数的专家计算，平均精度仅有轻微损失，实际推理速度提升约20%。更深层的发现是：计算使用并不简单地跟踪任务难度。模型在不确定性或师生分歧上升的地方花费了更多专家预算，而结构化代码和数学片段通常需要更少。这让ZEDA感觉不像剪枝，而更像是对计算不确定性的关注。 ---- 论文链接 – arxiv. org/abs/2605.18643 论文标题："Post-Trained MoE Can Skip Half Experts via Self-Distillation"

查看原文

查看缓存全文

缓存时间: 2026/05/24 22:37

大型MoE模型可能会将一半的专家算力浪费在几乎不需要专家帮助的token上。

本文中，50%的专家计算被移除，精度几乎无损失。

这使得像Qwen3和GLM这类已训练好的MoE模型，在token过于简单无需专家处理时，会停止调用一半的专家。

零专家自蒸馏适应（ZEDA），一个低成本框架，能将训练后的静态MoE模型转化为高效的动态模型。

研究表明，许多MoE token实际上并不需要真正的专家，只需要获得跳过它们的权限。

这听起来像是一个小小的路由技巧，但它改变了部署语言模型的经济性。

标准的MoE模型虽然已经避免了使用每个参数，但它们仍然对每个token花费相同的专家预算。

ZEDA为路由器添加了一个奇怪的新选项：输出完全为空的专家。

当模型将token路由到这些零专家之一时，并不会让模型变得更笨；而是承认这个token不需要另一个昂贵的变换。

巧妙之处并非在于这个虚拟专家，而在于适应方法。

无需从头重新训练模型，原始MoE成为冻结的教师，而新的动态版本则学习何时可以安全地跳过计算。

在Qwen3-30B-A3B和GLM-4.7-Flash上，结果大约是移除了一半的专家计算，平均精度损失极小，实际推理速度提升约20%。

更深层的发现是：计算量并非简单跟随任务难度。

模型在不确定性或师生分歧较高时花费更多专家预算，而结构化的代码和数学片段通常需要更少。

这使得ZEDA感觉更像是对计算不确定性的关注，而非简单的剪枝。

论文链接 – arxiv.org/abs/2605.18643

论文标题：《Post-Trained MoE Can Skip Half Experts via Self-Distillation》

相似文章

通过自蒸馏，后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架，通过注入零输出专家并使用自蒸馏，将后训练的静态MoE模型转换为动态模型，在基准测试中实现了超过50%的专家FLOP减少，且精度损失极小。

@FinanceYF5: MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”，最高跳过约 50% 专…

X AI KOLs Following

论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上，提出的ZEDA方法让模型学会跳过这些计算，最高节省一半专家计算。

@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

相似文章

通过自蒸馏，后训练MoE可跳过一半专家

@FinanceYF5: MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”，最高跳过约 50% 专…

SlimQwen：探索大规模MoE模型预训练中的剪枝与蒸馏

少即是MoE：裁剪领域专用语言模型中的专家

XPERT：通过专家知识迁移实现语言模型的高效训练

提交意见反馈