@FinanceYF5: MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”,最高跳过约 50% 专…
摘要
论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上,提出的ZEDA方法让模型学会跳过这些计算,最高节省一半专家计算。
查看缓存全文
缓存时间: 2026/05/25 04:30
🧵MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上
1/ ⚡️一半专家白忙了
MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。
ZEDA 让模型学会“该省就省”,最高跳过约 50% 专家计算。👇 https://t.co/5vtoJ8Gcq3
MoE large models may have half of their expert computations actually spent on tokens that don’t need experts at all
1/ Half of the experts are working in vain
MoE models already seem quite compute-efficient, but research papers have found: many tokens don’t need expert processing at all.
ZEDA teaches the model to “save where it should,” skipping up to about 50% of expert computations at most.
2/ 问题不是参数多
传统 MoE 每个 token 都会调用固定数量的专家。
哪怕只是“你好”“今天”这种简单 token,也可能照样走一遍昂贵专家计算。
3/ ZEDA 加了空气专家
ZEDA 给路由器加了一类 zero expert。
它们什么都不做,输出永远是 0,相当于告诉模型:这个 token 可以跳过专家。
4/ 不是重训,是自蒸馏
原始 MoE 被冻结成 Teacher。
新模型作为 Student,学习什么时候少叫专家也能接近老师输出,从而低成本改造成动态 MoE。
5/ 结果很直接
在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上,ZEDA 大约减少 50% 专家计算。
平均精度只小幅下降,真实推理速度提升约 20%。
6/ 关键是“不确定性”
模型不是简单按任务难度分配算力。
当 teacher-student 分歧变大,它会多用专家;当 token 很确定,就少用专家。
7/ 这不是剪枝
ZEDA 更像让 MoE 有了“算力预算意识”。
未来模型不只决定回答什么,还会决定每个 token 值不值得认真思考。
Paper: Post-Trained MoE Can Skip Half Experts via Self-Distillation
以上就是全部
如果您喜欢这个主题:
1.关注我(@FinanceYF5) 2. 点赞+转发下面第一条帖子
相似文章
@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…
一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。
通过自蒸馏,后训练MoE可跳过一半专家
ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。
少即是MoE:裁剪领域专用语言模型中的专家
本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。
除了更快之外,MoE 模型的意义何在?
讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。
@vintcessun: 其实大模型上下文窗口越做越大,但成本也跟着飞涨。这篇论文干脆把上下文管理当成了部署优化问题来解,搞了个统一框架叫 Efficiency Frontier。 说白了,他们不再单独看性能或成本,而是联合建模任务表现、token 开销和预处理复…
这篇论文提出了一个名为 Efficiency Frontier 的统一框架,将大模型上下文管理视为部署优化问题,联合建模任务表现、token 开销和预处理复用。在 5000 个 HotpotQA 实例上,部署优化可节省 25% 的 token 量,而记忆压缩在高精度场景下比全上下文便宜一半以上。