@FinanceYF5: MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”，最高跳过约 50% 专…

X AI KOLs Following 2026/05/25 03:36 论文

mixture-of-experts efficiency token-skipping zeda large-language-models model-optimization

摘要

论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上，提出的ZEDA方法让模型学会跳过这些计算，最高节省一半专家计算。

🧵MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上 1/ ⚡️一半专家白忙了 MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”，最高跳过约 50% 专家计算。👇 https://t.co/5vtoJ8Gcq3

查看原文

查看缓存全文

缓存时间: 2026/05/25 04:30

🧵MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上

1/ ⚡️一半专家白忙了

MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。

ZEDA 让模型学会“该省就省”，最高跳过约 50% 专家计算。👇 https://t.co/5vtoJ8Gcq3

MoE large models may have half of their expert computations actually spent on tokens that don’t need experts at all

1/ Half of the experts are working in vain

MoE models already seem quite compute-efficient, but research papers have found: many tokens don’t need expert processing at all.

ZEDA teaches the model to “save where it should,” skipping up to about 50% of expert computations at most.

2/ 问题不是参数多

传统 MoE 每个 token 都会调用固定数量的专家。

哪怕只是“你好”“今天”这种简单 token，也可能照样走一遍昂贵专家计算。

3/ ZEDA 加了空气专家

ZEDA 给路由器加了一类 zero expert。

它们什么都不做，输出永远是 0，相当于告诉模型：这个 token 可以跳过专家。

4/ 不是重训，是自蒸馏

原始 MoE 被冻结成 Teacher。

新模型作为 Student，学习什么时候少叫专家也能接近老师输出，从而低成本改造成动态 MoE。

5/ 结果很直接

在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上，ZEDA 大约减少 50% 专家计算。

平均精度只小幅下降，真实推理速度提升约 20%。

6/ 关键是“不确定性”

模型不是简单按任务难度分配算力。

当 teacher-student 分歧变大，它会多用专家；当 token 很确定，就少用专家。

7/ 这不是剪枝

ZEDA 更像让 MoE 有了“算力预算意识”。

未来模型不只决定回答什么，还会决定每个 token 值不值得认真思考。

Paper: Post-Trained MoE Can Skip Half Experts via Self-Distillation

以上就是全部

如果您喜欢这个主题：

1.关注我（@FinanceYF5） 2. 点赞+转发下面第一条帖子

@FinanceYF5: MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”，最高跳过约 50% 专…

相似文章

@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

通过自蒸馏，后训练MoE可跳过一半专家

@0x0SojalSec: 最终观点：腾讯最近发布了一个295B参数的模型，每个token仅激活21B参数。而大多数实验室仍在……

少即是MoE：裁剪领域专用语言模型中的专家

除了更快之外，MoE 模型的意义何在？

提交意见反馈