@FinanceYF5: MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”,最高跳过约 50% 专…

X AI KOLs Following 论文

摘要

论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上,提出的ZEDA方法让模型学会跳过这些计算,最高节省一半专家计算。

🧵MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上 1/ ⚡️一半专家白忙了 MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”,最高跳过约 50% 专家计算。👇 https://t.co/5vtoJ8Gcq3
查看原文
查看缓存全文

缓存时间: 2026/05/25 04:30

🧵MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上

1/ ⚡️一半专家白忙了

MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。

ZEDA 让模型学会“该省就省”,最高跳过约 50% 专家计算。👇 https://t.co/5vtoJ8Gcq3

MoE large models may have half of their expert computations actually spent on tokens that don’t need experts at all

1/ Half of the experts are working in vain

MoE models already seem quite compute-efficient, but research papers have found: many tokens don’t need expert processing at all.

ZEDA teaches the model to “save where it should,” skipping up to about 50% of expert computations at most.

2/ 问题不是参数多

传统 MoE 每个 token 都会调用固定数量的专家。

哪怕只是“你好”“今天”这种简单 token,也可能照样走一遍昂贵专家计算。

3/ ZEDA 加了空气专家

ZEDA 给路由器加了一类 zero expert。

它们什么都不做,输出永远是 0,相当于告诉模型:这个 token 可以跳过专家。

4/ 不是重训,是自蒸馏

原始 MoE 被冻结成 Teacher。

新模型作为 Student,学习什么时候少叫专家也能接近老师输出,从而低成本改造成动态 MoE。

5/ 结果很直接

在 Qwen3-30B-A3B 和 GLM-4.7-Flash 上,ZEDA 大约减少 50% 专家计算。

平均精度只小幅下降,真实推理速度提升约 20%。

6/ 关键是“不确定性”

模型不是简单按任务难度分配算力。

当 teacher-student 分歧变大,它会多用专家;当 token 很确定,就少用专家。

7/ 这不是剪枝

ZEDA 更像让 MoE 有了“算力预算意识”。

未来模型不只决定回答什么,还会决定每个 token 值不值得认真思考。

Paper: Post-Trained MoE Can Skip Half Experts via Self-Distillation

以上就是全部

如果您喜欢这个主题:

1.关注我(@FinanceYF5) 2. 点赞+转发下面第一条帖子

相似文章

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。

@vintcessun: 其实大模型上下文窗口越做越大,但成本也跟着飞涨。这篇论文干脆把上下文管理当成了部署优化问题来解,搞了个统一框架叫 Efficiency Frontier。 说白了,他们不再单独看性能或成本,而是联合建模任务表现、token 开销和预处理复…

X AI KOLs Timeline

这篇论文提出了一个名为 Efficiency Frontier 的统一框架,将大模型上下文管理视为部署优化问题,联合建模任务表现、token 开销和预处理复用。在 5000 个 HotpotQA 实例上,部署优化可节省 25% 的 token 量,而记忆压缩在高精度场景下比全上下文便宜一半以上。