zero-expert

标签

Cards List
#zero-expert

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers · 2026-05-18 缓存

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈