block-routing

#block-routing

dMoE: 具有可学习块专家的扩散大语言模型

arXiv cs.CL ↗ · 4天前缓存

dMoE 提出了用于扩散大语言模型的块级专家路由，将唯一激活的专家数量从 69.5 降至 14.6，同时保留了 99.11% 的性能，并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。

0 人收藏 0 人点赞