block-routing

标签

Cards List
#block-routing

dMoE: 具有可学习块专家的扩散大语言模型

arXiv cs.CL · 4天前 缓存

dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈