标签
dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。