MoE模型中活跃参数数量是否有上限?

Reddit r/LocalLLaMA 新闻

摘要

关于混合专家(MoE)模型中活跃参数数量限制的讨论,质疑是否存在一个活跃参数数量的上限,超过该上限后质量不再提升。

你好。我们最近见到了一些总参数量达到1T和1.6T的MoE模型。我原本对总参数与活跃参数比例的预期大约是10:1,这样我们可以在更小、'真正本地化'的模型中节省资源。然而,这些新的巨型模型相对于其规模,活跃参数数量要小得多(大约40B?)。这让我思考。是采用了新的架构吗?还是说超过一定数量后增加活跃参数就没有意义了?我们会不会永远看不到像2T/A200B这样的MoE模型?MoE模型中是否存在一个上限,超过这个上限后增加活跃参数不会改善结果质量?谢谢
查看原文

相似文章

MobileMoE:扩展端侧混合专家模型

Hugging Face Daily Papers

MobileMoE 引入了高效的端侧混合专家语言模型,参数规模低于十亿,在性能和效率上均优于密集基线模型和现有的 MoE 模型。这些模型在开源数据集上训练,并在商用智能手机上展现出显著的加速效果。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。