MoE模型中活跃参数数量是否有上限？

Reddit r/LocalLLaMA 2026/05/14 17:26 新闻

摘要

关于混合专家（MoE）模型中活跃参数数量限制的讨论，质疑是否存在一个活跃参数数量的上限，超过该上限后质量不再提升。

你好。我们最近见到了一些总参数量达到1T和1.6T的MoE模型。我原本对总参数与活跃参数比例的预期大约是10:1，这样我们可以在更小、'真正本地化'的模型中节省资源。然而，这些新的巨型模型相对于其规模，活跃参数数量要小得多（大约40B？）。这让我思考。是采用了新的架构吗？还是说超过一定数量后增加活跃参数就没有意义了？我们会不会永远看不到像2T/A200B这样的MoE模型？MoE模型中是否存在一个上限，超过这个上限后增加活跃参数不会改善结果质量？谢谢

查看原文

MoE模型中活跃参数数量是否有上限？

相似文章

除了更快之外，MoE 模型的意义何在？

如何扩展混合专家模型：从muP到最大化尺度稳定参数化

混合专家模型中的涌现式模块化（8 分钟阅读）

MobileMoE：扩展端侧混合专家模型

Transformer 中的专家混合模型 (MoEs)

提交意见反馈