如何扩展混合专家模型:从muP到最大化尺度稳定参数化
摘要
本文为混合专家(MoE)架构提出了一套具有理论基础的缩放理论,引入了最大化尺度稳定参数化(MSSP),确保在宽度、深度、专家宽度和专家数量上的稳定训练和超参数迁移,并通过实验验证。
arXiv:2605.14200v1 公告类型:新
摘要:近期前沿大型语言模型主要依赖混合专家(MoE)架构。尽管实证取得了进展,但对于超参数应如何随网络宽度$N$、专家宽度$N_e$、专家数量$M$、稀疏度$K$和深度$L$缩放,以在扩展时同时保证稳定性和最优性能,仍缺乏原理性理解。我们通过分析三种不同的缩放机制,朝着解决这一差距迈出了原则性一步:(I)共缩放$N\asymp N_e$,(II)共缩放$N\asymp M\asymp K$,(III)$N, N_e, M, K$的全比例缩放。针对每种机制,我们提出了MoE极限训练动力学的新颖动态平均场理论(DMFT)描述,为分析提供了形式基础。在此框架内,我们推导了满足所有最大更新($\mu$)要求的SGD和Adam的唯一参数化。然后我们表明,由此产生的$\mu$P方案无法可靠地实现随规模的单调改进或鲁棒的学习率迁移。我们将这些病理归因于聚合动力学中的尺度依赖可观测变量,这激发了一组改进的要求,我们称之为最大尺度稳定性。在此原则指导下,我们为所有三种缩放机制下的SGD和Adam推导了最大化尺度稳定参数化(MSSP),并通过单独的DMFT分析描述了相应的极限动力学——定性地不同于$\mu$P极限。实验验证了MSSP能在各机制中稳健地恢复学习率迁移和随规模的单调改进。结合现有的深度缩放理论,这些结果为MoE架构提供了完整的缩放处方,其函数形式与宽度、深度、专家宽度和专家数量相关。
查看缓存全文
缓存时间: 2026/05/15 06:27
# 如何扩展混合专家模型:从 μP 到最大尺度稳定参数化 来源:https://arxiv.org/abs/2605.14200 查看PDF (https://arxiv.org/pdf/2605.14200) > **摘要:** 当前前沿的大语言模型主要依赖于混合专家(MoE)架构。尽管经验上取得了进展,但对于超参数应如何随网络宽度 $N$、专家宽度 $N_e$、专家数量 $M$、稀疏度 $K$ 和深度 $L$ 进行缩放,目前仍缺乏原理性的理解,以确保大规模下的稳定性和最优性能。我们通过分析三种不同的缩放机制,朝着解决这一差距迈出了原理性的一步:(I)共缩放 $N\asymp N_e$,(II)共缩放 $N\asymp M\asymp K$,以及(III)$N、N_e、M$ 和 $K$ 的完全比例缩放。针对每种机制,我们开发了一种新的动态平均场理论(DMFT)描述,用于刻画 MoE 的训练动力学极限,为我们的分析提供了形式化基础。在此框架内,我们推导出满足所有最大化更新($\mu$)需求的 SGD 和 Adam 的唯一参数化。然后我们表明,由此产生的 $\mu$P 处方并不能可靠地诱导随规模的单调改进或稳健的学习率迁移。我们将这些病理追溯到聚合动力学中的尺度相关可观测值,这激发了一组精炼的需求,我们将其称为最大尺度稳定性。受这一原则指导,我们为 SGD 和 Adam 在所有三种缩放机制下推导出最大尺度稳定参数化(MSSP),并通过单独的 DMFT 分析刻画了相应的极限动力学——这在性质上不同于 $\mu$P 极限。实验验证表明,MSSP 能在不同机制下稳健地恢复学习率迁移和随规模的单调改进。结合已有的深度缩放理论,这些结果为 MoE 架构提供了一套完整的缩放处方,涵盖了宽度、深度、专家宽度和专家数量的缩放。 ## 提交历史 来自:Leena Chennuru Vankadara \[查看邮件 (https://arxiv.org/show-email/7eb074a5/2605.14200)\] **\[v1\]** 2026年5月13日星期三 23:32 UTC (32,556 KB)
相似文章
除了更快之外,MoE 模型的意义何在?
讨论混合专家(MoE)模型在速度之外相对于密集模型的优势,考虑内存限制和扩展限制。
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。
UniPool:一种用于混合专家模型的全球共享专家池
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
MoE模型中活跃参数数量是否有上限?
关于混合专家(MoE)模型中活跃参数数量限制的讨论,质疑是否存在一个活跃参数数量的上限,超过该上限后质量不再提升。
混合专家模型中的涌现式模块化(8 分钟阅读)
Ai2 发布了 EMO,一个 14B 参数的混合专家语言模型,训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家,同时保持接近全模型性能。