如何扩展混合专家模型：从muP到最大化尺度稳定参数化

arXiv cs.LG 2026/05/15 04:00 论文

摘要

本文为混合专家（MoE）架构提出了一套具有理论基础的缩放理论，引入了最大化尺度稳定参数化（MSSP），确保在宽度、深度、专家宽度和专家数量上的稳定训练和超参数迁移，并通过实验验证。

arXiv:2605.14200v1 公告类型：新摘要：近期前沿大型语言模型主要依赖混合专家（MoE）架构。尽管实证取得了进展，但对于超参数应如何随网络宽度$N$、专家宽度$N_e$、专家数量$M$、稀疏度$K$和深度$L$缩放，以在扩展时同时保证稳定性和最优性能，仍缺乏原理性理解。我们通过分析三种不同的缩放机制，朝着解决这一差距迈出了原则性一步：（I）共缩放$N\asymp N_e$，（II）共缩放$N\asymp M\asymp K$，（III）$N, N_e, M, K$的全比例缩放。针对每种机制，我们提出了MoE极限训练动力学的新颖动态平均场理论（DMFT）描述，为分析提供了形式基础。在此框架内，我们推导了满足所有最大更新（$\mu$）要求的SGD和Adam的唯一参数化。然后我们表明，由此产生的$\mu$P方案无法可靠地实现随规模的单调改进或鲁棒的学习率迁移。我们将这些病理归因于聚合动力学中的尺度依赖可观测变量，这激发了一组改进的要求，我们称之为最大尺度稳定性。在此原则指导下，我们为所有三种缩放机制下的SGD和Adam推导了最大化尺度稳定参数化（MSSP），并通过单独的DMFT分析描述了相应的极限动力学——定性地不同于$\mu$P极限。实验验证了MSSP能在各机制中稳健地恢复学习率迁移和随规模的单调改进。结合现有的深度缩放理论，这些结果为MoE架构提供了完整的缩放处方，其函数形式与宽度、深度、专家宽度和专家数量相关。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:27

# 如何扩展混合专家模型：从 μP 到最大尺度稳定参数化
来源：https://arxiv.org/abs/2605.14200
查看PDF (https://arxiv.org/pdf/2605.14200)

> **摘要：** 当前前沿的大语言模型主要依赖于混合专家（MoE）架构。尽管经验上取得了进展，但对于超参数应如何随网络宽度 $N$、专家宽度 $N_e$、专家数量 $M$、稀疏度 $K$ 和深度 $L$ 进行缩放，目前仍缺乏原理性的理解，以确保大规模下的稳定性和最优性能。我们通过分析三种不同的缩放机制，朝着解决这一差距迈出了原理性的一步：（I）共缩放 $N\asymp N_e$，（II）共缩放 $N\asymp M\asymp K$，以及（III）$N、N_e、M$ 和 $K$ 的完全比例缩放。针对每种机制，我们开发了一种新的动态平均场理论（DMFT）描述，用于刻画 MoE 的训练动力学极限，为我们的分析提供了形式化基础。在此框架内，我们推导出满足所有最大化更新（$\mu$）需求的 SGD 和 Adam 的唯一参数化。然后我们表明，由此产生的 $\mu$P 处方并不能可靠地诱导随规模的单调改进或稳健的学习率迁移。我们将这些病理追溯到聚合动力学中的尺度相关可观测值，这激发了一组精炼的需求，我们将其称为最大尺度稳定性。受这一原则指导，我们为 SGD 和 Adam 在所有三种缩放机制下推导出最大尺度稳定参数化（MSSP），并通过单独的 DMFT 分析刻画了相应的极限动力学——这在性质上不同于 $\mu$P 极限。实验验证表明，MSSP 能在不同机制下稳健地恢复学习率迁移和随规模的单调改进。结合已有的深度缩放理论，这些结果为 MoE 架构提供了一套完整的缩放处方，涵盖了宽度、深度、专家宽度和专家数量的缩放。

## 提交历史

来自：Leena Chennuru Vankadara \[查看邮件 (https://arxiv.org/show-email/7eb074a5/2605.14200)\] **\[v1\]** 2026年5月13日星期三 23:32 UTC (32,556 KB)

如何扩展混合专家模型：从muP到最大化尺度稳定参数化

相似文章

除了更快之外，MoE 模型的意义何在？

Transformer 中的专家混合模型 (MoEs)

UniPool：一种用于混合专家模型的全球共享专家池

MoE模型中活跃参数数量是否有上限？

混合专家模型中的涌现式模块化（8 分钟阅读）

提交意见反馈