MuCon: Clipped Muon Updates for LLM Training
摘要
本文介绍了MuCon,一种用于大语言模型训练的裁剪Muon优化器,它应用奇异值裁剪而非完全极化,保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法,包括极坐标/绝对值公式和有理牛顿滤波器,并指出了阈值附近的数值挑战。
arXiv:2605.26459v1 公告类型:新 \n 摘要:Muon风格的优化器取一个矩阵值动量或预处理更新 $B = U \operatorname{diag}(\sigma_1,\ldots,\sigma_r) V^\top$ 并将其替换为其规范部分极因子 $\operatorname{Pol}(B) = U V^\top$。这将每个非零奇异值映射为1。MuCon是本文研究的裁剪-Muon变体:它对相同的Muon矩阵应用奇异值裁剪,$D^{\mathrm{MuCon}}\_\tau(B) = \operatorname{MClip}\_\tau(B) = U \operatorname{diag}\bigl(\min\{\sigma\_i,\tau\}\bigr) V^\top, \qquad \tau > 0$。因此,$\operatorname{MClip}\_\tau$ 表示数学裁剪算子,而MuCon表示优化器原语,它用这个裁剪方向替换Muon的极坐标方向。本文中使用的Muon/MuCon缩放参数化称为$\text{SpectralP}$:它是一种隐藏矩阵缩放策略,在此策略下应用极坐标Muon或裁剪MuCon方向。映射$\operatorname{MClip}\_\tau$是到谱范数球$\{X : \|X\|_2 \le \tau\}$的Frobenius投影:它将低于或等于$\tau$的奇异值保持不变,仅修改违反的奇异方向。本文探讨何时可以在没有完全密集SVD的情况下近似MuCon裁剪步骤。我们记录了两个精确恒等式,一个极坐标/绝对值公式和一个标量根公式,由此引出用于裁剪半正定因子的有理牛顿滤波器,并指出两者的共同数值障碍:阈值附近的奇异值使符号判决和有理求解变得病态。因此,矩阵函数方法仅在配备稳定的极/平方根原语或裁剪边界附近的显式正则化时才有用。
查看缓存全文
缓存时间: 2026/05/27 09:11
# MuCon:用于LLM训练的裁剪Muon更新 来源:https://arxiv.org/html/2605.26459 \(2026年5月8日\)
###### 摘要
Muon风格的优化器会取一个矩阵值动量或预处理更新 \(B=U\{\rm diag\}(\sigma_{1},\dots,\sigma_{r})V^{\top}\),并用其规范部分极因子 \(\operatorname{Polar}(B)=UV^{\top}\) 替换它。这意味着将每个非零奇异值映射为1。MuCon 是本文研究的裁剪版Muon变体:它对同一个Muon矩阵应用奇异值裁剪,即 \(D^{\mathrm{MuCon}}_{\tau}(B)=\operatorname{MClip}_{\tau}(B)=U{\rm diag}(\min\{\sigma_{i},\tau\})V^{\top},\qquad\tau>0\)。因此,\(\operatorname{MClip}_{\tau}\) 表示数学裁剪算子,而 MuCon 表示用这个裁剪方向替换Muon极方向的优化器原语。本文中使用的Muon/MuCon缩放参数化称为SpectralP:它是一种隐藏矩阵缩放方案,用于应用极Muon或裁剪MuCon方向。映射 \(\operatorname{MClip}_{\tau}\) 是半径为 \(\tau\) 的谱范数球上的Frobenius投影:它保留奇异值小于等于 \(\tau\) 的部分,只修改违反的奇异方向。本文探讨何时可以在无需完整稠密SVD的情况下近似MuCon裁剪步骤。我们记录了两个精确恒等式:一个极/绝对值公式和一个标量根公式,后者引出了一个用于裁剪正半定因子的有理Newton滤波器,并指出了两者共同面临的数值障碍:阈值附近的奇异值会使符号决策和有理求解变得病态。因此,矩阵函数方法只有在与稳定的极/平方根本原语配合使用,或在裁剪边界附近进行显式正则化时才有用。
## 1 引言
许多优化器设计通过谱变换来修改矩阵值更新。一个众所周知的例子是Muon风格的正交化。如果 \(B_t=U\Sigma V^{\top}\) 是传递给Muon矩阵步骤的矩阵值动量或预处理更新的紧凑SVD,那么本报告中的数学目标是规范部分极因子 \(D_t^{\mathrm{Muon}}=\operatorname{Polar}(B_t)=UV^{\top}\)。对于秩亏矩阵,\(\operatorname{Polar}\) 指的是这种通过SVD定义的部分等距,而不是任意正交补。在实现中,它通常由Newton-Schulz迭代近似。这个操作是激进的:每个非零奇异值都被替换为1。本报告研究更有选择性的映射:
\[\operatorname{MClip}_{\tau}(M)=U{\rm diag}(\min\{\sigma_i,\tau\})V^{\top},\qquad M=U{\rm diag}(\sigma_i)V^{\top},\]
因此 \(\sigma_i(\operatorname{MClip}_{\tau}(M))=\min\{\sigma_i(M),\tau\}\)。默认阈值为 \(\tau=1\),当未显示阈值时,我们写作 \(\operatorname{MClip}(M)=\operatorname{MClip}_{1}(M)\)。裁剪保留所有小于等于 \(\tau\) 的奇异值,仅修改违反的方向。当这个映射替代Muon极步骤作用于Muon矩阵 \(B_t\) 时,得到的裁剪Muon更新为:
\[D_t^{\mathrm{MuCon}}=\operatorname{MClip}_{\tau_t}(B_t),\qquad D_t^{\mathrm{Muon}}=\operatorname{Polar}(B_t).\]
全文一致地,\(\operatorname{MClip}_{\tau}\) 表示数学裁剪算子,而MuCon表示在Muon更新流水线中应用该算子的优化器原语。另外,SpectralP 表示本文中用于Muon/MuCon隐藏矩阵组的缩放参数化;它不是一个新的裁剪映射。算子 \(\operatorname{MClip}_{\tau}\) 恰好是谱范数球 \(\mathcal{B}_{2}(\tau)=\{X\in\mathbb{R}^{m\times n}:\|X\|_{2}\leq\tau\}\) 上的Frobenius投影:
\[\operatorname{MClip}_{\tau}(M)=\mathop{\mathrm{argmin}}_{X\in\mathcal{B}_{2}(\tau)}\frac{1}{2}\|X-M\|_{F}^{2}.\]
精确算法很简单:计算SVD,裁剪奇异值,重构矩阵。其稠密成本 \(O(mn\min(m,n))\) 通常太高,不适合在优化器内部重复使用;关于稠密矩阵分解的标准背景知识,参见 Golub and Van Loan (2013) (https://arxiv.org/html/2605.26459#bib.bib11)。因此,核心数值问题是:
> MuCon裁剪步骤能否在避免完整稠密SVD的前提下,为优化器使用提供足够精确的近似?
一个关键的结构恒等式已经指明了正确的分界域。令 \(\mathcal{I}_{>}=\{i:\sigma_i(M)>\tau\},\qquad k_{>}=|\mathcal{I}_{>}|\)。那么
\[\operatorname{MClip}_{\tau}(M)=M-U_{>}{\rm diag}\bigl((\sigma_i-\tau)_{i\in\mathcal{I}_{>}}\bigr)V_{>}^{\top},\]
其中 \(U_{>}, V_{>}\) 只包含奇异值超过 \(\tau\) 的奇异向量。因此,裁剪是对 \(M\) 的一个秩为 \(k_{>}\) 的修正。当 \(k_{>}\) 较小时,部分SVD、Lanczos方法或随机子空间方法是最有选择性的基线;当 \(k_{>}\) 较大时,全局矩阵函数迭代可能具有竞争力。
##### 贡献。
本报告为 SpectralP MuCon 提供了三个技术要点。第一,它将数学裁剪映射与裁剪Muon优化器原语区分开来,并记录了任何近似都应遵循的投影和低秩修正恒等式。第二,它推导出裁剪的极/绝对值公式,并解释了为什么阈值特征值在数值上是棘手的。第三,它分析了用于裁剪正半定因子的有理Newton迭代,并澄清了它是一个谱滤波器,而不是一个独立的免SVD算法。
## 2 背景:SpectralP 与宽度-深度缩放训练
本项目的动机是同时进行宽度和深度缩放时的超参数迁移。CompleteP 研究了深度Transformer中的联合宽度-深度迁移和非懒惰特征学习 (Dey et al., 2025 (https://arxiv.org/html/2605.26459#bib.bib1))。Spectral \(\mu\mathrm{P}\) 和相关的算子范数视图激励在归一化的谱范数下控制权重和更新 (Yang et al., 2023 (https://arxiv.org/html/2605.26459#bib.bib5); Zheng et al., 2026 (https://arxiv.org/html/2605.26459#bib.bib2))。在本报告中,由此产生的Muon和MuCon隐藏矩阵缩放参数化称为 SpectralP。SpectralP 将隐藏的二维矩阵组分配给谱更新类,而标量、向量、嵌入和解嵌入组仍然是AdamW伴随组。两种观点都指向同一个数值需求:矩阵更新应具有受控的谱,而不需要在每个优化器步骤中进行昂贵的分解。
### 2.1 超参数迁移与最大更新参数化
大模型训练中的一个核心实际问题是超参数迁移。理想情况下,我们可以在小模型上调整学习率、初始化尺度和权重衰减等超参数,然后将它们迁移到更大的模型。如果相同的基超参数在缩放后仍然接近最优,就可以实现“小调大训”策略。最大更新参数化,即 \(\mu\mathrm{P}\),正是为了实现宽度缩放下的这种可能性而引入的 (Yang and Hu, 2021 (https://arxiv.org/html/2605.26459#bib.bib3); Yang et al., 2022 (https://arxiv.org/html/2605.26459#bib.bib4))。在其最简单形式中,\(\mu\mathrm{P}\) 旨在随着宽度 \(N\) 的增长保持非平凡的特征学习。如果 \(h_{\ell}(x)\in\mathbb{R}^{d_{\ell}}\) 是第 \(\ell\) 层的隐藏表示,那么不变尺度是按坐标的,或等效地按RMS归一化:
\[\|h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}=\Theta(1),\qquad \|\Delta h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}=\Theta(1),\qquad \|a\|_{\mathrm{R},d}:=\frac{\|a\|_{2}}{\sqrt{d}}.\]
因此,参数化应避免懒惰动力学 \(\|\Delta h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}\to 0\),以及不稳定的动力学 \(\|\Delta h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}\to\infty\)。对于仅宽度缩放,典型的隐藏矩阵AdamW学习率规则形式为
\[\eta_{\mathrm{hidden}}=\eta_{\mathrm{base}}m_{N}^{-1},\qquad m_{N}=\frac{N}{N_{\mathrm{base}}}.\]
确切的指数取决于优化器和参数化,但原理是矩阵更新必须重新缩放,以便它们引起的特征移动保持阶为一。现代基础模型不仅在宽度上缩放;它们也变得更深入。因此,一个有用的参数化应在 \(N\to\infty, L\to\infty\) 时保持迁移,其中 \(L\) 是残差块的数量。
### 2.2 CompleteP:用于深度Transformer的残差缩放
CompleteP 研究了预LN解码器专用Transformer语言模型的联合宽度-深度缩放 (Dey et al., 2025 (https://arxiv.org/html/2605.26459#bib.bib1))。其出发点是残差递归:
\[h_{\ell+1}=h_{\ell}+L^{-\alpha}F_{\ell}(h_{\ell}),\qquad \ell=1,\dots,L,\]
其中 \(F_{\ell}\) 是一个残差块,例如注意力或MLP块。指数 \(\alpha\in[1/2,1]\) 控制每个残差分支的深度缩放。两个最重要的情形是 \(\alpha=\frac{1}{2}\) 和 \(\alpha=1\)。选择 \(\alpha=1/2\) 是从初始化稳定性出发很自然的。如果残差增量大致独立且大小相当,那么累积的残差方差缩放为 \(\sum_{\ell=1}^{L}L^{-2\alpha}=L^{1-2\alpha}\)。因此,避免方差爆炸需要 \(\alpha\geq\frac{1}{2}\)。CompleteP 认为初始化稳定性是不够的。它主张更强的缩放,使得 \(h_{\ell+1}=h_{\ell}+L^{-1}F_{\ell}(h_{\ell})\)。在实际缩放实验中,我们记 \(m_{N}=\frac{N}{N_{\mathrm{base}}},\quad m_{L}=\frac{L}{L_{\mathrm{base}}}\),并使用 \(h_{\ell+1}=h_{\ell}+m_{L}^{-1}F_{\ell}(h_{\ell})\)。
#### 2.2.1 CompleteP中的AdamW缩放
CompleteP 不仅仅是残差乘子。它还规定了模型和优化器超参数应如何随 \(m_N\) 和 \(m_L\) 缩放。对于隐藏矩阵权重,初始化方差遵循宽度-\(\mu\mathrm{P}\) 规则 \(\operatorname{Var}(W_{\mathrm{hidden}})=\sigma_{\mathrm{base}}^{2}m_{N}^{-1}\)。对于AdamW隐藏矩阵更新,CompleteP 总结的学习率规则为
\[\eta_{\mathrm{hidden}}^{\mathrm{AdamW}}=\eta_{\mathrm{base}}m_{N}^{-1}m_{L}^{\alpha-1}.\]
因此,在 \(\alpha=1\) 的CompleteP下,\(\eta_{\mathrm{hidden}}^{\mathrm{AdamW}}=\eta_{\mathrm{base}}m_{N}^{-1}\)。隐藏矩阵学习率随宽度缩放,但不随深度缩放。LayerNorm和偏置学习率缩放为 \(\eta_{\mathrm{LN}}=\eta_{\mathrm{base}}m_{L}^{\alpha-1},\quad \eta_{\mathrm{bias}}=\eta_{\mathrm{base}}m_{L}^{\alpha-1}\)。因此,在CompleteP下,\(\eta_{\mathrm{LN}}=\eta_{\mathrm{bias}}=\eta_{\mathrm{base}}\)。
CompleteP 还按参数组缩放隐藏权重衰减和AdamW的数值 \(\varepsilon\) 参数:
\[\lambda_{\mathrm{hidden}}=\lambda_{\mathrm{base}}m_{N}.\]
对于纯CompleteP AdamW参数化,AdamW \(\varepsilon\) 缩放与参数组相关。对于一般的残差指数 \(\alpha\),隐藏块AdamW组使用
\[\varepsilon_{\mathrm{hidden/residual}}=\varepsilon_{\mathrm{base}}m_{N}^{-1}m_{L}^{-\alpha}.\]
这个CompleteP隐藏/残差组包括隐藏矩阵AdamW组、隐藏块LayerNorm参数、隐藏块偏置以及其他隐藏向量参数。在 \(\alpha=1\) 的CompleteP下,这变为 \(\varepsilon_{\mathrm{hidden/residual}}=\varepsilon_{\mathrm{base}}m_{N}^{-1}m_{L}^{-1}\)。CompleteP的嵌入/解嵌入参数和最后的LayerNorm则使用 \(\varepsilon_{\mathrm{emb/unemb}}=\varepsilon_{\text{final LN}}=\varepsilon_{\mathrm{base}}m_{N}^{-1}\)。
在 SpectralP 中,相同的AdamW \(\varepsilon\) 规则适用于AdamW伴随组:隐藏块LayerNorm、偏置和向量伴随组使用CompleteP隐藏/残差 \(\varepsilon\),而嵌入/解嵌入和最终LayerNorm伴随组使用CompleteP嵌入/解嵌入 \(\varepsilon\)。SpectralP Muon/MuCon隐藏矩阵组本身不使用AdamW \(\varepsilon\)。偏置和LayerNorm增益在LLM实现中通常被分配零解耦权重衰减。如果它们被衰减,其系数应被视为一个独立的向量参数超参数。
#### 2.2.2 完整特征学习
CompleteP 还强调*完整特征学习*:一个好的宽度-深度参数化不应仅仅保持激活稳定,还应防止网络在 \(N,L\to\infty\) 时变得在初始化附近有效线性化。令 \(h(\theta)\) 是依赖于参数 \(\theta\) 的表示,令 \(\theta_0\) 为初始化。在 \(\theta_0\) 处 \(h\) 的线性化为
\[h^{\mathrm{lin},\theta}(\theta,\theta_0)=h(\theta_0)+\left\langle\nabla_{\theta}h(\theta_0),\theta-\theta_0\right\rangle.\]
如果表示关于 \(\theta\) 的更新在渐近意义上与该线性化的更新不可区分,即 \(\frac{\left\|\Delta_{\theta}h-\Delta_{\theta}h^{\mathrm{lin},\theta}\right\|}{\left\|\Delta_{\theta}h^{\mathrm{lin},\theta}\right\|}=o(1)\),则称该表示关于 \(\theta\) 是懒惰的。
\(\alpha\) 的作用可以在一个两层残差块中看到:\(h_{\ell+1}=h_{\ell}+L^{-\alpha}W_{\ell}^{(2)}W_{\ell}^{(1)}h_{\ell}\)。在最大更新缩放下,假设 \(\Delta W_{\ell}^{(i)}=\Theta(L^{\alpha-1}),\quad i=1,2\)。那么 \(\Delta h_{\ell+1}\) 的一阶贡献大小为 \(\Theta(L^{\alpha-1})\),而二阶贡献大小为 \(\Theta(L^{\alpha-2})\)。因此它们的比率为 \(\Theta(L^{\alpha-1})\)。如果 \(\alpha<1\),这个比率趋近于零;如果 \(\alpha=1\),它保持阶为一。这就是CompleteP选择 \(\alpha=1\) 背后的基本机制。
### 2.3 与 SpectralP MuCon 的相关性
前面的缩放论证激励了对矩阵值更新的谱控制。奇异值裁剪提供了一种基于显式投影的c……(注:原文在“c”处截断,根据上下文,后续可能是关于裁剪优势的论述,但原文并未完整给出。鉴于用户提供的源文本到此为止,翻译也应在此处结束。)相似文章
Muon优化器的谱缩放定律
本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。
SignMuon: 通信高效的分布式Muon优化
SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。
超越预训练重新思考Muon:VLA与RLVR的频谱失效与高通补救措施
本文介绍了Pion,一种新的优化器,它用高通NS迭代取代了Muon的频谱白化,以稳定低秩和低信噪比(low-SNR)条件下的训练,从而在VLA和RLVR任务中实现了更优的性能。
Gram Newton-Schulz:一种用于Muon的快速、硬件感知的牛顿-舒尔茨算法
本文介绍了Gram Newton-Schulz,这是对Muon优化器中使用的牛顿-舒尔茨正交化过程的一种硬件感知优化,能够在保持模型质量的同时显著加速大型语言模型的训练。
Muon为何超越Adam:曲率视角
本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。