MuCon: Clipped Muon Updates for LLM Training

arXiv cs.LG 2026/05/27 04:00 论文

llm-training optimizer muon clipping spectral matrix-functions newton-schulz

摘要

本文介绍了MuCon，一种用于大语言模型训练的裁剪Muon优化器，它应用奇异值裁剪而非完全极化，保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法，包括极坐标/绝对值公式和有理牛顿滤波器，并指出了阈值附近的数值挑战。

arXiv:2605.26459v1 公告类型：新 \n 摘要：Muon风格的优化器取一个矩阵值动量或预处理更新 $B = U \operatorname{diag}(\sigma_1,\ldots,\sigma_r) V^\top$ 并将其替换为其规范部分极因子 $\operatorname{Pol}(B) = U V^\top$。这将每个非零奇异值映射为1。MuCon是本文研究的裁剪-Muon变体：它对相同的Muon矩阵应用奇异值裁剪，$D^{\mathrm{MuCon}}\_\tau(B) = \operatorname{MClip}\_\tau(B) = U \operatorname{diag}\bigl(\min\{\sigma\_i,\tau\}\bigr) V^\top, \qquad \tau > 0$。因此，$\operatorname{MClip}\_\tau$ 表示数学裁剪算子，而MuCon表示优化器原语，它用这个裁剪方向替换Muon的极坐标方向。本文中使用的Muon/MuCon缩放参数化称为$\text{SpectralP}$：它是一种隐藏矩阵缩放策略，在此策略下应用极坐标Muon或裁剪MuCon方向。映射$\operatorname{MClip}\_\tau$是到谱范数球$\{X : \|X\|_2 \le \tau\}$的Frobenius投影：它将低于或等于$\tau$的奇异值保持不变，仅修改违反的奇异方向。本文探讨何时可以在没有完全密集SVD的情况下近似MuCon裁剪步骤。我们记录了两个精确恒等式，一个极坐标/绝对值公式和一个标量根公式，由此引出用于裁剪半正定因子的有理牛顿滤波器，并指出两者的共同数值障碍：阈值附近的奇异值使符号判决和有理求解变得病态。因此，矩阵函数方法仅在配备稳定的极/平方根原语或裁剪边界附近的显式正则化时才有用。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:11

# MuCon：用于LLM训练的裁剪Muon更新 来源：https://arxiv.org/html/2605.26459 \(2026年5月8日\)

###### 摘要

Muon风格的优化器会取一个矩阵值动量或预处理更新 \(B=U\{\rm diag\}(\sigma_{1},\dots,\sigma_{r})V^{\top}\)，并用其规范部分极因子 \(\operatorname{Polar}(B)=UV^{\top}\) 替换它。这意味着将每个非零奇异值映射为1。MuCon 是本文研究的裁剪版Muon变体：它对同一个Muon矩阵应用奇异值裁剪，即 \(D^{\mathrm{MuCon}}_{\tau}(B)=\operatorname{MClip}_{\tau}(B)=U{\rm diag}(\min\{\sigma_{i},\tau\})V^{\top},\qquad\tau>0\)。因此，\(\operatorname{MClip}_{\tau}\) 表示数学裁剪算子，而 MuCon 表示用这个裁剪方向替换Muon极方向的优化器原语。本文中使用的Muon/MuCon缩放参数化称为SpectralP：它是一种隐藏矩阵缩放方案，用于应用极Muon或裁剪MuCon方向。映射 \(\operatorname{MClip}_{\tau}\) 是半径为 \(\tau\) 的谱范数球上的Frobenius投影：它保留奇异值小于等于 \(\tau\) 的部分，只修改违反的奇异方向。本文探讨何时可以在无需完整稠密SVD的情况下近似MuCon裁剪步骤。我们记录了两个精确恒等式：一个极/绝对值公式和一个标量根公式，后者引出了一个用于裁剪正半定因子的有理Newton滤波器，并指出了两者共同面临的数值障碍：阈值附近的奇异值会使符号决策和有理求解变得病态。因此，矩阵函数方法只有在与稳定的极/平方根本原语配合使用，或在裁剪边界附近进行显式正则化时才有用。

## 1 引言

许多优化器设计通过谱变换来修改矩阵值更新。一个众所周知的例子是Muon风格的正交化。如果 \(B_t=U\Sigma V^{\top}\) 是传递给Muon矩阵步骤的矩阵值动量或预处理更新的紧凑SVD，那么本报告中的数学目标是规范部分极因子 \(D_t^{\mathrm{Muon}}=\operatorname{Polar}(B_t)=UV^{\top}\)。对于秩亏矩阵，\(\operatorname{Polar}\) 指的是这种通过SVD定义的部分等距，而不是任意正交补。在实现中，它通常由Newton-Schulz迭代近似。这个操作是激进的：每个非零奇异值都被替换为1。本报告研究更有选择性的映射：

\[\operatorname{MClip}_{\tau}(M)=U{\rm diag}(\min\{\sigma_i,\tau\})V^{\top},\qquad M=U{\rm diag}(\sigma_i)V^{\top},\]

因此 \(\sigma_i(\operatorname{MClip}_{\tau}(M))=\min\{\sigma_i(M),\tau\}\)。默认阈值为 \(\tau=1\)，当未显示阈值时，我们写作 \(\operatorname{MClip}(M)=\operatorname{MClip}_{1}(M)\)。裁剪保留所有小于等于 \(\tau\) 的奇异值，仅修改违反的方向。当这个映射替代Muon极步骤作用于Muon矩阵 \(B_t\) 时，得到的裁剪Muon更新为：

\[D_t^{\mathrm{MuCon}}=\operatorname{MClip}_{\tau_t}(B_t),\qquad D_t^{\mathrm{Muon}}=\operatorname{Polar}(B_t).\]

全文一致地，\(\operatorname{MClip}_{\tau}\) 表示数学裁剪算子，而MuCon表示在Muon更新流水线中应用该算子的优化器原语。另外，SpectralP 表示本文中用于Muon/MuCon隐藏矩阵组的缩放参数化；它不是一个新的裁剪映射。算子 \(\operatorname{MClip}_{\tau}\) 恰好是谱范数球 \(\mathcal{B}_{2}(\tau)=\{X\in\mathbb{R}^{m\times n}:\|X\|_{2}\leq\tau\}\) 上的Frobenius投影：

\[\operatorname{MClip}_{\tau}(M)=\mathop{\mathrm{argmin}}_{X\in\mathcal{B}_{2}(\tau)}\frac{1}{2}\|X-M\|_{F}^{2}.\]

精确算法很简单：计算SVD，裁剪奇异值，重构矩阵。其稠密成本 \(O(mn\min(m,n))\) 通常太高，不适合在优化器内部重复使用；关于稠密矩阵分解的标准背景知识，参见 Golub and Van Loan (2013) (https://arxiv.org/html/2605.26459#bib.bib11)。因此，核心数值问题是：

> MuCon裁剪步骤能否在避免完整稠密SVD的前提下，为优化器使用提供足够精确的近似？

一个关键的结构恒等式已经指明了正确的分界域。令 \(\mathcal{I}_{>}=\{i:\sigma_i(M)>\tau\},\qquad k_{>}=|\mathcal{I}_{>}|\)。那么

\[\operatorname{MClip}_{\tau}(M)=M-U_{>}{\rm diag}\bigl((\sigma_i-\tau)_{i\in\mathcal{I}_{>}}\bigr)V_{>}^{\top},\]

其中 \(U_{>}, V_{>}\) 只包含奇异值超过 \(\tau\) 的奇异向量。因此，裁剪是对 \(M\) 的一个秩为 \(k_{>}\) 的修正。当 \(k_{>}\) 较小时，部分SVD、Lanczos方法或随机子空间方法是最有选择性的基线；当 \(k_{>}\) 较大时，全局矩阵函数迭代可能具有竞争力。

##### 贡献。
本报告为 SpectralP MuCon 提供了三个技术要点。第一，它将数学裁剪映射与裁剪Muon优化器原语区分开来，并记录了任何近似都应遵循的投影和低秩修正恒等式。第二，它推导出裁剪的极/绝对值公式，并解释了为什么阈值特征值在数值上是棘手的。第三，它分析了用于裁剪正半定因子的有理Newton迭代，并澄清了它是一个谱滤波器，而不是一个独立的免SVD算法。

## 2 背景：SpectralP 与宽度-深度缩放训练

本项目的动机是同时进行宽度和深度缩放时的超参数迁移。CompleteP 研究了深度Transformer中的联合宽度-深度迁移和非懒惰特征学习 (Dey et al., 2025 (https://arxiv.org/html/2605.26459#bib.bib1))。Spectral \(\mu\mathrm{P}\) 和相关的算子范数视图激励在归一化的谱范数下控制权重和更新 (Yang et al., 2023 (https://arxiv.org/html/2605.26459#bib.bib5); Zheng et al., 2026 (https://arxiv.org/html/2605.26459#bib.bib2))。在本报告中，由此产生的Muon和MuCon隐藏矩阵缩放参数化称为 SpectralP。SpectralP 将隐藏的二维矩阵组分配给谱更新类，而标量、向量、嵌入和解嵌入组仍然是AdamW伴随组。两种观点都指向同一个数值需求：矩阵更新应具有受控的谱，而不需要在每个优化器步骤中进行昂贵的分解。

### 2.1 超参数迁移与最大更新参数化

大模型训练中的一个核心实际问题是超参数迁移。理想情况下，我们可以在小模型上调整学习率、初始化尺度和权重衰减等超参数，然后将它们迁移到更大的模型。如果相同的基超参数在缩放后仍然接近最优，就可以实现“小调大训”策略。最大更新参数化，即 \(\mu\mathrm{P}\)，正是为了实现宽度缩放下的这种可能性而引入的 (Yang and Hu, 2021 (https://arxiv.org/html/2605.26459#bib.bib3); Yang et al., 2022 (https://arxiv.org/html/2605.26459#bib.bib4))。在其最简单形式中，\(\mu\mathrm{P}\) 旨在随着宽度 \(N\) 的增长保持非平凡的特征学习。如果 \(h_{\ell}(x)\in\mathbb{R}^{d_{\ell}}\) 是第 \(\ell\) 层的隐藏表示，那么不变尺度是按坐标的，或等效地按RMS归一化：

\[\|h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}=\Theta(1),\qquad \|\Delta h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}=\Theta(1),\qquad \|a\|_{\mathrm{R},d}:=\frac{\|a\|_{2}}{\sqrt{d}}.\]

因此，参数化应避免懒惰动力学 \(\|\Delta h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}\to 0\)，以及不稳定的动力学 \(\|\Delta h_{\ell}(x)\|_{\mathrm{R},d_{\ell}}\to\infty\)。对于仅宽度缩放，典型的隐藏矩阵AdamW学习率规则形式为

\[\eta_{\mathrm{hidden}}=\eta_{\mathrm{base}}m_{N}^{-1},\qquad m_{N}=\frac{N}{N_{\mathrm{base}}}.\]

确切的指数取决于优化器和参数化，但原理是矩阵更新必须重新缩放，以便它们引起的特征移动保持阶为一。现代基础模型不仅在宽度上缩放；它们也变得更深入。因此，一个有用的参数化应在 \(N\to\infty, L\to\infty\) 时保持迁移，其中 \(L\) 是残差块的数量。

### 2.2 CompleteP：用于深度Transformer的残差缩放

CompleteP 研究了预LN解码器专用Transformer语言模型的联合宽度-深度缩放 (Dey et al., 2025 (https://arxiv.org/html/2605.26459#bib.bib1))。其出发点是残差递归：

\[h_{\ell+1}=h_{\ell}+L^{-\alpha}F_{\ell}(h_{\ell}),\qquad \ell=1,\dots,L,\]

其中 \(F_{\ell}\) 是一个残差块，例如注意力或MLP块。指数 \(\alpha\in[1/2,1]\) 控制每个残差分支的深度缩放。两个最重要的情形是 \(\alpha=\frac{1}{2}\) 和 \(\alpha=1\)。选择 \(\alpha=1/2\) 是从初始化稳定性出发很自然的。如果残差增量大致独立且大小相当，那么累积的残差方差缩放为 \(\sum_{\ell=1}^{L}L^{-2\alpha}=L^{1-2\alpha}\)。因此，避免方差爆炸需要 \(\alpha\geq\frac{1}{2}\)。CompleteP 认为初始化稳定性是不够的。它主张更强的缩放，使得 \(h_{\ell+1}=h_{\ell}+L^{-1}F_{\ell}(h_{\ell})\)。在实际缩放实验中，我们记 \(m_{N}=\frac{N}{N_{\mathrm{base}}},\quad m_{L}=\frac{L}{L_{\mathrm{base}}}\)，并使用 \(h_{\ell+1}=h_{\ell}+m_{L}^{-1}F_{\ell}(h_{\ell})\)。

#### 2.2.1 CompleteP中的AdamW缩放

CompleteP 不仅仅是残差乘子。它还规定了模型和优化器超参数应如何随 \(m_N\) 和 \(m_L\) 缩放。对于隐藏矩阵权重，初始化方差遵循宽度-\(\mu\mathrm{P}\) 规则 \(\operatorname{Var}(W_{\mathrm{hidden}})=\sigma_{\mathrm{base}}^{2}m_{N}^{-1}\)。对于AdamW隐藏矩阵更新，CompleteP 总结的学习率规则为

\[\eta_{\mathrm{hidden}}^{\mathrm{AdamW}}=\eta_{\mathrm{base}}m_{N}^{-1}m_{L}^{\alpha-1}.\]

因此，在 \(\alpha=1\) 的CompleteP下，\(\eta_{\mathrm{hidden}}^{\mathrm{AdamW}}=\eta_{\mathrm{base}}m_{N}^{-1}\)。隐藏矩阵学习率随宽度缩放，但不随深度缩放。LayerNorm和偏置学习率缩放为 \(\eta_{\mathrm{LN}}=\eta_{\mathrm{base}}m_{L}^{\alpha-1},\quad \eta_{\mathrm{bias}}=\eta_{\mathrm{base}}m_{L}^{\alpha-1}\)。因此，在CompleteP下，\(\eta_{\mathrm{LN}}=\eta_{\mathrm{bias}}=\eta_{\mathrm{base}}\)。

CompleteP 还按参数组缩放隐藏权重衰减和AdamW的数值 \(\varepsilon\) 参数：

\[\lambda_{\mathrm{hidden}}=\lambda_{\mathrm{base}}m_{N}.\]

对于纯CompleteP AdamW参数化，AdamW \(\varepsilon\) 缩放与参数组相关。对于一般的残差指数 \(\alpha\)，隐藏块AdamW组使用

\[\varepsilon_{\mathrm{hidden/residual}}=\varepsilon_{\mathrm{base}}m_{N}^{-1}m_{L}^{-\alpha}.\]

这个CompleteP隐藏/残差组包括隐藏矩阵AdamW组、隐藏块LayerNorm参数、隐藏块偏置以及其他隐藏向量参数。在 \(\alpha=1\) 的CompleteP下，这变为 \(\varepsilon_{\mathrm{hidden/residual}}=\varepsilon_{\mathrm{base}}m_{N}^{-1}m_{L}^{-1}\)。CompleteP的嵌入/解嵌入参数和最后的LayerNorm则使用 \(\varepsilon_{\mathrm{emb/unemb}}=\varepsilon_{\text{final LN}}=\varepsilon_{\mathrm{base}}m_{N}^{-1}\)。

在 SpectralP 中，相同的AdamW \(\varepsilon\) 规则适用于AdamW伴随组：隐藏块LayerNorm、偏置和向量伴随组使用CompleteP隐藏/残差 \(\varepsilon\)，而嵌入/解嵌入和最终LayerNorm伴随组使用CompleteP嵌入/解嵌入 \(\varepsilon\)。SpectralP Muon/MuCon隐藏矩阵组本身不使用AdamW \(\varepsilon\)。偏置和LayerNorm增益在LLM实现中通常被分配零解耦权重衰减。如果它们被衰减，其系数应被视为一个独立的向量参数超参数。

#### 2.2.2 完整特征学习

CompleteP 还强调*完整特征学习*：一个好的宽度-深度参数化不应仅仅保持激活稳定，还应防止网络在 \(N,L\to\infty\) 时变得在初始化附近有效线性化。令 \(h(\theta)\) 是依赖于参数 \(\theta\) 的表示，令 \(\theta_0\) 为初始化。在 \(\theta_0\) 处 \(h\) 的线性化为

\[h^{\mathrm{lin},\theta}(\theta,\theta_0)=h(\theta_0)+\left\langle\nabla_{\theta}h(\theta_0),\theta-\theta_0\right\rangle.\]

如果表示关于 \(\theta\) 的更新在渐近意义上与该线性化的更新不可区分，即 \(\frac{\left\|\Delta_{\theta}h-\Delta_{\theta}h^{\mathrm{lin},\theta}\right\|}{\left\|\Delta_{\theta}h^{\mathrm{lin},\theta}\right\|}=o(1)\)，则称该表示关于 \(\theta\) 是懒惰的。

\(\alpha\) 的作用可以在一个两层残差块中看到：\(h_{\ell+1}=h_{\ell}+L^{-\alpha}W_{\ell}^{(2)}W_{\ell}^{(1)}h_{\ell}\)。在最大更新缩放下，假设 \(\Delta W_{\ell}^{(i)}=\Theta(L^{\alpha-1}),\quad i=1,2\)。那么 \(\Delta h_{\ell+1}\) 的一阶贡献大小为 \(\Theta(L^{\alpha-1})\)，而二阶贡献大小为 \(\Theta(L^{\alpha-2})\)。因此它们的比率为 \(\Theta(L^{\alpha-1})\)。如果 \(\alpha<1\)，这个比率趋近于零；如果 \(\alpha=1\)，它保持阶为一。这就是CompleteP选择 \(\alpha=1\) 背后的基本机制。

### 2.3 与 SpectralP MuCon 的相关性

前面的缩放论证激励了对矩阵值更新的谱控制。奇异值裁剪提供了一种基于显式投影的c……（注：原文在“c”处截断，根据上下文，后续可能是关于裁剪优势的论述，但原文并未完整给出。鉴于用户提供的源文本到此为止，翻译也应在此处结束。）

MuCon: Clipped Muon Updates for LLM Training

相似文章

Muon优化器的谱缩放定律

SignMuon: 通信高效的分布式Muon优化

超越预训练重新思考Muon：VLA与RLVR的频谱失效与高通补救措施

Gram Newton-Schulz：一种用于Muon的快速、硬件感知的牛顿-舒尔茨算法

Muon为何超越Adam：曲率视角

提交意见反馈