Muon 并没有那么特别:随机或反转谱同样有效
摘要
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
arXiv:2605.11181v1 公告类型:新论文
摘要:Muon 优化器近期的实证成功重新激发了人们对非欧几里得优化的兴趣,这种兴趣通常基于其与二阶方法的相似性以及线性最小化预言机(LMO)理论。在本文中,我们通过三项贡献挑战了这一几何叙事,证明精确的几何结构并非影响优化性能的关键因素。首先,我们介绍了 Freon,这是一类基于 Schatten(拟)范数的优化器,由一种新颖且理论上最优的基于 QDWH 的迭代近似方法驱动。Freon 在 SGD 和 Muon 之间自然插值,同时平滑地外推至拟范数区域。实证研究表明,对于 GPT-2,表现最佳的 Schatten 参数严格位于拟范数区域内,因此无法由任何酉不变 LMO 表示。其次,注意到 Freon 在广泛指数范围内表现良好,我们引入了 Kaon,这是一种荒谬的优化器,它用随机噪声替换奇异值。尽管缺乏任何连贯的几何结构,Kaon 的性能与 Muon 相当,并保留了经典的收敛保证,证明严格遵守精确几何在实际中并不重要。第三,在证明几何并非性能的主要驱动因素后,我们表明性能实际上由两个局部量控制:对齐和下降潜力。最终,每种优化器都必须围绕这两个量调整其步长。虽然其动态难以先验预测,但在随机随机特征模型中对它们进行评估可提供精确的见解:Muon 的成功并非源于追踪理想的全局几何,而是源于保证步长最优性。
查看缓存全文
缓存时间: 2026/05/13 06:34
# 随机或反转谱同样有效 来源:https://arxiv.org/html/2605.11181 ## Muon 并不那么特殊:随机或反转谱同样有效 Zakhar Shumaylov1Nathaël Da Costa2Peter Zaika1Bálint Mucsányi2Alex Massucco1 Yoav Gelberg3Carola-Bibiane Schönlieb1Yarin Gal3Philipp Hennig2 1剑桥大学2蒂宾根大学3牛津大学 ###### 摘要 Muon优化器最近的实证成功重新激发了人们对非欧几里得优化的兴趣,这通常通过与二阶方法的相似性以及线性最小化预言机(LMO)理论来证明其合理性。在本文中,我们通过三项贡献挑战了这一几何叙事,证明精确的几何结构并不是影响优化性能的关键因素。首先,我们引入了Freon,这是一类基于Schatten(准)范数的优化器,由一种新颖的、理论上最优的基于QDWH的迭代近似驱动。Freon自然地插值于SGD和Muon之间,同时平滑地外推至准范数区域。实证表明,GPT-2的最佳Schatten参数严格位于准范数区域内,因此无法由任何酉不变LMO表示。其次,注意到Freon在广泛的指数范围内表现良好,我们引入了Kaon,这是一种荒谬的优化器,它用随机噪声替换奇异值。尽管缺乏任何连贯的几何结构,Kaon仍然与Muon的性能相匹配,并保留了经典的收敛保证,这证明严格遵守精确几何在实际中是无关紧要的。第三,在证明几何并非性能的主要驱动因素后,我们表明性能实际上由两个局部量控制:对齐(alignment)和下降势(descent potential)。最终,每种优化器都必须围绕这两个量调整其步长。虽然它们的动态难以先验预测,但在随机随机特征模型中评估它们提供了精确的见解:Muon的成功并非通过追踪理想的全局几何,而是通过保证步长的最优性。 ## 1 引言 一阶优化算法在现代机器学习中变得日益核心,这得益于它们在日常训练中用于在万亿级token上训练拥有数十亿参数的模型。虽然如AdamW这样的自适应梯度方法(Kingma and Ba, 2017; Du et al., 2011; Loshchilov and Hutter, 2019)长期以来一直作为主导基准,但近年来基于矩阵和谱的优化器(Gupta et al., 2018; Vyas et al., 2022; Jordan et al., 2024)引起了巨大兴趣。诸如Shampoo和Muon等算法在大规模下展示了显著的成功(Liu et al., 2025; Team et al., 2025a, 2025b; DeepSeek-AI, 2026),激发了对非欧几里得下降方法研究(Bernstein and Newhouse, 2024)的复兴以及一系列提出的修改方案(Du and Su, 2026; Ahn et al., 2025; Riabinin et al., 2024; Sie et al., 2025; Amsel et al., 2026; Gong et al., 2026)。理论上,这种成功几乎普遍通过线性最小化预言机(LMOs)和严格的几何预条件化视角来证明(Pethick et al., 2025; Kovalev, 2025; Fan et al., 2025)。在这个主导叙事中,Muon的性能源于其通过完全的谱白化对特定目标几何的精确遵循。简单模型的分析(Kim et al., 2026; Ma et al., 2026)通常证实了这一叙事,特别是在分布重尾下(Yu et al., 2026; Wang et al., 2025)。然而,最近的基准测试研究开始揭示这一几何立面的裂缝,指出谱优化器的优势在适当的基准调优下减弱,并且对批次大小高度敏感(Wen et al., 2025; Semenov et al., 2025)。与此同时,Su (2025) 通过各向同性曲率模型表明,最优更新只需保持奇异值的排序,而Muon的白化施加了更强的约束。受此动机驱动,我们最初打算确定最优的谱几何。然而,与对二次函数上Muon的分析(Gono et al., 2026)类似,我们最终发现没有简单的几何配方能可靠地提高性能。相反,我们不得不问:谱优化器的精确几何表述是否重要,或者LMO框架是否掩盖了优化成功更基本的驱动力?在本工作中,我们论证道,虽然通过非欧几里得几何的视角来看待优化提供了一个优雅的理论框架,但它未能捕捉到深度学习中间谱优化器性能背后的核心现象。通过系统地放松几何预条件的假设,我们做出了以下具体贡献: 参见标题 Figure 1: GPT-2层在各种谱优化器下梯度奇异值谱的变换。从左到右:SGD显示标准梯度谱。截断SGD明确地将最大的5%奇异值置零。Muon将所有奇异值统一映射到1.0。Kaon将值设置为随机值。最后,Freon应用形式为$(GG^\top)^{-c}G$的归一化更新,在标准SGD ($c=0$)、Muon ($c=1/2$) 和伪逆类似的端点 ($c=1$) 之间平滑插值谱衰减。注意y轴的对数刻度。1. 1\. 为了探索更广泛的保序更新空间,我们引入了Freon,这是一类形式为$(GG^\top)^{-c}G$的Schatten(准)范数更新。Freon自然地插值于SGD ($c=0$) 和Muon ($c=1/2$) 之间。通过类似于Yen et al. (2025) 的对称性分析,我们论证了外推到$c \geq 1/2$区域具有巨大的理论兴趣(定理 2.6),尽管这 plunge 入了从根本上破坏标准LMO理论的准范数区域(定理 2.1)。为了稳定地计算这些更新,我们开发了一种最优的(定理 2.7 和 E.5)基于QDWH的迭代,利用类似于Nakatsukasa et al. (2010); Nakatsukasa and Freund (2016) 的有理近似(算法 3),扩展了Amsel et al. (2026) 的极分解表达理论。实证上,与简单二次函数不同,我们发现GPT-2模型的最优指数集中在准范数区域$c \in [1/2, 1]$(图 I.7 和 6),但在批次之间变化显著。由于这严格处于任何酉不变范数的范围之外,这有力地证明了标准LMO理论不足以解释性能增益。 2. 2\. 我们在图 3 和 4 中的实证扫描揭示了一个深刻的难题:几乎所有$c > 0$的Freon更新都表现得非常相似,前提是大的奇异值被充分抑制。这使我们假设更新的精确几何结构在很大程度上是无关紧要的。为了测试这一点,我们引入了Kaon,这是一种不进行LMO计算、不针对特定Schatten范数,而是简单地将梯度的奇异值替换为噪声的优化器(算法 2)。尽管缺乏任何连贯的几何结构,Kaon在大规模下紧密匹配Muon的性能(图 3 和 3),并奇怪地保留了经典的收敛保证(定理 2.5)。这表明精确的目标谱对于优化性能在很大程度上是无关紧要的。 3. 3\. 如果弃用LMOs,我们如何数学上理解所有这些更新之间的差距?扩展Davis and Drusvyatskiy (2026) 的框架,我们将精确的局部泰勒展开分解为两个结构上具有揭示性的量:批次梯度对齐 $\gamma_k$ 和方向下降势 $\Phi_k$。虽然在二次模型中这仅仅是机制性的(第 3.2 节),但它清晰地暴露了基本权衡(第 3.3 节):不同的优化器隐式地选择牺牲多少对齐以换取增加的下降势,但实际实现大$\Phi_k$的好处取决于使用经过调优以利用它的步长。 参见标题 Figure 2: NanoGPT学习率敏感性。随着调优学习率联合缩放时的最终验证损失,平均过三个种子,带有$\pm 2$标准误误差棒。黑线标记每个优化器的最佳学习率。 参见标题 Figure 3: NanoGPT验证曲线。Muon、Kaon以及$c=2/3$和$c=3/4$时的Freon的验证损失曲线。线条是三个种子的平均值,带有$\pm 2$标准差带。为了可读性,y轴被裁剪为$[3.3, 6]$。 设置$X_0=G/\|G\|_F$ 对于*t=1,2,...,T* 执行 $A_t=X_{t-1}X_{t-1}^\top$ $B_t=bA_t+cA_t^2$ $X_t=aX_{t-1}+B_tX_{t-1}$ 结束循环 返回 $X_T$ 算法 1 Muon 设置$X_0=G/\|G\|_F$ 对于*t=1,2,...,T* 执行 $A_t=X_{t-1}X_{t-1}^\top$ $B_t=(I-A_t)^2$ $X_t=4.1 \cdot B_tX_{t-1}$ 结束循环 返回 $X_T/1.175$ 算法 2 Kaon 设置$X_0=G/\|G\|_F$ 设置 $A_0=X_0X_0^\top$ 对于*t=1,2,...,T* 执行 $B=R_t(A_{t-1})$ $X_t=B^a X_{t-1}$ $A_t=B^b A_{t-1}$ 结束循环 $\mu=(\frac{1}{n}\langle X_T,G\rangle)^{(a+2b)/(2a-2b)}$ 返回 $X_T/\mu$ 算法 3 Freon 算法:简化伪代码,说明了所考虑优化器之间的主要差异。Freon的完整算法显示在算法 4 中,利用块QR进行有理映射。 ## 2 背景与方法 我们首先考虑引入Muon的经典方法,基于正则化最速下降的思想。给定内积空间上的范数$\|\cdot\|$(在Muon的情况下是谱范数),我们将线性最小化预言机(LMO)和相应的对偶范数定义为: $\operatorname{lmo}_{\|\cdot\|}(V)=\arg\max_{\|U\|\leq 1}\langle U,V\rangle \quad \|V\|_*=\max_{\|U\|=1}\langle U,V\rangle=\langle V,\operatorname{lmo}_{\|\cdot\|}(V)\rangle.$ (1) 然后,对于可微损失函数$f:\mathbb{R}^d\rightarrow\mathbb{R}$,其中$G_k=\nabla f(X_k)$,正则化最速下降通过在二次惩罚下最小化损失的一阶近似来更新: $X_{k+1}=\arg\min_X\left\{f(X_k)+\langle G_k,X-X_k\rangle+\frac{1}{2\eta}\|X-X_k\|^2\right\}=X_k-\eta\|G_k\|_*\operatorname{lmo}_{\|\cdot\|}(G_k).$ 例如,对于Muon,$\operatorname{lmo}_{\|\cdot\|}(W)=(WW^\top)^{-1/2}W$,其中逆是在Moore-Penrose伪逆的意义下取的。除非另有说明,本节中定理的证明可以在附录 D 中找到。 ### 2.1 LMO框架的局限性 为简单起见,在本节中我们将注意力限制在单层上,矩阵域为$\mathbb{R}^{m\times n}$。我们考虑可微损失函数$f:\mathbb{R}^{m\times n}\to\mathbb{R}$。令$r=\min(m,n)$表示最大秩,并写奇异值分解$G_k=\nabla f(X_k)=U_k\operatorname{diag}(\sigma_k)V_k^\top$,为简单起见,假设严格正的奇异值$\sigma_k\in\mathbb{R}_{>0}^r$。我们将预条件谱下降更新定义为形式为$X_{k+1}=X_k-\alpha_k\langle G_k,D_k\rangle D_k$的更新,其中$D_k=U_k\operatorname{diag}(p_k(\sigma_k))V_k^\top$对于某些向量值映射序列$p_k:\mathbb{R}_{>0}^r\to\mathbb{R}_{>0}^r$。该家族的两个最简单的成员是梯度下降(GD)和Muon(谱下降)。GD设置$p_k(S)=S/\|S\|_2$,而Muon设置$p_k(S)=1$,实际上使用Newton-Schulz迭代实现(算法 1)。然而,并非所有预条件谱下降更新都是最速下降更新:Freon(对于$c>1/2$)、截断SGD和Kaon都不是,基于以下: ###### 定理 2.1(预条件谱下降与正则化最速下降)。固定函数$f$和点$X_k$。从$X_k$开始的关于酉不变矩阵范数的正则化最速下降更新是一个预条件相似文章
Muon 优化器能否微调 Adam 预训练模型?
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。
Pion:一种通过正交等价变换保持谱的优化器
本文介绍了 Pion,这是一种用于大语言模型训练的的新型谱保持优化器。它利用正交等价变换在权重更新过程中维持奇异值,从而提供与标准优化器相当的稳定性能。
乐观对偶平均化统一了现代优化器
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
@0xLogicrw: Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…
Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷,并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题,显著提升了训练效率。
通过隐式梯度传输加速基于 LMO 的优化
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。