Muon为何超越Adam:曲率视角
摘要
本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。
查看缓存全文
缓存时间: 2026/06/09 08:42
论文页面 - 为什么Muon优于Adam:曲率视角
来源:https://huggingface.co/papers/2606.04662
摘要
Muon 在大型语言模型训练中优于 Adam,通过降低归一化方向锐度来减少曲率惩罚,尤其是在训练的中后期阶段,这一优势因数据不平衡和异质性曲率而被放大。
Muon (https://huggingface.co/papers?q=Muon) 在大型语言模型训练中比 Adam (https://huggingface.co/papers?q=Adam) 将训练效率提高了约两倍,但其局部几何优势的来源尚不清楚。我们的工作首次从曲率角度揭示了 Muon (https://huggingface.co/papers?q=Muon) 优于 Adam (https://huggingface.co/papers?q=Adam) 的原因。首先,我们对训练景观 (https://huggingface.co/papers?q=training%20landscape) 应用二阶泰勒近似 (https://huggingface.co/papers?q=second-order%20Taylor%20approximation),并表明 Muon (https://huggingface.co/papers?q=Muon) 在验证损失匹配的情况下实现了比 Adam (https://huggingface.co/papers?q=Adam) 更大的单步损失下降。两种优化器的一阶增益相当,但 Muon (https://huggingface.co/papers?q=Muon) 始终承受较小的二阶曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty)。其次,我们将此曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty) 分解为更新范数 (https://huggingface.co/papers?q=update%20norm) 的平方和归一化方向锐度 (https://huggingface.co/papers?q=Normalized%20Directional%20Sharpness)(NDS)。我们发现 Muon (https://huggingface.co/papers?q=Muon) 和 Adam (https://huggingface.co/papers?q=Adam) 的更新范数 (https://huggingface.co/papers?q=update%20norm) 相当,因此 Muon (https://huggingface.co/papers?q=Muon) 较小的曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty) 源于更低的 NDS,而非更新规模。第三,我们研究了训练数据和模型结构如何塑造 Muon (https://huggingface.co/papers?q=Muon) 的 NDS 优势。通过使用具有受控不平衡性的 Zipf 概率上下文无关文法 (https://huggingface.co/papers?q=Zipf-Probabilistic%20Context-Free%20Grammar)(PCFG)数据,我们表明数据不平衡放大了 Muon (https://huggingface.co/papers?q=Muon) 相对于 Adam (https://huggingface.co/papers?q=Adam) 的 NDS 优势。进一步的层内/跨层分解显示,在训练的中后期,Muon (https://huggingface.co/papers?q=Muon) 较低的 NDS 主要由更小的层内曲率 (https://huggingface.co/papers?q=within-layer%20curvature) 维持。除了实证证据,我们还分析了具有异质性曲率 (https://huggingface.co/papers?q=heterogeneous%20curvature) 和梯度对齐 (https://huggingface.co/papers?q=gradient%20alignment)(朝向高曲率模式)的典型二次问题。我们证明 Muon (https://huggingface.co/papers?q=Muon) 通过跨曲率组平衡更新能量,获得了比 GD 更小的平均 NDS;当曲率异质性足够强时,这还会在相同步数后产生更低的局部二次损失 (https://huggingface.co/papers?q=local%20quadratic%20loss)。
查看 arXiv 页面 (https://arxiv.org/abs/2606.04662) 查看 PDF (https://arxiv.org/pdf/2606.04662) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04662)
在你的 agent 中获取本文:
hf papers read 2606\.04662
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。
引用本文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。
引用本文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。
包含本文的收藏集0
没有收藏集包含此论文
将本文添加到一个收藏集 (https://huggingface.co/new-collection) 以从本页链接它。
相似文章
Muon 优化器能否微调 Adam 预训练模型?
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。
Muon 并没有那么特别:随机或反转谱同样有效
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
Muon需要多少正交化?
本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。
Muon优化器的谱缩放定律
本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。
SignMuon: 通信高效的分布式Muon优化
SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。