Muon为何超越Adam:曲率视角

Hugging Face Daily Papers 论文

摘要

本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。

在大型语言模型训练中,Muon的训练效率较Adam提升约两倍,但这一优势的局部几何根源尚不清楚。我们的工作初步从曲率角度揭示了Muon优于Adam的原因。首先,我们对训练景观应用二阶泰勒近似,表明在验证损失匹配的情况下,Muon的单步损失下降幅度大于Adam。两个优化器的一阶收益相当,但Muon始终承受更小的二阶曲率惩罚。其次,我们将该曲率惩罚分解为更新范数的平方与归一化方向锐度(NDS)。我们发现Muon和Adam的更新范数相当,因此Muon较小的曲率惩罚源于更低的NDS,而非更新规模。第三,我们研究了训练数据和模型结构如何影响Muon的NDS优势。通过使用具有受控不平衡性的Zipf概率上下文无关文法(PCFG)数据,我们表明数据不平衡放大了Muon相对于Adam的NDS优势。层内/跨层分解进一步表明,在训练的中后期,Muon较低的NDS主要由更小的层内曲率维持。除实证证据外,我们还分析了具有异质性曲率且梯度对齐于高曲率模式的典型二次问题。我们证明Muon通过在不同曲率组间平衡更新能量,实现了比GD更小的平均NDS;当曲率异质性足够强时,这一优势在相同步数后还能带来更低的局部二次损失。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:42

论文页面 - 为什么Muon优于Adam:曲率视角

来源:https://huggingface.co/papers/2606.04662

摘要

Muon 在大型语言模型训练中优于 Adam,通过降低归一化方向锐度来减少曲率惩罚,尤其是在训练的中后期阶段,这一优势因数据不平衡和异质性曲率而被放大。

Muon (https://huggingface.co/papers?q=Muon) 在大型语言模型训练中比 Adam (https://huggingface.co/papers?q=Adam) 将训练效率提高了约两倍,但其局部几何优势的来源尚不清楚。我们的工作首次从曲率角度揭示了 Muon (https://huggingface.co/papers?q=Muon) 优于 Adam (https://huggingface.co/papers?q=Adam) 的原因。首先,我们对训练景观 (https://huggingface.co/papers?q=training%20landscape) 应用二阶泰勒近似 (https://huggingface.co/papers?q=second-order%20Taylor%20approximation),并表明 Muon (https://huggingface.co/papers?q=Muon) 在验证损失匹配的情况下实现了比 Adam (https://huggingface.co/papers?q=Adam) 更大的单步损失下降。两种优化器的一阶增益相当,但 Muon (https://huggingface.co/papers?q=Muon) 始终承受较小的二阶曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty)。其次,我们将此曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty) 分解为更新范数 (https://huggingface.co/papers?q=update%20norm) 的平方和归一化方向锐度 (https://huggingface.co/papers?q=Normalized%20Directional%20Sharpness)(NDS)。我们发现 Muon (https://huggingface.co/papers?q=Muon) 和 Adam (https://huggingface.co/papers?q=Adam) 的更新范数 (https://huggingface.co/papers?q=update%20norm) 相当,因此 Muon (https://huggingface.co/papers?q=Muon) 较小的曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty) 源于更低的 NDS,而非更新规模。第三,我们研究了训练数据和模型结构如何塑造 Muon (https://huggingface.co/papers?q=Muon) 的 NDS 优势。通过使用具有受控不平衡性的 Zipf 概率上下文无关文法 (https://huggingface.co/papers?q=Zipf-Probabilistic%20Context-Free%20Grammar)(PCFG)数据,我们表明数据不平衡放大了 Muon (https://huggingface.co/papers?q=Muon) 相对于 Adam (https://huggingface.co/papers?q=Adam) 的 NDS 优势。进一步的层内/跨层分解显示,在训练的中后期,Muon (https://huggingface.co/papers?q=Muon) 较低的 NDS 主要由更小的层内曲率 (https://huggingface.co/papers?q=within-layer%20curvature) 维持。除了实证证据,我们还分析了具有异质性曲率 (https://huggingface.co/papers?q=heterogeneous%20curvature) 和梯度对齐 (https://huggingface.co/papers?q=gradient%20alignment)(朝向高曲率模式)的典型二次问题。我们证明 Muon (https://huggingface.co/papers?q=Muon) 通过跨曲率组平衡更新能量,获得了比 GD 更小的平均 NDS;当曲率异质性足够强时,这还会在相同步数后产生更低的局部二次损失 (https://huggingface.co/papers?q=local%20quadratic%20loss)。

查看 arXiv 页面 (https://arxiv.org/abs/2606.04662) 查看 PDF (https://arxiv.org/pdf/2606.04662) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04662)

在你的 agent 中获取本文:

hf papers read 2606\.04662

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。

引用本文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。

引用本文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。

包含本文的收藏集0

没有收藏集包含此论文

将本文添加到一个收藏集 (https://huggingface.co/new-collection) 以从本页链接它。

相似文章

Muon 优化器能否微调 Adam 预训练模型?

Hugging Face Daily Papers

研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。

Muon需要多少正交化?

arXiv cs.LG

本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。

Muon优化器的谱缩放定律

arXiv cs.LG

本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。

SignMuon: 通信高效的分布式Muon优化

arXiv cs.LG

SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。