Muon为何超越Adam：曲率视角

Hugging Face Daily Papers 2026/06/03 00:00 论文

optimizer muon adam curvature large-language-model training-efficiency

摘要

本文探究了Muon优化器在大型语言模型训练中为何优于Adam，从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚，且其优势因数据不平衡而放大。

在大型语言模型训练中，Muon的训练效率较Adam提升约两倍，但这一优势的局部几何根源尚不清楚。我们的工作初步从曲率角度揭示了Muon优于Adam的原因。首先，我们对训练景观应用二阶泰勒近似，表明在验证损失匹配的情况下，Muon的单步损失下降幅度大于Adam。两个优化器的一阶收益相当，但Muon始终承受更小的二阶曲率惩罚。其次，我们将该曲率惩罚分解为更新范数的平方与归一化方向锐度（NDS）。我们发现Muon和Adam的更新范数相当，因此Muon较小的曲率惩罚源于更低的NDS，而非更新规模。第三，我们研究了训练数据和模型结构如何影响Muon的NDS优势。通过使用具有受控不平衡性的Zipf概率上下文无关文法（PCFG）数据，我们表明数据不平衡放大了Muon相对于Adam的NDS优势。层内/跨层分解进一步表明，在训练的中后期，Muon较低的NDS主要由更小的层内曲率维持。除实证证据外，我们还分析了具有异质性曲率且梯度对齐于高曲率模式的典型二次问题。我们证明Muon通过在不同曲率组间平衡更新能量，实现了比GD更小的平均NDS；当曲率异质性足够强时，这一优势在相同步数后还能带来更低的局部二次损失。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:42

论文页面 - 为什么Muon优于Adam：曲率视角

来源：https://huggingface.co/papers/2606.04662

摘要

Muon 在大型语言模型训练中优于 Adam，通过降低归一化方向锐度来减少曲率惩罚，尤其是在训练的中后期阶段，这一优势因数据不平衡和异质性曲率而被放大。

Muon (https://huggingface.co/papers?q=Muon) 在大型语言模型训练中比 Adam (https://huggingface.co/papers?q=Adam) 将训练效率提高了约两倍，但其局部几何优势的来源尚不清楚。我们的工作首次从曲率角度揭示了 Muon (https://huggingface.co/papers?q=Muon) 优于 Adam (https://huggingface.co/papers?q=Adam) 的原因。首先，我们对训练景观 (https://huggingface.co/papers?q=training%20landscape) 应用二阶泰勒近似 (https://huggingface.co/papers?q=second-order%20Taylor%20approximation)，并表明 Muon (https://huggingface.co/papers?q=Muon) 在验证损失匹配的情况下实现了比 Adam (https://huggingface.co/papers?q=Adam) 更大的单步损失下降。两种优化器的一阶增益相当，但 Muon (https://huggingface.co/papers?q=Muon) 始终承受较小的二阶曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty)。其次，我们将此曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty) 分解为更新范数 (https://huggingface.co/papers?q=update%20norm) 的平方和归一化方向锐度 (https://huggingface.co/papers?q=Normalized%20Directional%20Sharpness)（NDS）。我们发现 Muon (https://huggingface.co/papers?q=Muon) 和 Adam (https://huggingface.co/papers?q=Adam) 的更新范数 (https://huggingface.co/papers?q=update%20norm) 相当，因此 Muon (https://huggingface.co/papers?q=Muon) 较小的曲率惩罚 (https://huggingface.co/papers?q=curvature%20penalty) 源于更低的 NDS，而非更新规模。第三，我们研究了训练数据和模型结构如何塑造 Muon (https://huggingface.co/papers?q=Muon) 的 NDS 优势。通过使用具有受控不平衡性的 Zipf 概率上下文无关文法 (https://huggingface.co/papers?q=Zipf-Probabilistic%20Context-Free%20Grammar)（PCFG）数据，我们表明数据不平衡放大了 Muon (https://huggingface.co/papers?q=Muon) 相对于 Adam (https://huggingface.co/papers?q=Adam) 的 NDS 优势。进一步的层内/跨层分解显示，在训练的中后期，Muon (https://huggingface.co/papers?q=Muon) 较低的 NDS 主要由更小的层内曲率 (https://huggingface.co/papers?q=within-layer%20curvature) 维持。除了实证证据，我们还分析了具有异质性曲率 (https://huggingface.co/papers?q=heterogeneous%20curvature) 和梯度对齐 (https://huggingface.co/papers?q=gradient%20alignment)（朝向高曲率模式）的典型二次问题。我们证明 Muon (https://huggingface.co/papers?q=Muon) 通过跨曲率组平衡更新能量，获得了比 GD 更小的平均 NDS；当曲率异质性足够强时，这还会在相同步数后产生更低的局部二次损失 (https://huggingface.co/papers?q=local%20quadratic%20loss)。

查看 arXiv 页面 (https://arxiv.org/abs/2606.04662) 查看 PDF (https://arxiv.org/pdf/2606.04662) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.04662)

在你的 agent 中获取本文：

hf papers read 2606\.04662

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。

引用本文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。

引用本文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.04662 以从本页链接它。

包含本文的收藏集0

没有收藏集包含此论文

将本文添加到一个收藏集 (https://huggingface.co/new-collection) 以从本页链接它。

Muon为何超越Adam：曲率视角

论文页面 - 为什么Muon优于Adam：曲率视角

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏集0

相似文章

Muon 优化器能否微调 Adam 预训练模型？

Muon 并没有那么特别：随机或反转谱同样有效

Muon需要多少正交化？

Muon优化器的谱缩放定律

SignMuon: 通信高效的分布式Muon优化

提交意见反馈