DynMuon：一种动态频谱塑形视角下的Muon优化器

Hugging Face Daily Papers 2026/05/16 00:00 论文

optimizer spectral-shaping muon dynamic training convergence large-language-models

摘要

本文介绍了DynMuon，一种动态频谱塑形优化器，它在训练过程中将更新参数p从正值调度为轻微负值，从而持续获得更低的验证损失，并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。

近年来，Muon已成为训练大型语言模型乃至更广泛Transformer架构的主流方法。与标准梯度下降法相比，其本质区别在于将通常的更新矩阵M=UΣV^top替换为其极分解因子UV^top。在本工作中，我们考虑一类类Muon更新，其中将更新M替换为UΣ^p V^top（p为某个参数）。我们将此操作称为“频谱塑形”，并发展了一套关于如何选择p的理论，该选择依赖于：(a) 损失函数的局部曲率，(b) 随机梯度和标签噪声带来的噪声，以及(c) 训练阶段。我们的理论和实验揭示了一种先前被忽视的行为：正的p在早期阶段通过强调高曲率方向并加速信号收缩而发挥作用；而轻微负的p在后期阶段通过将更新强度重新分配到仍包含有用训练信号的低曲率方向而发挥作用。基于这一洞察，我们提出了DynMuon，一种高效的动态频谱塑形方法，它在训练过程中将p从正值调度为轻微负值。在不同模型规模、架构和训练设置下的大量实验表明，DynMuon在达到相同目标损失时始终比Muon取得更低的验证损失，同时所需步数减少10.6%–26.5%。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:36

论文页面 - DynMuon: 动态频谱整形视角下的Muon

来源：https://huggingface.co/papers/2605.17109

摘要

Muon优化器的频谱整形方法在训练过程中动态调整更新参数以改善收敛，从而用更少的训练步骤实现更低的验证损失。

近年来，Muon (https://huggingface.co/papers?q=Muon)已成为训练大语言模型以及更广泛的Transformer模型的主导方法。与标准梯度下降 (https://huggingface.co/papers?q=gradient%20descent)方法相比，其本质区别在于将常规的更新矩阵 (https://huggingface.co/papers?q=update%20matrix)M=UΣV^T替换为其极因子 (https://huggingface.co/papers?q=polar%20factor)UV^T。在这项工作中，我们考虑一类类似Muon (https://huggingface.co/papers?q=Muon)的更新方法，其中将更新M替换为UΣ^p V^T，参数p可调。我们将此称为“频谱整形 (https://huggingface.co/papers?q=spectral-shaping)“操作，并发展了一套选择p的理论，该选择取决于(a)损失函数 (https://huggingface.co/papers?q=loss%20function)的局部曲率，(b)由随机梯度 (https://huggingface.co/papers?q=stochastic%20gradients)和标签噪声引起的噪声，以及(c)训练阶段 (https://huggingface.co/papers?q=training%20stage)。我们的理论和实验揭示了一种此前被忽视的行为：正的p在早期通过强调高曲率方向并加速信号收缩而有益；而轻微负的p在后期有助于将更新强度重新分配到仍包含有用训练信号的低曲率方向。基于这一洞察，我们提出了DynMuon (https://huggingface.co/papers?q=DynMuon)，一种高效的动态频谱整形方法，在训练过程中将p从正值调度到轻微负值。跨模型规模、架构和训练设置的大量实验表明，DynMuon (https://huggingface.co/papers?q=DynMuon)始终能达到比Muon (https://huggingface.co/papers?q=Muon)更低的验证损失，同时达到相同目标损失所需的步数减少了10.6%至26.5%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.17109)查看 PDF (https://arxiv.org/pdf/2605.17109)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17109)

引用该论文的模型0

没有模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2605.17109，以从该页面链接。

引用该论文的数据集0

没有数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2605.17109，以从该页面链接。

引用该论文的Spaces0

没有Space链接该论文

在 Space README.md 中引用 arxiv.org/abs/2605.17109，以从该页面链接。

包含该论文的收藏集0

没有收藏集包含该论文

将该论文添加到收藏集 (https://huggingface.co/new-collection)中以从该页面链接。

DynMuon：一种动态频谱塑形视角下的Muon优化器

论文页面 - DynMuon: 动态频谱整形视角下的Muon

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Spaces0

包含该论文的收藏集0

相似文章

FBI建造了一个模拟网络攻击的小镇

想要构建自定义模型

大型语言模型中的深度诅咒

@leerob: https://x.com/leerob/status/2065469795529588940

首个用于机器人的游戏引擎

提交意见反馈