DynMuon:一种动态频谱塑形视角下的Muon优化器

Hugging Face Daily Papers 论文

摘要

本文介绍了DynMuon,一种动态频谱塑形优化器,它在训练过程中将更新参数p从正值调度为轻微负值,从而持续获得更低的验证损失,并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。

近年来,Muon已成为训练大型语言模型乃至更广泛Transformer架构的主流方法。与标准梯度下降法相比,其本质区别在于将通常的更新矩阵M=UΣV^top替换为其极分解因子UV^top。在本工作中,我们考虑一类类Muon更新,其中将更新M替换为UΣ^p V^top(p为某个参数)。我们将此操作称为“频谱塑形”,并发展了一套关于如何选择p的理论,该选择依赖于:(a) 损失函数的局部曲率,(b) 随机梯度和标签噪声带来的噪声,以及(c) 训练阶段。我们的理论和实验揭示了一种先前被忽视的行为:正的p在早期阶段通过强调高曲率方向并加速信号收缩而发挥作用;而轻微负的p在后期阶段通过将更新强度重新分配到仍包含有用训练信号的低曲率方向而发挥作用。基于这一洞察,我们提出了DynMuon,一种高效的动态频谱塑形方法,它在训练过程中将p从正值调度为轻微负值。在不同模型规模、架构和训练设置下的大量实验表明,DynMuon在达到相同目标损失时始终比Muon取得更低的验证损失,同时所需步数减少10.6%–26.5%。
查看原文
查看缓存全文

缓存时间: 2026/05/22 02:36

论文页面 - DynMuon: 动态频谱整形视角下的Muon

来源:https://huggingface.co/papers/2605.17109

摘要

Muon优化器的频谱整形方法在训练过程中动态调整更新参数以改善收敛,从而用更少的训练步骤实现更低的验证损失。

近年来,Muon (https://huggingface.co/papers?q=Muon)已成为训练大语言模型以及更广泛的Transformer模型的主导方法。与标准梯度下降 (https://huggingface.co/papers?q=gradient%20descent)方法相比,其本质区别在于将常规的更新矩阵 (https://huggingface.co/papers?q=update%20matrix)M=UΣV^T替换为其极因子 (https://huggingface.co/papers?q=polar%20factor)UV^T。在这项工作中,我们考虑一类类似Muon (https://huggingface.co/papers?q=Muon)的更新方法,其中将更新M替换为UΣ^p V^T,参数p可调。我们将此称为“频谱整形 (https://huggingface.co/papers?q=spectral-shaping)“操作,并发展了一套选择p的理论,该选择取决于(a)损失函数 (https://huggingface.co/papers?q=loss%20function)的局部曲率,(b)由随机梯度 (https://huggingface.co/papers?q=stochastic%20gradients)和标签噪声引起的噪声,以及(c)训练阶段 (https://huggingface.co/papers?q=training%20stage)。我们的理论和实验揭示了一种此前被忽视的行为:正的p在早期通过强调高曲率方向并加速信号收缩而有益;而轻微负的p在后期有助于将更新强度重新分配到仍包含有用训练信号的低曲率方向。基于这一洞察,我们提出了DynMuon (https://huggingface.co/papers?q=DynMuon),一种高效的动态频谱整形方法,在训练过程中将p从正值调度到轻微负值。跨模型规模、架构和训练设置的大量实验表明,DynMuon (https://huggingface.co/papers?q=DynMuon)始终能达到比Muon (https://huggingface.co/papers?q=Muon)更低的验证损失,同时达到相同目标损失所需的步数减少了10.6%至26.5%。

查看 arXiv 页面 (https://arxiv.org/abs/2605.17109)查看 PDF (https://arxiv.org/pdf/2605.17109)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.17109)

引用该论文的模型0

没有模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2605.17109,以从该页面链接。

引用该论文的数据集0

没有数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2605.17109,以从该页面链接。

引用该论文的Spaces0

没有Space链接该论文

在 Space README.md 中引用 arxiv.org/abs/2605.17109,以从该页面链接。

包含该论文的收藏集0

没有收藏集包含该论文

将该论文添加到收藏集 (https://huggingface.co/new-collection)中以从该页面链接。

相似文章

FBI建造了一个模拟网络攻击的小镇

The Verge

FBI在阿拉巴马州亨茨维尔建造了一个22000平方英尺的模拟小镇,名为Kinetic Cyber Range,用于模拟网络攻击以进行培训和研究,系统隔离以防止恶意软件逃逸。

想要构建自定义模型

Reddit r/LocalLLaMA

一位用户讨论将小型自动补全模型(2500万参数)作为学习项目来构建,提到硬件限制(32GB VRAM)、数据要求(约1亿个token),并寻求关于数据集和自动补全式训练的数据格式的建议。

大型语言模型中的深度诅咒

Lobsters Hottest

本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。

@leerob: https://x.com/leerob/status/2065469795529588940

X AI KOLs Following

Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统,该系统使用一组自我管理的代理,在出现问题时向人类发出警报。该系统支持并行实验并加速研究,将研究人员的时间视为最稀缺的资源。

首个用于机器人的游戏引擎

Hacker News Top

Lucky Robots 宣布推出 Lucky Engine,这是首个专为机器人设计的游戏引擎,通过逼真的模拟和部署,为机器人 AI 训练生成无限数据。