Muon 优化器能否微调 Adam 预训练模型?
摘要
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。
查看缓存全文
缓存时间: 2026/05/12 10:52
论文页面 - Muon 能否微调基于 Adam 预训练的模型?
来源:https://huggingface.co/papers/2605.10468
摘要
在微调过程中,Adam 与 Muon 之间的优化器不匹配会导致性能下降,这是由于两者存在不同的隐式偏差。但可以通过使用如 LoRA 之类的参数高效微调方法来缓解这一问题。
Muon (https://huggingface.co/papers?q=Muon) 已成为预训练阶段替代 Adam (https://huggingface.co/papers?q=Adam) 的高效方案,但在微调 (https://huggingface.co/papers?q=fine-tuning) 领域的应用仍不充分。主要的障碍在于,大多数开源模型均使用 Adam (https://huggingface.co/papers?q=Adam) 进行预训练。如果直接在微调 (https://huggingface.co/papers?q=fine-tuning) 阶段切换至 Muon (https://huggingface.co/papers?q=Muon),会因优化器不匹配 (https://huggingface.co/papers?q=optimizer%20mismatch) 而导致性能下降。我们通过受控实验对该不匹配现象进行了调查,并将其与 Adam (https://huggingface.co/papers?q=Adam) 和 Muon (https://huggingface.co/papers?q=Muon) 截然不同的隐式偏差 (https://huggingface.co/papers?q=implicit%20biases) 联系起来。我们提供了证据表明,这种不匹配会破坏预训练知识,且破坏程度随更新强度的增加而加剧。由此我们提出假设:限制更新幅度应能缓解这种不匹配问题。我们通过 LoRA (https://huggingface.co/papers?q=LoRA) 验证了该假设:在语言和视觉任务中,LoRA (https://huggingface.co/papers?q=LoRA) 缩小了在完整微调 (https://huggingface.co/papers?q=fine-tuning) 条件下观察到的 Adam (https://huggingface.co/papers?q=Adam) 与 Muon (https://huggingface.co/papers?q=Muon) 之间的性能差距。关于 LoRA 秩 (LoRA (https://huggingface.co/papers?q=LoRA)rank)、灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 以及 LoRA 变体的研究进一步证实,不匹配的严重程度与更新强度密切相关。这些结果为理解优化器不匹配 (https://huggingface.co/papers?q=optimizer%20mismatch) 如何影响微调 (https://huggingface.co/papers?q=fine-tuning) 以及如何缓解该问题提供了新的见解。我们的代码已开源,地址为 https://github.com/XingyuQu/muon (https://huggingface.co/papers?q=muon)-finetune。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10468) 查看 PDF (https://arxiv.org/pdf/2605.10468) GitHub2 (https://github.com/XingyuQu/muon-finetune) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10468)
在您的智能体中获取本论文:
hf papers read 2605.10468
尚未安装最新版 CLI?curl -LsSf https://hf.co/cli/install.sh \| bash
引用此论文的模型 0
无链接至本论文的模型
请在模型的 README.md 中引用 arxiv.org/abs/2605.10468,即可从本页建立链接。
引用此论文的数据集 0
无链接至本论文的数据集
请在数据集的 README.md 中引用 arxiv.org/abs/2605.10468,即可从本页建立链接。
引用此论文的 Space 0
无链接至本论文的 Space
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10468,即可从本页建立链接。
包含此论文的合集 0
无包含此论文的合集
将本论文添加至 a collection (https://huggingface.co/new-collection),即可从本页建立链接。
相似文章
Muon为何超越Adam:曲率视角
本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。
超越预训练重新思考Muon:VLA与RLVR的频谱失效与高通补救措施
本文介绍了Pion,一种新的优化器,它用高通NS迭代取代了Muon的频谱白化,以稳定低秩和低信噪比(low-SNR)条件下的训练,从而在VLA和RLVR任务中实现了更优的性能。
基于LMO方法的零阶无参数优化:高效微调的新方法
本文介绍了AdaNAGED,一种结合零阶优化、无参数自适应和非欧几里得更新几何的方法,用于大型语言模型的内存高效微调,具有理论收敛保证,并在OPT-1.3B模型上进行了验证。
基于无调度频谱优化的随时训练
本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。
@0xLogicrw: Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…
Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷,并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题,显著提升了训练效率。