Muon 优化器能否微调 Adam 预训练模型？

Hugging Face Daily Papers 2026/05/11 00:00 论文

muon adam fine-tuning lora optimizer-mismatch deep-learning

摘要

研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降，证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。

Muon 已成为预训练中 Adam 的一种高效替代方案，但在微调中仍未得到充分使用。一个主要障碍是，大多数开放模型都是用 Adam 预训练的，如果直接切换到 Muon 进行微调，会因优化器不匹配而导致性能下降。我们通过对照实验研究了这种不匹配现象，并将其与 Adam 和 Muon 各自独特的隐式偏差联系起来。我们提供了证据，表明这种不匹配会破坏预训练知识，且破坏程度随更新强度的增加而加剧。这使我们提出假设：约束更新应该能缓解这种不匹配。我们用 LoRA 验证了这一点：在语言和视觉任务中，LoRA 缩小了在全量微调下观察到的 Adam 与 Muon 之间的性能差距。对 LoRA 秩、灾难性遗忘以及 LoRA 变体的研究进一步证实，不匹配的严重程度与更新强度相关。这些结果揭示了优化器不匹配如何影响微调以及如何缓解这种影响。我们的代码可在 https://github.com/XingyuQu/muon-finetune 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - Muon 能否微调基于 Adam 预训练的模型？

来源：https://huggingface.co/papers/2605.10468

摘要

在微调过程中，Adam 与 Muon 之间的优化器不匹配会导致性能下降，这是由于两者存在不同的隐式偏差。但可以通过使用如 LoRA 之类的参数高效微调方法来缓解这一问题。

Muon (https://huggingface.co/papers?q=Muon) 已成为预训练阶段替代 Adam (https://huggingface.co/papers?q=Adam) 的高效方案，但在微调 (https://huggingface.co/papers?q=fine-tuning) 领域的应用仍不充分。主要的障碍在于，大多数开源模型均使用 Adam (https://huggingface.co/papers?q=Adam) 进行预训练。如果直接在微调 (https://huggingface.co/papers?q=fine-tuning) 阶段切换至 Muon (https://huggingface.co/papers?q=Muon)，会因优化器不匹配 (https://huggingface.co/papers?q=optimizer%20mismatch) 而导致性能下降。我们通过受控实验对该不匹配现象进行了调查，并将其与 Adam (https://huggingface.co/papers?q=Adam) 和 Muon (https://huggingface.co/papers?q=Muon) 截然不同的隐式偏差 (https://huggingface.co/papers?q=implicit%20biases) 联系起来。我们提供了证据表明，这种不匹配会破坏预训练知识，且破坏程度随更新强度的增加而加剧。由此我们提出假设：限制更新幅度应能缓解这种不匹配问题。我们通过 LoRA (https://huggingface.co/papers?q=LoRA) 验证了该假设：在语言和视觉任务中，LoRA (https://huggingface.co/papers?q=LoRA) 缩小了在完整微调 (https://huggingface.co/papers?q=fine-tuning) 条件下观察到的 Adam (https://huggingface.co/papers?q=Adam) 与 Muon (https://huggingface.co/papers?q=Muon) 之间的性能差距。关于 LoRA 秩 (LoRA (https://huggingface.co/papers?q=LoRA)rank)、灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 以及 LoRA 变体的研究进一步证实，不匹配的严重程度与更新强度密切相关。这些结果为理解优化器不匹配 (https://huggingface.co/papers?q=optimizer%20mismatch) 如何影响微调 (https://huggingface.co/papers?q=fine-tuning) 以及如何缓解该问题提供了新的见解。我们的代码已开源，地址为 https://github.com/XingyuQu/muon (https://huggingface.co/papers?q=muon)-finetune。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10468) 查看 PDF (https://arxiv.org/pdf/2605.10468) GitHub2 (https://github.com/XingyuQu/muon-finetune) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10468)

在您的智能体中获取本论文：

hf papers read 2605.10468

尚未安装最新版 CLI？curl -LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型 0

无链接至本论文的模型

请在模型的 README.md 中引用 arxiv.org/abs/2605.10468，即可从本页建立链接。

引用此论文的数据集 0

无链接至本论文的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2605.10468，即可从本页建立链接。

引用此论文的 Space 0

无链接至本论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10468，即可从本页建立链接。

包含此论文的合集 0

无包含此论文的合集

将本论文添加至 a collection (https://huggingface.co/new-collection)，即可从本页建立链接。

@0xLogicrw: Tilde Research 发现，被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷：它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…

X AI KOLs Timeline

Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷，并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题，显著提升了训练效率。

Muon 优化器能否微调 Adam 预训练模型？

论文页面 - Muon 能否微调基于 Adam 预训练的模型？

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的合集 0

相似文章

Muon为何超越Adam：曲率视角

超越预训练重新思考Muon：VLA与RLVR的频谱失效与高通补救措施

基于LMO方法的零阶无参数优化：高效微调的新方法

基于无调度频谱优化的随时训练

@0xLogicrw: Tilde Research 发现，被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷：它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…

提交意见反馈