Muon 优化器能否微调 Adam 预训练模型?

Hugging Face Daily Papers 论文

摘要

研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。

Muon 已成为预训练中 Adam 的一种高效替代方案,但在微调中仍未得到充分使用。一个主要障碍是,大多数开放模型都是用 Adam 预训练的,如果直接切换到 Muon 进行微调,会因优化器不匹配而导致性能下降。我们通过对照实验研究了这种不匹配现象,并将其与 Adam 和 Muon 各自独特的隐式偏差联系起来。我们提供了证据,表明这种不匹配会破坏预训练知识,且破坏程度随更新强度的增加而加剧。这使我们提出假设:约束更新应该能缓解这种不匹配。我们用 LoRA 验证了这一点:在语言和视觉任务中,LoRA 缩小了在全量微调下观察到的 Adam 与 Muon 之间的性能差距。对 LoRA 秩、灾难性遗忘以及 LoRA 变体的研究进一步证实,不匹配的严重程度与更新强度相关。这些结果揭示了优化器不匹配如何影响微调以及如何缓解这种影响。我们的代码可在 https://github.com/XingyuQu/muon-finetune 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/12 10:52

论文页面 - Muon 能否微调基于 Adam 预训练的模型?

来源:https://huggingface.co/papers/2605.10468

摘要

在微调过程中,Adam 与 Muon 之间的优化器不匹配会导致性能下降,这是由于两者存在不同的隐式偏差。但可以通过使用如 LoRA 之类的参数高效微调方法来缓解这一问题。

Muon (https://huggingface.co/papers?q=Muon) 已成为预训练阶段替代 Adam (https://huggingface.co/papers?q=Adam) 的高效方案,但在微调 (https://huggingface.co/papers?q=fine-tuning) 领域的应用仍不充分。主要的障碍在于,大多数开源模型均使用 Adam (https://huggingface.co/papers?q=Adam) 进行预训练。如果直接在微调 (https://huggingface.co/papers?q=fine-tuning) 阶段切换至 Muon (https://huggingface.co/papers?q=Muon),会因优化器不匹配 (https://huggingface.co/papers?q=optimizer%20mismatch) 而导致性能下降。我们通过受控实验对该不匹配现象进行了调查,并将其与 Adam (https://huggingface.co/papers?q=Adam) 和 Muon (https://huggingface.co/papers?q=Muon) 截然不同的隐式偏差 (https://huggingface.co/papers?q=implicit%20biases) 联系起来。我们提供了证据表明,这种不匹配会破坏预训练知识,且破坏程度随更新强度的增加而加剧。由此我们提出假设:限制更新幅度应能缓解这种不匹配问题。我们通过 LoRA (https://huggingface.co/papers?q=LoRA) 验证了该假设:在语言和视觉任务中,LoRA (https://huggingface.co/papers?q=LoRA) 缩小了在完整微调 (https://huggingface.co/papers?q=fine-tuning) 条件下观察到的 Adam (https://huggingface.co/papers?q=Adam) 与 Muon (https://huggingface.co/papers?q=Muon) 之间的性能差距。关于 LoRA 秩 (LoRA (https://huggingface.co/papers?q=LoRA)rank)、灾难性遗忘 (https://huggingface.co/papers?q=catastrophic%20forgetting) 以及 LoRA 变体的研究进一步证实,不匹配的严重程度与更新强度密切相关。这些结果为理解优化器不匹配 (https://huggingface.co/papers?q=optimizer%20mismatch) 如何影响微调 (https://huggingface.co/papers?q=fine-tuning) 以及如何缓解该问题提供了新的见解。我们的代码已开源,地址为 https://github.com/XingyuQu/muon (https://huggingface.co/papers?q=muon)-finetune。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10468) 查看 PDF (https://arxiv.org/pdf/2605.10468) GitHub2 (https://github.com/XingyuQu/muon-finetune) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10468)

在您的智能体中获取本论文:

hf papers read 2605.10468

尚未安装最新版 CLI?curl -LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型 0

无链接至本论文的模型

请在模型的 README.md 中引用 arxiv.org/abs/2605.10468,即可从本页建立链接。

引用此论文的数据集 0

无链接至本论文的数据集

请在数据集的 README.md 中引用 arxiv.org/abs/2605.10468,即可从本页建立链接。

引用此论文的 Space 0

无链接至本论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.10468,即可从本页建立链接。

包含此论文的合集 0

无包含此论文的合集

将本论文添加至 a collection (https://huggingface.co/new-collection),即可从本页建立链接。

相似文章

Muon为何超越Adam:曲率视角

Hugging Face Daily Papers

本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。

基于无调度频谱优化的随时训练

arXiv cs.LG

本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。