超越预训练重新思考Muon:VLA与RLVR的频谱失效与高通补救措施
摘要
本文介绍了Pion,一种新的优化器,它用高通NS迭代取代了Muon的频谱白化,以稳定低秩和低信噪比(low-SNR)条件下的训练,从而在VLA和RLVR任务中实现了更优的性能。
查看缓存全文
缓存时间: 2026/05/25 06:36
论文页面 - 超越预训练阶段重新审视Muon:VLA与RLVR中的频谱失效与高通修复方法
来源:https://huggingface.co/papers/2605.19282
摘要
Muon在LLM预训练中采用的频谱白化方法被Pion所取代,后者使用高通牛顿-舒尔茨(NS)迭代来稳定低秩和低信噪比(SNR)条件下的训练,同时保持计算效率并支持逐头更新。
Muon (https://huggingface.co/papers?q=Muon)是一种矩阵感知优化器,它利用牛顿-舒尔茨(NS)迭代来实现频谱梯度正交化 (https://huggingface.co/papers?q=spectral%20gradient%20orthogonalization),通过将动量矩阵的所有奇异值 (https://huggingface.co/papers?q=singular%20values) 推向1。然而,这种均匀的频谱白化虽然增强了探索能力,且在LLM预训练中优于AdamW,但我们表明,在预训练之外的两个场景中,它可能导致根本性局限:(i) 跨模态视觉-语言-动作 (https://huggingface.co/papers?q=cross-modality%20vision-language-action)(VLA)训练,其中动作模块梯度天生低秩,导致噪声尾方向被放大;(ii) 带可验证奖励的强化学习 (https://huggingface.co/papers?q=reinforcement%20learning%20with%20verifiable%20rewards)(RLVR),其中梯度低信噪比(SNR)且需要保留先前训练中每个头的专长,这使得白化变得不稳定。为解决这些问题,我们提出Pion,作为Muon (https://huggingface.co/papers?q=Muon)的即插即用替代方案,它保持原有计算效率的同时,将均匀频谱白化替换为两阶段的“提升+抑制”机制,我们称之为高通NS迭代。该设计引入了尖锐的频谱高通效应 (https://huggingface.co/papers?q=spectral%20high-pass%20effect),将主导奇异值 (https://huggingface.co/papers?q=singular%20values) 锚定在1,同时将噪声尾成分抑制到接近0,并支持可调节的滤波强度。为了保留预训练得到的逐头异质性,Pion还支持逐头模式 (https://huggingface.co/papers?q=per-head%20mode),通过简单reshape操作在注意力头 (https://huggingface.co/papers?q=attention%20heads) 之间独立应用更新,且不增加额外成本。在LIBERO和LIBERO-Plus上的VLA训练中,Pion在l1回归(VLA-Adapter (https://huggingface.co/papers?q=VLA-Adapter))和流匹配(VLANeXt (https://huggingface.co/papers?q=VLANeXt))两种架构上均持续优于两种基线,例如在LIBERO Object任务上,使用VLA-Adapter (https://huggingface.co/papers?q=VLA-Adapter) 训练1500步后达到100%成功率,而Muon (https://huggingface.co/papers?q=Muon)为97.0%,AdamW仅为32.2%。Pion的优势进一步扩展到采用pi_0.5骨干网络、在DROID设置 (https://huggingface.co/papers?q=DROID%20setup) 下的真实Franka Research 3机器人上的三项抓取-放置任务。在Qwen3-1.7B/4B采用GRPO (https://huggingface.co/papers?q=GRPO) 和GMPO (https://huggingface.co/papers?q=GMPO) 的RLVR后训练中,Pion在MATH和GSM8K上同样优于AdamW,而Muon (https://huggingface.co/papers?q=Muon)则崩溃至零。
查看arXiv页面 (https://arxiv.org/abs/2605.19282) 查看PDF (https://arxiv.org/pdf/2605.19282) 项目页面 (https://chongyu-fan.netlify.app/posts/pion/) GitHub3 (https://github.com/OPTML-Group/Pion) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19282)
在你的代理中获取这篇论文:
hf papers read 2605\.19282
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
暂无模型链接此论文
在模型的README.md中引用arxiv.org/abs/2605.19282即可从此页面链接。
引用该论文的数据集0
暂无数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2605.19282即可从此页面链接。
引用该论文的Space0
暂无Space链接此论文
在Space的README.md中引用arxiv.org/abs/2605.19282即可从此页面链接。
包含该论文的收藏集0
暂无包含此论文的收藏集
将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 中即可从此页面链接。
相似文章
Pion:一种通过正交等价变换保持谱的优化器
本文介绍了 Pion,这是一种用于大语言模型训练的的新型谱保持优化器。它利用正交等价变换在权重更新过程中维持奇异值,从而提供与标准优化器相当的稳定性能。
Muon 优化器能否微调 Adam 预训练模型?
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。
MuCon: Clipped Muon Updates for LLM Training
本文介绍了MuCon,一种用于大语言模型训练的裁剪Muon优化器,它应用奇异值裁剪而非完全极化,保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法,包括极坐标/绝对值公式和有理牛顿滤波器,并指出了阈值附近的数值挑战。
基于无调度频谱优化的随时训练
本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。
Muon优化器的谱缩放定律
本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。