超越预训练重新思考Muon：VLA与RLVR的频谱失效与高通补救措施

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

本文介绍了Pion，一种新的优化器，它用高通NS迭代取代了Muon的频谱白化，以稳定低秩和低信噪比（low-SNR）条件下的训练，从而在VLA和RLVR任务中实现了更优的性能。

Muon是一种矩阵感知优化器，利用牛顿-舒尔茨（NS）迭代，通过将动量矩阵的所有奇异值推向1来实现频谱梯度正交化。虽然这种均匀的频谱白化增强了探索性，并在LLM预训练中优于AdamW，但我们表明，在预训练之外的两个场景中，它可能导致根本性的限制：(i) 跨模态视觉-语言-动作（VLA）训练，其中固有的低秩动作模块梯度会导致噪声尾方向的放大；(ii) 基于可验证奖励的强化学习（RLVR），其中低信噪比梯度以及需要保留先前训练中的每头部专业化特性使得白化变得不稳定。为了解决这些挑战，我们提出了Pion，它是Muon的直接替代品，保留了其计算效率，同时用我们称为高通NS迭代的两阶段促进+抑制机制取代了均匀频谱白化。这种设计会产生强烈的频谱高通效应，将主要奇异值锚定在1，同时将噪声尾分量抑制到0附近，并具有可控的滤波器强度。为了保留预训练的每头部异质性，Pion还支持一种每头部模式，通过简单的重塑操作独立地在注意力头之间应用更新，且无需额外成本。在LIBERO和LIBERO-Plus上的VLA训练中，Pion在l_1回归（VLA-Adapter）和流匹配（VLANeXt）架构上均持续优于两个基线，例如，使用VLA-Adapter在LIBERO Object任务上经过1500步训练后达到100%的成功率，而Muon为97.0%，AdamW仅为32.2%。Pion的优势进一步扩展到真实的Franka Research 3机器人上，该机器人搭载pi_0.5主干，在DROID设置下完成三个抓取和放置任务。在使用GRPO和GMPO对Qwen3-1.7B/4B进行RLVR后训练中，Pion在MATH和GSM8K上同样优于AdamW，而Muon则退化到零。

查看原文

查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - 超越预训练阶段重新审视Muon：VLA与RLVR中的频谱失效与高通修复方法

来源：https://huggingface.co/papers/2605.19282

摘要

Muon在LLM预训练中采用的频谱白化方法被Pion所取代，后者使用高通牛顿-舒尔茨（NS）迭代来稳定低秩和低信噪比（SNR）条件下的训练，同时保持计算效率并支持逐头更新。

Muon (https://huggingface.co/papers?q=Muon)是一种矩阵感知优化器，它利用牛顿-舒尔茨（NS）迭代来实现频谱梯度正交化 (https://huggingface.co/papers?q=spectral%20gradient%20orthogonalization)，通过将动量矩阵的所有奇异值 (https://huggingface.co/papers?q=singular%20values) 推向1。然而，这种均匀的频谱白化虽然增强了探索能力，且在LLM预训练中优于AdamW，但我们表明，在预训练之外的两个场景中，它可能导致根本性局限：(i) 跨模态视觉-语言-动作 (https://huggingface.co/papers?q=cross-modality%20vision-language-action)（VLA）训练，其中动作模块梯度天生低秩，导致噪声尾方向被放大；(ii) 带可验证奖励的强化学习 (https://huggingface.co/papers?q=reinforcement%20learning%20with%20verifiable%20rewards)（RLVR），其中梯度低信噪比（SNR）且需要保留先前训练中每个头的专长，这使得白化变得不稳定。为解决这些问题，我们提出Pion，作为Muon (https://huggingface.co/papers?q=Muon)的即插即用替代方案，它保持原有计算效率的同时，将均匀频谱白化替换为两阶段的“提升+抑制”机制，我们称之为高通NS迭代。该设计引入了尖锐的频谱高通效应 (https://huggingface.co/papers?q=spectral%20high-pass%20effect)，将主导奇异值 (https://huggingface.co/papers?q=singular%20values) 锚定在1，同时将噪声尾成分抑制到接近0，并支持可调节的滤波强度。为了保留预训练得到的逐头异质性，Pion还支持逐头模式 (https://huggingface.co/papers?q=per-head%20mode)，通过简单reshape操作在注意力头 (https://huggingface.co/papers?q=attention%20heads) 之间独立应用更新，且不增加额外成本。在LIBERO和LIBERO-Plus上的VLA训练中，Pion在l1回归（VLA-Adapter (https://huggingface.co/papers?q=VLA-Adapter)）和流匹配（VLANeXt (https://huggingface.co/papers?q=VLANeXt)）两种架构上均持续优于两种基线，例如在LIBERO Object任务上，使用VLA-Adapter (https://huggingface.co/papers?q=VLA-Adapter) 训练1500步后达到100%成功率，而Muon (https://huggingface.co/papers?q=Muon)为97.0%，AdamW仅为32.2%。Pion的优势进一步扩展到采用pi_0.5骨干网络、在DROID设置 (https://huggingface.co/papers?q=DROID%20setup) 下的真实Franka Research 3机器人上的三项抓取-放置任务。在Qwen3-1.7B/4B采用GRPO (https://huggingface.co/papers?q=GRPO) 和GMPO (https://huggingface.co/papers?q=GMPO) 的RLVR后训练中，Pion在MATH和GSM8K上同样优于AdamW，而Muon (https://huggingface.co/papers?q=Muon)则崩溃至零。

查看arXiv页面 (https://arxiv.org/abs/2605.19282) 查看PDF (https://arxiv.org/pdf/2605.19282) 项目页面 (https://chongyu-fan.netlify.app/posts/pion/) GitHub3 (https://github.com/OPTML-Group/Pion) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19282)

在你的代理中获取这篇论文：

hf papers read 2605\.19282

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

暂无模型链接此论文

在模型的README.md中引用arxiv.org/abs/2605.19282即可从此页面链接。

引用该论文的数据集0

暂无数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2605.19282即可从此页面链接。

引用该论文的Space0

暂无Space链接此论文

在Space的README.md中引用arxiv.org/abs/2605.19282即可从此页面链接。

包含该论文的收藏集0

暂无包含此论文的收藏集

将这篇论文添加到收藏集 (https://huggingface.co/new-collection) 中即可从此页面链接。

超越预训练重新思考Muon：VLA与RLVR的频谱失效与高通补救措施

论文页面 - 超越预训练阶段重新审视Muon：VLA与RLVR中的频谱失效与高通修复方法

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的Space0

包含该论文的收藏集0

相似文章

Pion：一种通过正交等价变换保持谱的优化器

Muon 优化器能否微调 Adam 预训练模型？

MuCon: Clipped Muon Updates for LLM Training

基于无调度频谱优化的随时训练

Muon优化器的谱缩放定律

提交意见反馈