spectral-shaping

#spectral-shaping

Muon需要多少正交化？

arXiv cs.LG ↗ · 2026-06-02 缓存

本文研究了Muon优化器需要多少正交化，提出了一种五步三次牛顿-舒尔茨方案，该方案降低了计算成本，同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。

0 人收藏 0 人点赞

#spectral-shaping

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

本文介绍了DynMuon，一种动态频谱塑形优化器，它在训练过程中将更新参数p从正值调度为轻微负值，从而持续获得更低的验证损失，并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。

0 人收藏 0 人点赞