标签
本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。
本文介绍了DynMuon,一种动态频谱塑形优化器,它在训练过程中将更新参数p从正值调度为轻微负值,从而持续获得更低的验证损失,并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。