标签
本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。
本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。