标签
Zeta 提出了一种双白化优化器,它首先应用坐标白化,再进行谱白化,以解决动量矩阵中的尺度异质性,从而降低正交化误差,并在大规模神经网络训练中改善收敛速度和泛化性能。
本文介绍了Muon^p,一种新颖的优化器,采用分数谱幂更新在Muon和梯度下降之间进行插值,提供了理论证明并在十亿参数规模的微调任务上取得了实证收益。
本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。