标签
本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。
文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果,而非Bug,并提出了一个三行温度调度来预防它。
时隔8年,作者重写了开源库pytorch-hessian-eigenthings,利用Lanczos等迭代方法为PyTorch模型提供Hessian及其他曲率矩阵的高效特征分解。