标签
本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。
本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。
本文提出了一种适用于 Adam 及其他自适应优化器的“杆流”模型,以更好地分析其在边缘稳定性(Edge of Stability)下的行为。该研究将连续时间建模扩展至动量方法,结果表明,与稳定的流模型相比,该模型在追踪离散迭代点方面具有更高的准确性。
本文重新审视了 Adam 优化器在流式强化学习中的应用,证明经过适当调优后,DQN 和 C51 等成熟方法表现良好。作者提出了自适应 Q(lambda) 算法,该算法将资格迹与 Adam 的方差自适应特性相结合,在 55 款 Atari 游戏中超越了现有的流式强化学习方法。
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。