标签
Aurora是一种杠杆感知的谱优化器,通过强制执行行均匀性同时保留Muon更新的极因子几何结构来解决MLP层中的神经元死亡问题,在modded-nanoGPT speedrun基准上实现了最先进的性能。
Megaprop 是一个新的库,用于跨 GPU 的高效预条件优化,它源自 Megatron 和 TransformerEngine,支持 FSDP 下的 Muon、FOOF、KFAC 和 Newton-Muon,并支持 MuP 以实现宽度和深度的优化。
本文介绍了Muon^p,一种新颖的优化器,采用分数谱幂更新在Muon和梯度下降之间进行插值,提供了理论证明并在十亿参数规模的微调任务上取得了实证收益。
Parallax 是一种新的参数化局部线性注意力形式,去除了数值求解器,在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器,与 Muon 配合有效,但与 AdamW 配合无效,这凸显了优化器几何形状的作用。
本文介绍了Gram Newton-Schulz,这是对Muon优化器中使用的牛顿-舒尔茨正交化过程的一种硬件感知优化,能够在保持模型质量的同时显著加速大型语言模型的训练。
本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。
本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。
本文介绍了MuCon,一种用于大语言模型训练的裁剪Muon优化器,它应用奇异值裁剪而非完全极化,保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法,包括极坐标/绝对值公式和有理牛顿滤波器,并指出了阈值附近的数值挑战。
本文介绍了DynMuon,一种动态频谱塑形优化器,它在训练过程中将更新参数p从正值调度为轻微负值,从而持续获得更低的验证损失,并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。