标签
本文对 Muon 优化器的几何依据提出了挑战,认为精确的几何结构不如步长最优性重要。文章引入了 Freon 和 Kaon 优化器,以证明随机或反转谱的性能与 Muon 相当。
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。