adamw

#adamw

@burny_tech: 关于优化器魔法的更新

X AI KOLs Timeline ↗ · 昨天缓存

一篇新的NVIDIA论文提出，像Muon和SOAP这样的高阶优化器，可以作为大规模LLM预训练中AdamW的更高效替代方案。

0 人收藏 0 人点赞

#adamw

arXiv cs.LG ↗ · 2026-07-16 缓存

本文评估了Muon优化器在低秩矩阵分解上的表现，发现它并未持续优于AdamW，从而对早期关于其在大型深度学习中的优势说法提出质疑。

0 人收藏 0 人点赞

#adamw

X AI KOLs Following ↗ · 2026-06-10 缓存

Parallax 是一种新的参数化局部线性注意力形式，去除了数值求解器，在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器，与 Muon 配合有效，但与 AdamW 配合无效，这凸显了优化器几何形状的作用。

0 人收藏 0 人点赞

#adamw

X AI KOLs Following ↗ · 2026-05-22 缓存

这篇论文澄清，在AdamW下，µP的嵌入学习率规则（常数）基本正确，并解释了µP的大部分优势，这与Hayou等人先前关于现实LLM词汇规模的研究发现相反。

0 人收藏 0 人点赞

#adamw

arXiv cs.LG ↗ · 2026-05-20

本文首次对AdamW优化器下的grokking延迟进行了定量预测，推导出封闭形式的定律，并在算法任务上以高精度进行了验证。

0 人收藏 0 人点赞

#adamw

arXiv cs.AI ↗ · 2026-05-20 缓存

本文介绍了 LBW-Guard，一个位于 AdamW 优化器之上的受限自主训练控制治理层，用于监测遥测数据并在训练过程中施加受限控制，展示了在压力条件下困惑度的改善和训练速度的提升。

0 人收藏 0 人点赞