curvature

#curvature

Muon为何超越Adam：曲率视角

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文探究了Muon优化器在大型语言模型训练中为何优于Adam，从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚，且其优势因数据不平衡而放大。

0 人收藏 0 人点赞

#curvature

Reddit r/ArtificialInteligence ↗ · 2026-06-02

文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果，而非Bug，并提出了一个三行温度调度来预防它。

0 人收藏 0 人点赞

#curvature

Hacker News Top ↗ · 2026-05-14 缓存

时隔8年，作者重写了开源库pytorch-hessian-eigenthings，利用Lanczos等迭代方法为PyTorch模型提供Hessian及其他曲率矩阵的高效特征分解。

0 人收藏 0 人点赞