curvature

标签

Cards List
#curvature

Muon为何超越Adam:曲率视角

Hugging Face Daily Papers · 2026-06-03 缓存

本文探究了Muon优化器在大型语言模型训练中为何优于Adam,从曲率视角表明Muon因更低的归一化方向锐度而承受更小的曲率惩罚,且其优势因数据不平衡而放大。

0 人收藏 0 人点赞
#curvature

你的Transformer注意力熵坍缩不是Bug。模型只是在做你训练它做的事。以下是用三行温度调度修复它的方法。可投稿arXiv。自包含证明。无需引用。

Reddit r/ArtificialInteligence · 2026-06-02

文章解释了深度Transformer层中的注意力熵坍缩是训练带来的几何后果,而非Bug,并提出了一个三行温度调度来预防它。

0 人收藏 0 人点赞
#curvature

时隔8年,我重写了我的开源PyTorch曲率库

Hacker News Top · 2026-05-14 缓存

时隔8年,作者重写了开源库pytorch-hessian-eigenthings,利用Lanczos等迭代方法为PyTorch模型提供Hessian及其他曲率矩阵的高效特征分解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈