neural-network-training

标签

Cards List
#neural-network-training

Zeta:基于坐标自适应预条件的矩阵优化双白化方法

arXiv cs.LG · 8小时前 缓存

Zeta 提出了一种双白化优化器,它首先应用坐标白化,再进行谱白化,以解决动量矩阵中的尺度异质性,从而降低正交化误差,并在大规模神经网络训练中改善收敛速度和泛化性能。

0 人收藏 0 人点赞
#neural-network-training

Muon$^p$: 分数谱幂的Muon优化器

arXiv cs.LG · 8小时前 缓存

本文介绍了Muon^p,一种新颖的优化器,采用分数谱幂更新在Muon和梯度下降之间进行插值,提供了理论证明并在十亿参数规模的微调任务上取得了实证收益。

0 人收藏 0 人点赞
#neural-network-training

Muon需要多少正交化?

arXiv cs.LG · 2026-06-02 缓存

本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈