spectral-optimization

标签

Cards List
#spectral-optimization

基于无调度频谱优化的随时训练

arXiv cs.LG · 2026-05-25 缓存

本文介绍了SF-NorMuon,一种无调度频谱优化器,在参数规模达7.72亿的语言模型上匹配或超越调优后的AdamW,并提供了平稳性和长期稳定性的理论保证。

0 人收藏 0 人点赞
#spectral-optimization

Orth-Dion: 消除分布式低秩谱优化中的几何失配

arXiv cs.LG · 2026-05-19 缓存

本文指出了Dion低秩谱优化器中的几何失配,并提出了Orth-Dion,该方案用QR正交化替换列归一化,以在相同通信成本下弥合与Muon等全秩方法的收敛差距,并在大规模语言模型预训练中进行了验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈