optimization-dynamics

标签

Cards List
#optimization-dynamics

奇异性分布的稳定性:语言模型预训练两阶段动力学的谱视角

arXiv cs.LG · 2026-05-27 缓存

本文在大规模语言模型预训练中发现了一种称为奇异性分布稳定性(SoSD)的谱现象,其中奇异值谱在早期就趋于稳定,而参数仍在持续演化。作者证明,这种稳定标志着训练进入慢速下降阶段,并分析了WSD和Muon等训练策略如何影响这一行为。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈