标签
这篇论文澄清,在AdamW下,µP的嵌入学习率规则(常数)基本正确,并解释了µP的大部分优势,这与Hayou等人先前关于现实LLM词汇规模的研究发现相反。
本文首次对AdamW优化器下的grokking延迟进行了定量预测,推导出封闭形式的定律,并在算法任务上以高精度进行了验证。
本文介绍了 LBW-Guard,一个位于 AdamW 优化器之上的受限自主训练控制治理层,用于监测遥测数据并在训练过程中施加受限控制,展示了在压力条件下困惑度的改善和训练速度的提升。