adamw

标签

Cards List
#adamw

@maximelabonne: 为澄清,这篇论文基本上说明:在AdamW下,µP的嵌入学习率规则(常数)基本正确,并解释了…

X AI KOLs Following · 2026-05-22 缓存

这篇论文澄清,在AdamW下,µP的嵌入学习率规则(常数)基本正确,并解释了µP的大部分优势,这与Hayou等人先前关于现实LLM词汇规模的研究发现相反。

0 人收藏 0 人点赞
#adamw

Grokking延迟的首达时间预测:基于AdamW的校准定律与因果验证

arXiv cs.LG · 2026-05-20

本文首次对AdamW优化器下的grokking延迟进行了定量预测,推导出封闭形式的定律,并在算法任务上以高精度进行了验证。

0 人收藏 0 人点赞
#adamw

Learn-by-Wire 训练控制治理:压力下实现稳定与高效的受限自主训练

arXiv cs.AI · 2026-05-20 缓存

本文介绍了 LBW-Guard,一个位于 AdamW 优化器之上的受限自主训练控制治理层,用于监测遥测数据并在训练过程中施加受限控制,展示了在压力条件下困惑度的改善和训练速度的提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈