mu-parameterization

#mu-parameterization

@maximelabonne：量化超参数迁移与嵌入层学习率的重要性（第一张截图，Kalra 和 Ba…

X AI KOLs Following ↗ · 2026-05-22 缓存

本文介绍了一个量化大语言模型中超参数迁移的框架，并发现在使用 AdamW 训练时，μP 相对于 SP 的优势主要源于提高了嵌入层学习率。此外，还探讨了权重衰减及其他因素的影响。

0 人收藏 0 人点赞