mu-p

标签

Cards List
#mu-p

@maximelabonne: 为澄清,这篇论文基本上说明:在AdamW下,µP的嵌入学习率规则(常数)基本正确,并解释了…

X AI KOLs Following · 2026-05-22 缓存

这篇论文澄清,在AdamW下,µP的嵌入学习率规则(常数)基本正确,并解释了µP的大部分优势,这与Hayou等人先前关于现实LLM词汇规模的研究发现相反。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈