@maximelabonne:事实证明你从来都不需要真正需要µP,你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…

X AI KOLs Following 新闻

摘要

一条推文指出,按模型宽度缩放嵌入学习率可以替代µP(微参数化)的需求,并提到对隐藏层使用Muon优化器,其余部分使用Adam。

事实证明你从来都不需要真正需要µP,你只需要按模型宽度缩放嵌入学习率。 我不是nanoGPT速度赛跑者,但这不是人们通过使用Muon处理隐藏层加上Adam处理其余部分偶然发现的东西吗?https://t.co/Ybs5C2rhlH
查看原文
查看缓存全文

缓存时间: 2026/05/22 03:49

原来你根本不需要μP,你只需要按模型宽度缩放嵌入学习率就行。

我不是nanoGPT速通玩家,但人们不就用Muon处理隐藏层、Adam处理其余部分,无意中撞上这个点的吗?https://t.co/Ybs5C2rhlH

相似文章

@leerob: https://x.com/leerob/status/2065469795529588940

X AI KOLs Following

Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统,该系统使用一组自我管理的代理,在出现问题时向人类发出警报。该系统支持并行实验并加速研究,将研究人员的时间视为最稀缺的资源。