@maximelabonne:事实证明你从来都不需要真正需要µP,你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…
摘要
一条推文指出,按模型宽度缩放嵌入学习率可以替代µP(微参数化)的需求,并提到对隐藏层使用Muon优化器,其余部分使用Adam。
事实证明你从来都不需要真正需要µP,你只需要按模型宽度缩放嵌入学习率。
我不是nanoGPT速度赛跑者,但这不是人们通过使用Muon处理隐藏层加上Adam处理其余部分偶然发现的东西吗?https://t.co/Ybs5C2rhlH
查看缓存全文
缓存时间: 2026/05/22 03:49
原来你根本不需要μP,你只需要按模型宽度缩放嵌入学习率就行。
我不是nanoGPT速通玩家,但人们不就用Muon处理隐藏层、Adam处理其余部分,无意中撞上这个点的吗?https://t.co/Ybs5C2rhlH
相似文章
@RitOnchain: Jane Street 每年支付 75 万美元给那些全面掌握矩阵计算的量化专家,这些计算可用于从太空卫星中获取 alpha…
由 MIT 应用数学团队提供的免费 57 分钟资源,涵盖了矩阵计算和自动微分,面向量化专家和优化领域,并强调了 Jane Street 为此类技能提供的高额薪酬。
@jino_rohit: 新的深入博客文章《Collective Communication for Multiple GPUs》。这篇博客应该能帮助你理解通信……
一篇新的深入博客文章解释了多GPU的集体通信,涵盖广播和归约等原语,并帮助初学者理解如何扩展实验。
@leerob: https://x.com/leerob/status/2065469795529588940
Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统,该系统使用一组自我管理的代理,在出现问题时向人类发出警报。该系统支持并行实验并加速研究,将研究人员的时间视为最稀缺的资源。
@GitTrend0x: Hermes 起飞前的必备插件 皮书中文实战大全,优化指南全流程手册、Hermes HUD 可视化大脑、Scarf 原生 macOS GUI、Open Design 本地设计技能包……全网程序员把 Hermes 玩成了下一代 Agent …
总结了围绕 Hermes Agent 框架的多个社区插件和资源,包括中文实战指南、优化手册、可视化监控工具、原生 macOS GUI 和设计技能包,帮助用户从入门到高级优化。
@RisingSayak: 发布首个内核以最终优化来自@Lightricks的LTX-2.3!torch.compile + cuDNN attn 已经…
发布了一个自定义内核,进一步优化来自Lightricks的LTX-2.3,在GB10上实现了1.52倍加速,基于之前的torch.compile和cuDNN注意力优化。