@maximelabonne：事实证明你从来都不需要真正需要µP，你只需要按模型宽度缩放嵌入学习率。我不是nanoGP…

X AI KOLs Following 2026/05/21 23:21 新闻

embedding learning-rate model-width scaling training optimization

摘要

一条推文指出，按模型宽度缩放嵌入学习率可以替代µP（微参数化）的需求，并提到对隐藏层使用Muon优化器，其余部分使用Adam。

事实证明你从来都不需要真正需要µP，你只需要按模型宽度缩放嵌入学习率。我不是nanoGPT速度赛跑者，但这不是人们通过使用Muon处理隐藏层加上Adam处理其余部分偶然发现的东西吗？https://t.co/Ybs5C2rhlH

查看原文

查看缓存全文

缓存时间: 2026/05/22 03:49

原来你根本不需要μP，你只需要按模型宽度缩放嵌入学习率就行。

我不是nanoGPT速通玩家，但人们不就用Muon处理隐藏层、Adam处理其余部分，无意中撞上这个点的吗？https://t.co/Ybs5C2rhlH

相似文章

X AI KOLs Timeline

由 MIT 应用数学团队提供的免费 57 分钟资源，涵盖了矩阵计算和自动微分，面向量化专家和优化领域，并强调了 Jane Street 为此类技能提供的高额薪酬。

X AI KOLs Following

一篇新的深入博客文章解释了多GPU的集体通信，涵盖广播和归约等原语，并帮助初学者理解如何扩展实验。

X AI KOLs Following

Cursor AI 描述了其用于扩展 Composer 模型训练的递归代理系统，该系统使用一组自我管理的代理，在出现问题时向人类发出警报。该系统支持并行实验并加速研究，将研究人员的时间视为最稀缺的资源。

X AI KOLs Timeline

总结了围绕 Hermes Agent 框架的多个社区插件和资源，包括中文实战指南、优化手册、可视化监控工具、原生 macOS GUI 和设计技能包，帮助用户从入门到高级优化。

X AI KOLs Following

发布了一个自定义内核，进一步优化来自Lightricks的LTX-2.3，在GB10上实现了1.52倍加速，基于之前的torch.compile和cuDNN注意力优化。