@0xLogicrw: Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…
摘要
Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷,并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题,显著提升了训练效率。
Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Aurora 并开源。一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。 问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。训练初期,一部分神经元碰巧收到了较弱的梯度信号。AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。 此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。 未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。 代码和 1.1B 预训练模型均已开源。
相似文章
Aurora: 一种杠杆感知的谱优化器
Aurora是一种杠杆感知的谱优化器,通过强制执行行均匀性同时保留Muon更新的极因子几何结构来解决MLP层中的神经元死亡问题,在modded-nanoGPT speedrun基准上实现了最先进的性能。
Aurora:一种针对矩形矩阵的杠杆感知优化器
Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。
Muon 优化器能否微调 Adam 预训练模型?
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。
@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2…
Moonshot AI创始人杨植麟发布40分钟视频,详细拆解Kimi K2模型训练过程,仅花费460万美元,并在8模型编程大战中击败GPT-5.5等夺得第一,展现小团队通过架构优化颠覆传统堆算力模式。
Open source battle: GLM vs Kimi vs MiMo vs DeepSeek
本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。