@0xLogicrw: Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Auro…

X AI KOLs Timeline 工具

摘要

Tilde Research 发现 Muon 优化器存在导致 MLP 神经元早期死亡的缺陷,并开源了替代方案 Aurora。Aurora 在保持正交性的同时解决了神经元死亡问题,显著提升了训练效率。

Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。团队据此设计了替代优化器 Aurora 并开源。一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。 问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。训练初期,一部分神经元碰巧收到了较弱的梯度信号。AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。 此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。 未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。 代码和 1.1B 预训练模型均已开源。
查看原文

相似文章

Aurora:一种针对矩形矩阵的杠杆感知优化器

Lobsters Hottest

Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。

Muon 优化器能否微调 Adam 预训练模型?

Hugging Face Daily Papers

研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。

@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…

X AI KOLs Timeline

一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。

@0xLogicrw: MiniMax 发布技术博客,披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发,最终揭示了一个波及整个词表近 5% 的系统性退化问题。 根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段(预训练)用海…

X AI KOLs Timeline

MiniMax 发布技术博客,深入分析其 M2 系列大模型在无法输出特定人名背后的系统性词表退化问题,揭示了预训练与后训练数据覆盖脱节导致的参数偏移,并提出了通过全量合成数据进行修复的有效方案。