优化器设计的对称兼容原则:嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器
摘要
研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。
查看缓存全文
缓存时间: 2026/05/19 22:34
论文页面 - 与对称性兼容的优化器设计原则:嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器
来源:https://huggingface.co/papers/2605.18106
摘要
研究人员开发了与对称性兼容的优化器,这些优化器尊重神经网络参数的等变性结构,从而比 Adam 等传统坐标式方法在训练稳定性和性能上有所提升。
深度学习实践中长期存在一个显著的几何差异。虽然现代神经网络架构天然展现出丰富的对称性与等变性属性,但 Adam 及其变体等流行优化器本质上以坐标方式运行,无法尊重参数空间的等变性结构。我们通过引入一种与对称性兼容的优化器设计原则来解决这一差异:梯度更新规则应对于作用在对应权重块上的对称群是等变的。遵循这一原则,我们首先为通用矩阵层提供了双正交等变更新的统一视角,此类更新已被随机谱下降、Muon、Scion 和极梯度方法所采用。更重要的是,通过从正交群转向置换群和共享平移对称性,我们推导出针对那些对称性不同于通用矩阵层的参数块的与对称性兼容的优化器:嵌入层和语言模型头矩阵、SwiGLU MLP 投影以及 MoE 路由器矩阵。这些构造包括单侧谱更新、行范数更新、混合行范数/谱更新、行感知更新、列感知更新、中心化行范数更新和左谱更新。它们产生了一个端到端的逐层优化器堆栈,其中每个主要的矩阵值参数类别都被分配了一个更新,其等变性与其对称群相匹配。我们通过在密集和 稀疏 MoE 语言模型上的预训练实验来佐证这一原则,这些实验包括 Qwen3-0.6B 风格、Gemma 3 1B 风格、OLMoE-1B-7B 风格以及缩小版 gpt-oss 架构。在这些实验中,与对称性兼容的更新相较于相应的 AdamW 更新,始终能改善最终验证损失,并且在多个案例中提升了训练稳定性。
查看 arXiv 页面 (https://arxiv.org/abs/2605.18106) | 查看 PDF (https://arxiv.org/pdf/2605.18106) | GitHub1 (https://github.com/timlautk/equivariant_optimizers) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18106)
在您的代理中获取此论文:
hf papers read 2605.18106
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.18106 以从本页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.18106 以从本页面链接。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.18106 以从本页面链接。
包含此论文的合集0
没有包含此论文的合集
请将此论文添加到合集中以从本页面链接。
相似文章
@timlautk: 1/4 与 @weijie444 的新论文!我们引入了一种对称兼容的 LLM 优化器设计原则,并作为副产品...
引入了适用于 LLM 优化器设计的对称兼容原则,由此得到一个逐层优化器栈,为嵌入层、LM 头、SwiGLU MLP 和 MoE 路由器提供了有原则的更新,在多种架构上展现出优于 AdamW 的验证损失。
DualOptim+:桥接共享与解耦优化器状态以改进大型语言模型中的机器遗忘
介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。
自然场景中的对称性:等变性在神经流体替代模型中的作用
本文研究了群等变架构在神经流体动力学替代模型中的作用,引入了AB-GATr模型。研究发现,当数据缺乏强对齐时,等变性是有益的,但在高度对齐的数据集上可能会降低性能。
Aurora:一种针对矩形矩阵的杠杆感知优化器
Tilde Research 推出了 Aurora,这是一种新型优化器,旨在在保持正交性的同时防止 MLP 层中的神经元死亡,在 nanoGPT 基准测试中取得了最新成果,并在 1B 模型上实现了 100 倍的数据效率。
MoE专业化中的几何不对称性:功能去相关与表示重叠
本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。