优化器设计的对称兼容原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

Hugging Face Daily Papers 2026/05/18 00:00 论文

optimizer symmetry equivariance neural-networks training deep-learning pre-training

摘要

研究人员提出了对称兼容优化器，这些优化器尊重神经网络参数的等变性结构，相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证，包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。

在深度学习实践中，长期以来一直存在一个引人注目的几何差异。虽然现代神经网络架构自然地表现出丰富的对称性和等变性质，但 Adam 及其变体等流行优化器本质上是逐坐标操作的，因此无法尊重参数空间的等变结构。我们通过引入一种优化器设计的对称兼容原则来解决这种差异：梯度更新规则在作用于相应权重块的对称群下应是等变的。遵循这一原则，我们首先为一般矩阵层的双正交等变更新提供了一个统一的视角，这些更新已被随机谱下降、Muon、Scion 和极坐标梯度方法所采用。更重要的是，通过从正交群转向排列和共享移位对称性，我们为那些对称性与一般矩阵层不同的参数块推导出了对称兼容优化器：嵌入层和语言模型头矩阵、SwiGLU MLP 投影以及 MoE 路由器矩阵。这些构造包括单边谱更新、行范数更新、混合行范数/谱更新、行感知更新、列感知更新、中心化行范数更新和左谱更新。它们产生了一个端到端的逐层优化器堆栈，其中每个主要的矩阵值参数类都被分配了一个更新，其等变性与其对称群相匹配。我们通过在密集和稀疏 MoE 语言模型上的预训练实验来证实这一原则，包括 Qwen3-0.6B 风格、Gemma 3 1B 风格、OLMoE-1B-7B 风格以及缩小版的 gpt-oss 架构。在这些实验中，与相应的 AdamW 更新相比，对称兼容更新一致地改善了最终的验证损失，并在多个案例中提高了训练稳定性。

查看原文

查看缓存全文

缓存时间: 2026/05/19 22:34

论文页面 - 与对称性兼容的优化器设计原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

来源：https://huggingface.co/papers/2605.18106

摘要

研究人员开发了与对称性兼容的优化器，这些优化器尊重神经网络参数的等变性结构，从而比 Adam 等传统坐标式方法在训练稳定性和性能上有所提升。

深度学习实践中长期存在一个显著的几何差异。虽然现代神经网络架构天然展现出丰富的对称性与等变性属性，但 Adam 及其变体等流行优化器本质上以坐标方式运行，无法尊重参数空间的等变性结构。我们通过引入一种与对称性兼容的优化器设计原则来解决这一差异：梯度更新规则应对于作用在对应权重块上的对称群是等变的。遵循这一原则，我们首先为通用矩阵层提供了双正交等变更新的统一视角，此类更新已被随机谱下降、Muon、Scion 和极梯度方法所采用。更重要的是，通过从正交群转向置换群和共享平移对称性，我们推导出针对那些对称性不同于通用矩阵层的参数块的与对称性兼容的优化器：嵌入层和语言模型头矩阵、SwiGLU MLP 投影以及 MoE 路由器矩阵。这些构造包括单侧谱更新、行范数更新、混合行范数/谱更新、行感知更新、列感知更新、中心化行范数更新和左谱更新。它们产生了一个端到端的逐层优化器堆栈，其中每个主要的矩阵值参数类别都被分配了一个更新，其等变性与其对称群相匹配。我们通过在密集和稀疏 MoE 语言模型上的预训练实验来佐证这一原则，这些实验包括 Qwen3-0.6B 风格、Gemma 3 1B 风格、OLMoE-1B-7B 风格以及缩小版 gpt-oss 架构。在这些实验中，与对称性兼容的更新相较于相应的 AdamW 更新，始终能改善最终验证损失，并且在多个案例中提升了训练稳定性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.18106) | 查看 PDF (https://arxiv.org/pdf/2605.18106) | GitHub1 (https://github.com/timlautk/equivariant_optimizers) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.18106)

在您的代理中获取此论文：

hf papers read 2605.18106

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18106 以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18106 以从本页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18106 以从本页面链接。

包含此论文的合集0

没有包含此论文的合集

请将此论文添加到合集中以从本页面链接。

优化器设计的对称兼容原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

论文页面 - 与对称性兼容的优化器设计原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的合集0

相似文章

@timlautk: 1/4 与 @weijie444 的新论文！我们引入了一种对称兼容的 LLM 优化器设计原则，并作为副产品...

DualOptim+：桥接共享与解耦优化器状态以改进大型语言模型中的机器遗忘

自然场景中的对称性：等变性在神经流体替代模型中的作用

Aurora：一种针对矩形矩阵的杠杆感知优化器

MoE专业化中的几何不对称性：功能去相关与表示重叠

提交意见反馈