@N8Programs: 激动地宣布一篇关于我注意到的有趣数学对称性的 arXiv 笔记……它将经典MLP与…连接起来

X AI KOLs Timeline 2026/06/23 15:02 论文

mlp gated-mlp mathematical-symmetry arxiv research neural-networks

摘要

宣布一篇关于数学对称性的 arXiv 笔记，该对称性将经典MLP与Gated MLP连接起来，超越了经验性能。

激动地宣布一篇 arXiv 笔记，关于我注意到的有趣的数学对称性……它以超越‘经验上表现更好’的方式将经典MLP与Gated MLP连接起来。以下为详细内容！https://t.co/iuHx3H6H6z

查看原文

查看缓存全文

缓存时间: 2026/06/24 12:24

激动地宣布一篇arXiv笔记，记录了我发现的一个有趣的数学对称性……它以一种超越“经验上好用”的方式，连接了经典MLP和门控MLP。详见下文！

Geva等人引入了经典MLP作为键值记忆的框架，其中W_1（up_proj）包含键，W_2包含值：

进一步观察MLP的和式形式，受注意力机制的启发，可以添加一个查询……

但由于MLP按令牌应用，每个输入令牌x_i只有一个，因此朴素的Qx_i方法会退化为原始形式！

即使尝试对每个神经元应用独立的Q_j，这也仅仅是每个键被Q_j变换而已。

为了获得新的表达能力，我们必须让键和查询都是输入x_i的动态函数，对MLP的每个神经元j使用不同的查询矩阵Q_j和键矩阵K_j：

这将成为一个二次型：

然而，存储会是一个噩梦——存储每个神经元的Q矩阵需要存储一个d_ff x d x d的张量，这是不可行的！每个神经元的K矩阵也是如此。

所以我们用秩-1矩阵（q_j^T k_j）来近似（Q_j K_j^T）矩阵，其中q_j和k_j属于R^d：

如果我们定义行向量为q_j的矩阵Q和行向量为k_j的矩阵K，那么可以将和式写成矩阵形式：

这便恢复了门控MLP中看到的逐元素乘积！将非线性函数σ移到其中一个分支上，就得到了常规形式，其中Q^T作为gate_proj，K^T作为up_proj。

这打破了一些对称性，使得在有非线性激活时，查询和键不可交换，这或许对优化有益。

更令人兴奋的是，这让我们可以将常规的门控MLP视为标准MLP，但其键和查询是动态的。

以上内容及更多细节见arXiv笔记：

相似文章

X AI KOLs Following

引入了适用于 LLM 优化器设计的对称兼容原则，由此得到一个逐层优化器栈，为嵌入层、LM 头、SwiGLU MLP 和 MoE 路由器提供了有原则的更新，在多种架构上展现出优于 AdamW 的验证损失。

X AI KOLs Following

新预印本《Mathematics is All You Need 2》提出了“双通道定理”，证明 Transformer 残差流中的行为纤维在不同架构（从 Qwen 到 Llama）间具有符号稳定性且可因果操控。该研究声称具有高可复现性，并显示行为基底接近一维，从而将生成过程与潜在结构分离开来。

Hugging Face Daily Papers

研究人员提出了对称兼容优化器，这些优化器尊重神经网络参数的等变性结构，相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证，包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。

Reddit r/MachineLearning

本文通过Lyapunov谱分析发现，MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性，最优范围在0.5–2之间，可防止秩坍缩。

X AI KOLs Timeline

讨论了这样一个发现：所有 softmax/线性注意力变体都可以被插值，并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。