@N8Programs: 激动地宣布一篇关于我注意到的有趣数学对称性的 arXiv 笔记……它将经典MLP与…连接起来
摘要
宣布一篇关于数学对称性的 arXiv 笔记,该对称性将经典MLP与Gated MLP连接起来,超越了经验性能。
查看缓存全文
缓存时间: 2026/06/24 12:24
激动地宣布一篇arXiv笔记,记录了我发现的一个有趣的数学对称性……它以一种超越“经验上好用”的方式,连接了经典MLP和门控MLP。详见下文!
Geva等人引入了经典MLP作为键值记忆的框架,其中W_1(up_proj)包含键,W_2包含值:
进一步观察MLP的和式形式,受注意力机制的启发,可以添加一个查询……
但由于MLP按令牌应用,每个输入令牌x_i只有一个,因此朴素的Qx_i方法会退化为原始形式!
即使尝试对每个神经元应用独立的Q_j,这也仅仅是每个键被Q_j变换而已。
为了获得新的表达能力,我们必须让键和查询都是输入x_i的动态函数,对MLP的每个神经元j使用不同的查询矩阵Q_j和键矩阵K_j:
这将成为一个二次型:
然而,存储会是一个噩梦——存储每个神经元的Q矩阵需要存储一个d_ff x d x d的张量,这是不可行的!每个神经元的K矩阵也是如此。
所以我们用秩-1矩阵(q_j^T k_j)来近似(Q_j K_j^T)矩阵,其中q_j和k_j属于R^d:
如果我们定义行向量为q_j的矩阵Q和行向量为k_j的矩阵K,那么可以将和式写成矩阵形式:
这便恢复了门控MLP中看到的逐元素乘积!将非线性函数σ移到其中一个分支上,就得到了常规形式,其中Q^T作为gate_proj,K^T作为up_proj。
这打破了一些对称性,使得在有非线性激活时,查询和键不可交换,这或许对优化有益。
更令人兴奋的是,这让我们可以将常规的门控MLP视为标准MLP,但其键和查询是动态的。
以上内容及更多细节见arXiv笔记:
相似文章
@timlautk: 1/4 与 @weijie444 的新论文!我们引入了一种对称兼容的 LLM 优化器设计原则,并作为副产品...
引入了适用于 LLM 优化器设计的对称兼容原则,由此得到一个逐层优化器栈,为嵌入层、LM 头、SwiGLU MLP 和 MoE 路由器提供了有原则的更新,在多种架构上展现出优于 AdamW 的验证损失。
@Propriocetive: 新预印本:《Mathematics is All You Need 2》—— Transformer 残差流中的符号稳定行为纤维。头条结果……
新预印本《Mathematics is All You Need 2》提出了“双通道定理”,证明 Transformer 残差流中的行为纤维在不同架构(从 Qwen 到 Llama)间具有符号稳定性且可因果操控。该研究声称具有高可复现性,并显示行为基底接近一维,从而将生成过程与潜在结构分离开来。
优化器设计的对称兼容原则:嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器
研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。
我发现Transformer中一个预测几何稳定性的隐藏比率 [R]
本文通过Lyapunov谱分析发现,MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性,最优范围在0.5–2之间,可防止秩坍缩。
@zhaoran_wang: 对我来说,最酷的发现是你可以连接/插值所有 softmax/线性 变体,并给出一个有前途的方向……
讨论了这样一个发现:所有 softmax/线性注意力变体都可以被插值,并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。