@N8Programs: 激动地宣布一篇关于我注意到的有趣数学对称性的 arXiv 笔记……它将经典MLP与…连接起来

X AI KOLs Timeline 论文

摘要

宣布一篇关于数学对称性的 arXiv 笔记,该对称性将经典MLP与Gated MLP连接起来,超越了经验性能。

激动地宣布一篇 arXiv 笔记,关于我注意到的有趣的数学对称性……它以超越‘经验上表现更好’的方式将经典MLP与Gated MLP连接起来。以下为详细内容!https://t.co/iuHx3H6H6z
查看原文
查看缓存全文

缓存时间: 2026/06/24 12:24

激动地宣布一篇arXiv笔记,记录了我发现的一个有趣的数学对称性……它以一种超越“经验上好用”的方式,连接了经典MLP和门控MLP。详见下文!

Geva等人引入了经典MLP作为键值记忆的框架,其中W_1(up_proj)包含键,W_2包含值:

进一步观察MLP的和式形式,受注意力机制的启发,可以添加一个查询……

但由于MLP按令牌应用,每个输入令牌x_i只有一个,因此朴素的Qx_i方法会退化为原始形式!

即使尝试对每个神经元应用独立的Q_j,这也仅仅是每个键被Q_j变换而已。

为了获得新的表达能力,我们必须让键和查询都是输入x_i的动态函数,对MLP的每个神经元j使用不同的查询矩阵Q_j和键矩阵K_j:

这将成为一个二次型:

然而,存储会是一个噩梦——存储每个神经元的Q矩阵需要存储一个d_ff x d x d的张量,这是不可行的!每个神经元的K矩阵也是如此。

所以我们用秩-1矩阵(q_j^T k_j)来近似(Q_j K_j^T)矩阵,其中q_j和k_j属于R^d:

如果我们定义行向量为q_j的矩阵Q和行向量为k_j的矩阵K,那么可以将和式写成矩阵形式:

这便恢复了门控MLP中看到的逐元素乘积!将非线性函数σ移到其中一个分支上,就得到了常规形式,其中Q^T作为gate_proj,K^T作为up_proj。

这打破了一些对称性,使得在有非线性激活时,查询和键不可交换,这或许对优化有益。

更令人兴奋的是,这让我们可以将常规的门控MLP视为标准MLP,但其键和查询是动态的。

以上内容及更多细节见arXiv笔记:

相似文章

@Propriocetive: 新预印本:《Mathematics is All You Need 2》—— Transformer 残差流中的符号稳定行为纤维。头条结果……

X AI KOLs Following

新预印本《Mathematics is All You Need 2》提出了“双通道定理”,证明 Transformer 残差流中的行为纤维在不同架构(从 Qwen 到 Llama)间具有符号稳定性且可因果操控。该研究声称具有高可复现性,并显示行为基底接近一维,从而将生成过程与潜在结构分离开来。