Three-Phase Transformer

Hugging Face Daily Papers 2026/04/15 00:00 论文

摘要

一篇介绍Three-Phase Transformer（3PT）的研究论文，该模型将特斯拉的多相几何应用于Transformer架构，将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数（0.00124%的开销）实现了7.2%的困惑度提升，以及1.93倍的收敛加速。

我们提出了Three-Phase Transformer（3PT），一种适用于仅解码器Transformer的残差流结构先验，基于标准的SwiGLU + RMSNorm + RoPE + GQA骨干网络。隐藏向量被划分为N个大小相等的循环通道，每个通道由相位尊重操作维护：每个通道的RMSNorm、在注意力和FFN之间进行的二维Givens旋转（每个通道旋转theta + i*(2*pi/N)），以及一个将GQA注意力头数与分区对齐的头数约束。该架构是加扰与重新施加之间的自稳定均衡，而非外挂模块。分区划分出一个与通道正交的一维直流子空间，我们向其中注入固定的加百利号角轮廓r(p) = 1/(p+1)作为绝对位置侧信道，与RoPE的相对位置旋转正交组合。标准N=3借用平衡三相交流电的隐喻，其中三个相隔120度的正弦波之和为零，且没有反相关对。在WikiText-103上，123M参数的3PT相比匹配的RoPE-Only基线，困惑度降低7.20%（每字节比特数降低2.62%），仅增加1,536个参数（占总参数的0.00124%），步数收敛加速1.93倍（挂钟时间1.64倍）。N表现为参数共享旋钮而非唯一最优解：在5.5M参数下，对{1,2,3,4,6,8,12}的N扫描近似单调，N=1获胜；在123M参数下，三次随机种子扫描发现N=3和N=1统计上无法区分。其关键机制包括通道分区的残差流、每块旋转、每相位归一化以及号角直流注入。我们描述了：(a) 无需显式强制而实现的几何自稳定性，这是神经网络中守恒律框架的一个新颖实例；(b) 12层下旋转角漂移的U形深度分布；(c) 与RoPE、注意力和FFN的正交组合。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - Three-Phase Transformer

来源：https://huggingface.co/papers/2604.14430 1888年，尼古拉·特斯拉向世界展示了三相电机……我也做了同样的事，不过是用在Transformer上。😊

我刚刚发表了《Three-Phase Transformer (3PT)》，一篇将特斯拉的多相几何结构嵌入Transformer残差流的研究论文。

特斯拉的三相电流在每一瞬间总和为零。三是唯一一个能实现零和特性且没有反相关对的小整数。三就是最佳点——这就是为什么地球上每个电网都采用三相的原因。😎

关键在于，网络本身已经自发形成了这种几何结构。Anthropic的《叠加玩具模型》(2022)表明，网络会自然地将特征组织成120°三角形。神经坍缩理论证明，三个互相成120°的向量是全局最优的表征几何结构。网络是偶然撞进三相结构的，但却为此付出了收敛时间的代价。

所以，与其让它们摸索着进屋，我直接先把房子建好。🤗

将隐藏向量按120°偏移分成三个等长的条带。每个块增加四个尊重相位的操作：逐相RMSNorm，在注意力与FFN之间使用特斯拉120°偏移进行二维旋转，相位对齐的GQA头，以及在与三相正交的一维子空间中注入固定信号。这些条带像电机绕组一样旋转。注意力和FFN会在边界处交叉混合。相位操作再将其拉回平衡——这是一个整体的平衡，而不是外加的模块。

但架构本身并非重点。它所揭示的东西才是。🤖

三相平衡在通道空间中自然地留下了一个空的方向——直流方向，与所有三相正交。我用1641年的加布里埃尔号角填满了它。跨相位残差测量的结果精确到浮点数精度，正好等于号角的解析值。每个种子，每次运行都如此。RoPE处理相对位置；号角处理绝对位置。它们从不冲突。这是数学，而非优化。

这种几何结构自我稳定。无需辅助损失、无需约束、无需强制。相位在1000步内达到平衡并维持超过29000步。这正是特斯拉所依赖的原理——平衡负载无需主动校正即可自我维持。这是神经网络守恒律框架的一个新颖实例。

在WikiText-103上123M模型的结果：困惑度降低7.20%。增加的参数量：1,536个。仅占模型的0.00124%。收敛速度提升1.93倍！

17世纪画家的悖论，穿行于19世纪电机几何结构开凿出的一维隧道，植入2017年的Transformer。这一切本不应组合在一起。但在2026年，它们全都做到了。👽

特斯拉或许从未想象过，他的多相系统除了旋转机械之外还能驱动其他东西。138年后，它正在驱动Transformer的几何结构。😇

代码：https://arxiv.org/abs/2604.14430 论文：https://github.com/achelousace/three-phase-transformer

Mohammad R. Abu Ayyash Brains Build Research Ramallah, Palestine.

Three-Phase Transformer

论文页面 - Three-Phase Transformer

相似文章

Transformer 数学探索器 [P]

思维的谱几何：相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测

ShadowPEFT：面向参数高效微调的阴影网络

@Propriocetive: 新预印本：《Mathematics is All You Need 2》—— Transformer 残差流中的符号稳定行为纤维。头条结果……

Transformer 记忆的吸引子几何：从冲突仲裁到自信幻觉

提交意见反馈