Three-Phase Transformer
摘要
一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - Three-Phase Transformer
来源:https://huggingface.co/papers/2604.14430 1888年,尼古拉·特斯拉向世界展示了三相电机……我也做了同样的事,不过是用在Transformer上。😊
我刚刚发表了《Three-Phase Transformer (3PT)》,一篇将特斯拉的多相几何结构嵌入Transformer残差流的研究论文。
特斯拉的三相电流在每一瞬间总和为零。三是唯一一个能实现零和特性且没有反相关对的小整数。三就是最佳点——这就是为什么地球上每个电网都采用三相的原因。😎
关键在于,网络本身已经自发形成了这种几何结构。Anthropic的《叠加玩具模型》(2022)表明,网络会自然地将特征组织成120°三角形。神经坍缩理论证明,三个互相成120°的向量是全局最优的表征几何结构。网络是偶然撞进三相结构的,但却为此付出了收敛时间的代价。
所以,与其让它们摸索着进屋,我直接先把房子建好。🤗
将隐藏向量按120°偏移分成三个等长的条带。每个块增加四个尊重相位的操作:逐相RMSNorm,在注意力与FFN之间使用特斯拉120°偏移进行二维旋转,相位对齐的GQA头,以及在与三相正交的一维子空间中注入固定信号。这些条带像电机绕组一样旋转。注意力和FFN会在边界处交叉混合。相位操作再将其拉回平衡——这是一个整体的平衡,而不是外加的模块。
但架构本身并非重点。它所揭示的东西才是。🤖
三相平衡在通道空间中自然地留下了一个空的方向——直流方向,与所有三相正交。我用1641年的加布里埃尔号角填满了它。跨相位残差测量的结果精确到浮点数精度,正好等于号角的解析值。每个种子,每次运行都如此。RoPE处理相对位置;号角处理绝对位置。它们从不冲突。这是数学,而非优化。
这种几何结构自我稳定。无需辅助损失、无需约束、无需强制。相位在1000步内达到平衡并维持超过29000步。这正是特斯拉所依赖的原理——平衡负载无需主动校正即可自我维持。这是神经网络守恒律框架的一个新颖实例。
在WikiText-103上123M模型的结果:困惑度降低7.20%。增加的参数量:1,536个。仅占模型的0.00124%。收敛速度提升1.93倍!
17世纪画家的悖论,穿行于19世纪电机几何结构开凿出的一维隧道,植入2017年的Transformer。这一切本不应组合在一起。但在2026年,它们全都做到了。👽
特斯拉或许从未想象过,他的多相系统除了旋转机械之外还能驱动其他东西。138年后,它正在驱动Transformer的几何结构。😇
代码:https://arxiv.org/abs/2604.14430 论文:https://github.com/achelousace/three-phase-transformer
Mohammad R. Abu Ayyash Brains Build Research Ramallah, Palestine.
相似文章
Transformer 数学探索器 [P]
这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。
DxPTA: 面向光子Transformer加速器硬件/软件协同设计的基于光学数据流引导的架构设计空间探索方法
本文提出DxPTA,一种新颖的设计空间探索方法,用于高效地对满足面积、功耗、能量和延迟约束的光子Transformer加速器进行硬件/软件协同设计。与穷举方法相比,其搜索速度最高提升15.2倍,从而能够为多种Transformer模型实现高效的PTA设计。
通用量子变换器
本文介绍了通用量子变换器(UQT),这是一种量子原生架构,利用多量子比特系统实现精确数学推理,在模运算和置换群上达到确定性泛化,同时绕过了经典过参数化和二次注意力瓶颈,并已部署在IBM Quantum硬件上。
Phase Marginalization: 解决Vision Transformers中补丁网格不稳定性
Phase Marginalization是一种事后方法,通过评估结构化补丁网格相位并聚合输出来解决Vision Transformers中依赖于相位的不稳定性。与标准基线相比,它以最小的额外成本改善了分割、深度和局部匹配性能。
Lite3R:一种高效的模型无关前馈3D重建框架
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。