Three-Phase Transformer
摘要
一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - Three-Phase Transformer
来源:https://huggingface.co/papers/2604.14430 1888年,尼古拉·特斯拉向世界展示了三相电机……我也做了同样的事,不过是用在Transformer上。😊
我刚刚发表了《Three-Phase Transformer (3PT)》,一篇将特斯拉的多相几何结构嵌入Transformer残差流的研究论文。
特斯拉的三相电流在每一瞬间总和为零。三是唯一一个能实现零和特性且没有反相关对的小整数。三就是最佳点——这就是为什么地球上每个电网都采用三相的原因。😎
关键在于,网络本身已经自发形成了这种几何结构。Anthropic的《叠加玩具模型》(2022)表明,网络会自然地将特征组织成120°三角形。神经坍缩理论证明,三个互相成120°的向量是全局最优的表征几何结构。网络是偶然撞进三相结构的,但却为此付出了收敛时间的代价。
所以,与其让它们摸索着进屋,我直接先把房子建好。🤗
将隐藏向量按120°偏移分成三个等长的条带。每个块增加四个尊重相位的操作:逐相RMSNorm,在注意力与FFN之间使用特斯拉120°偏移进行二维旋转,相位对齐的GQA头,以及在与三相正交的一维子空间中注入固定信号。这些条带像电机绕组一样旋转。注意力和FFN会在边界处交叉混合。相位操作再将其拉回平衡——这是一个整体的平衡,而不是外加的模块。
但架构本身并非重点。它所揭示的东西才是。🤖
三相平衡在通道空间中自然地留下了一个空的方向——直流方向,与所有三相正交。我用1641年的加布里埃尔号角填满了它。跨相位残差测量的结果精确到浮点数精度,正好等于号角的解析值。每个种子,每次运行都如此。RoPE处理相对位置;号角处理绝对位置。它们从不冲突。这是数学,而非优化。
这种几何结构自我稳定。无需辅助损失、无需约束、无需强制。相位在1000步内达到平衡并维持超过29000步。这正是特斯拉所依赖的原理——平衡负载无需主动校正即可自我维持。这是神经网络守恒律框架的一个新颖实例。
在WikiText-103上123M模型的结果:困惑度降低7.20%。增加的参数量:1,536个。仅占模型的0.00124%。收敛速度提升1.93倍!
17世纪画家的悖论,穿行于19世纪电机几何结构开凿出的一维隧道,植入2017年的Transformer。这一切本不应组合在一起。但在2026年,它们全都做到了。👽
特斯拉或许从未想象过,他的多相系统除了旋转机械之外还能驱动其他东西。138年后,它正在驱动Transformer的几何结构。😇
代码:https://arxiv.org/abs/2604.14430 论文:https://github.com/achelousace/three-phase-transformer
Mohammad R. Abu Ayyash Brains Build Research Ramallah, Palestine.
相似文章
Transformer 数学探索器 [P]
这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。
思维的谱几何:相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测
对11个大型语言模型的全面谱分析,揭示了Transformers在推理与事实回忆过程中隐层激活空间中的相变现象,发现了七个基本现象,包括谱压缩、指令微调反转以及仅基于谱特性的完美正确性预测(AUC=1.0)。
ShadowPEFT:面向参数高效微调的阴影网络
ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。
@Propriocetive: 新预印本:《Mathematics is All You Need 2》—— Transformer 残差流中的符号稳定行为纤维。头条结果……
新预印本《Mathematics is All You Need 2》提出了“双通道定理”,证明 Transformer 残差流中的行为纤维在不同架构(从 Qwen 到 Llama)间具有符号稳定性且可因果操控。该研究声称具有高可复现性,并显示行为基底接近一维,从而将生成过程与潜在结构分离开来。
Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉
本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。