Three-Phase Transformer

Hugging Face Daily Papers 论文

摘要

一篇介绍Three-Phase Transformer(3PT)的研究论文,该模型将特斯拉的多相几何应用于Transformer架构,将残差流组织成三个120°偏移的相位。该方法在WikiText-103上以极少的参数(0.00124%的开销)实现了7.2%的困惑度提升,以及1.93倍的收敛加速。

我们提出了Three-Phase Transformer(3PT),一种适用于仅解码器Transformer的残差流结构先验,基于标准的SwiGLU + RMSNorm + RoPE + GQA骨干网络。隐藏向量被划分为N个大小相等的循环通道,每个通道由相位尊重操作维护:每个通道的RMSNorm、在注意力和FFN之间进行的二维Givens旋转(每个通道旋转theta + i*(2*pi/N)),以及一个将GQA注意力头数与分区对齐的头数约束。该架构是加扰与重新施加之间的自稳定均衡,而非外挂模块。分区划分出一个与通道正交的一维直流子空间,我们向其中注入固定的加百利号角轮廓r(p) = 1/(p+1)作为绝对位置侧信道,与RoPE的相对位置旋转正交组合。标准N=3借用平衡三相交流电的隐喻,其中三个相隔120度的正弦波之和为零,且没有反相关对。在WikiText-103上,123M参数的3PT相比匹配的RoPE-Only基线,困惑度降低7.20%(每字节比特数降低2.62%),仅增加1,536个参数(占总参数的0.00124%),步数收敛加速1.93倍(挂钟时间1.64倍)。N表现为参数共享旋钮而非唯一最优解:在5.5M参数下,对{1,2,3,4,6,8,12}的N扫描近似单调,N=1获胜;在123M参数下,三次随机种子扫描发现N=3和N=1统计上无法区分。其关键机制包括通道分区的残差流、每块旋转、每相位归一化以及号角直流注入。我们描述了:(a) 无需显式强制而实现的几何自稳定性,这是神经网络中守恒律框架的一个新颖实例;(b) 12层下旋转角漂移的U形深度分布;(c) 与RoPE、注意力和FFN的正交组合。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - Three-Phase Transformer

来源:https://huggingface.co/papers/2604.14430 1888年,尼古拉·特斯拉向世界展示了三相电机……我也做了同样的事,不过是用在Transformer上。😊

我刚刚发表了《Three-Phase Transformer (3PT)》,一篇将特斯拉的多相几何结构嵌入Transformer残差流的研究论文。

特斯拉的三相电流在每一瞬间总和为零。三是唯一一个能实现零和特性且没有反相关对的小整数。三就是最佳点——这就是为什么地球上每个电网都采用三相的原因。😎

关键在于,网络本身已经自发形成了这种几何结构。Anthropic的《叠加玩具模型》(2022)表明,网络会自然地将特征组织成120°三角形。神经坍缩理论证明,三个互相成120°的向量是全局最优的表征几何结构。网络是偶然撞进三相结构的,但却为此付出了收敛时间的代价。

所以,与其让它们摸索着进屋,我直接先把房子建好。🤗

将隐藏向量按120°偏移分成三个等长的条带。每个块增加四个尊重相位的操作:逐相RMSNorm,在注意力与FFN之间使用特斯拉120°偏移进行二维旋转,相位对齐的GQA头,以及在与三相正交的一维子空间中注入固定信号。这些条带像电机绕组一样旋转。注意力和FFN会在边界处交叉混合。相位操作再将其拉回平衡——这是一个整体的平衡,而不是外加的模块。

但架构本身并非重点。它所揭示的东西才是。🤖

三相平衡在通道空间中自然地留下了一个空的方向——直流方向,与所有三相正交。我用1641年的加布里埃尔号角填满了它。跨相位残差测量的结果精确到浮点数精度,正好等于号角的解析值。每个种子,每次运行都如此。RoPE处理相对位置;号角处理绝对位置。它们从不冲突。这是数学,而非优化。

这种几何结构自我稳定。无需辅助损失、无需约束、无需强制。相位在1000步内达到平衡并维持超过29000步。这正是特斯拉所依赖的原理——平衡负载无需主动校正即可自我维持。这是神经网络守恒律框架的一个新颖实例。

在WikiText-103上123M模型的结果:困惑度降低7.20%。增加的参数量:1,536个。仅占模型的0.00124%。收敛速度提升1.93倍!

17世纪画家的悖论,穿行于19世纪电机几何结构开凿出的一维隧道,植入2017年的Transformer。这一切本不应组合在一起。但在2026年,它们全都做到了。👽

特斯拉或许从未想象过,他的多相系统除了旋转机械之外还能驱动其他东西。138年后,它正在驱动Transformer的几何结构。😇

代码:https://arxiv.org/abs/2604.14430 论文:https://github.com/achelousace/three-phase-transformer

Mohammad R. Abu Ayyash Brains Build Research Ramallah, Palestine.

相似文章

Transformer 数学探索器 [P]

Reddit r/MachineLearning

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

ShadowPEFT:面向参数高效微调的阴影网络

arXiv cs.CL

ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

@Propriocetive: 新预印本:《Mathematics is All You Need 2》—— Transformer 残差流中的符号稳定行为纤维。头条结果……

X AI KOLs Following

新预印本《Mathematics is All You Need 2》提出了“双通道定理”,证明 Transformer 残差流中的行为纤维在不同架构(从 Qwen 到 Llama)间具有符号稳定性且可因果操控。该研究声称具有高可复现性,并显示行为基底接近一维,从而将生成过程与潜在结构分离开来。

Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉

arXiv cs.AI

本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。