基于广义杨-巴克斯特方程的可积令牌混合层
摘要
论文介绍了YB-Mixer,这是一种从广义杨-巴克斯特方程推导出的令牌混合层,具有精确的范数保持、深度稳定特性,并支持无顺序推理和可变预算推理。与注意力机制和状态空间基线相比,它在长程记忆任务上以更少的参数实现了具有竞争力的性能。
查看缓存全文
缓存时间: 2026/06/16 11:37
# 1. 引言 来源:https://arxiv.org/html/2606.15085 源自广义杨–Baxter方程的可积令牌混合层 Snigdha Chandan Khilar¹ ¹独立研究员 | [email protected] ††脚注文本:通讯邮箱:[email protected]###### 摘要 我们提出 **YB-Mixer**,一种序列令牌混合层,它源自最近用于构建*隐藏*横向场伊辛模型的自由费米子/广义 Yang–Baxter 结构。该设计基于可积系统的一个可迁移核心原理:一个作用于相邻操作的*局部*代数约束能够保证*全局*计算特性,且与具体表示无关。具体而言,*伊辛交换代数*(一种超特殊 22 群关系)保证了:(i)自由费米子结构,使该混合器成为精确保范的正交映射;(ii)交换传递矩阵,使推理*与顺序无关*且*预算可变*(“任意时刻”)。我们提供了一个完整、可重现的包含七个实验的实证流程。我们以机器精度数值验证了广义 Yang–Baxter 方程(gYBE);证明并验证了 YBE 约束可简化为一个良态的代数替代条件,使可积门变得高效可学习;构建了一个砖墙式 YB-Mixer 层,它确切保持范数且深度稳定(雅可比条件数在所有深度均为 1=1);验证了交换传递矩阵及由此产生的与调度无关的推理;训练了一个端到端的可积流模型,在长距离传输任务上以约~3.3×更少的参数匹配了自注意力基线;并展示了注意力机制所缺乏的精确顺序自由、预算可变的推理能力。我们与正交 RNN、对角状态空间模型、注意力和非线性混合器基线进行了比较,发现 YB-Mixer 在参数更少的情况下,在长程记忆任务上匹配或超越了结构化基线,而在依赖内容的召回任务上诚实逊于非线性混合器。最后,我们展示了由*局部*生成器导致的长度泛化失败问题,可通过*谱*(非局部、循环)生成器来解决,该生成器保持正交和交换性:在 L=16 上训练,可泛化到 L=64,且准确率大致持平。在约 ~2.5M 参数的规模下,针对五个下游任务,与经过*适当调优*的基线(S4D-Lin/HiPPO SSM、LRU、Transformer 和 FNet)比较,正交谱混合器与最强的基线不相上下——在五个任务中的三个上以最少参数达到最佳或并列最佳,在序列 CIFAR(LRA-Image)上达到 84.8%,而同等框架的 Transformer、LRU 和 FNet 为 51–72%——并且是唯一精确解决长程令牌检索(归纳头)任务的两种混合器之一。代码:https://github.com/nssprogrammer/yb-mixer。 现代序列模型由跨位置交换信息的*令牌混合器*构建:自注意力 [12] (https://arxiv.org/html/2606.15085#bib.bib12)、MLP 式混合器 [13] (https://arxiv.org/html/2606.15085#bib.bib13) 和结构化状态空间模型 (SSM) [22] (https://arxiv.org/html/2606.15085#bib.bib22)、[15] (https://arxiv.org/html/2606.15085#bib.bib15)、[30] (https://arxiv.org/html/2606.15085#bib.bib30)。两个反复出现的实际问题是*稳定性*(梯度不应随深度消失或爆炸)和*推理灵活性*(在测试时能够花费可变的计算量)。正交和酉循环层 [14] (https://arxiv.org/html/2606.15085#bib.bib14) 从结构上保证了稳定性。在此,我们探究是否可以将更为丰富的*量子可积性*工具箱——其核心是关于多个操作何时*交换*的理论——导出,用于设计具有可证明结构的令牌混合器。 我们的出发点是最近从广义 Yang–Baxter 方程构建*隐藏*横向场伊辛模型 (TFIM) 的工作 [1] (https://arxiv.org/html/2606.15085#bib.bib1)。该工作表明,表面上相互作用的多位点自旋链实际上是自由费米子型的、可积的,并受其哈密顿密度的*伊辛交换代数*支配。从物理学中抽象出的关键教训是一个设计模式: > *相邻操作之间的纯粹局部代数关系,可以保证一个全局的、与表示无关的计算特性——此处指精确可对角化(正交性)和操作算子的交换族(顺序自由)。* 我们将此模式转化为具体的神经层 YB-Mixer,并数值验证了链条中的每一个环节。我们的贡献如下: 1. 一个经过验证的可积原语(第 4.1 节 (https://arxiv.org/html/2606.15085#S4.SS1))。我们从超特殊 22 群生成元构造了广义 YBE R 矩阵,并验证了 \((d,6,3)\)-gYBE 达到机器精度。 2. 一个可学习性约化(第 4.2 节 (https://arxiv.org/html/2606.15085#S4.SS2))。我们证明,对于 Baxter 化 ansatz \(R(\lambda) = \mathbb{1} + \tan(\lambda) M\),编织后的 YBE 残差消失*当且仅当* \(M^2 = \mathbb{1}\) 且相邻嵌入反交换;同时表明直接残差最小化是病态的,而等效的代数替代条件能可靠地产生可积门。 3. 一个保范、深度稳定的混合器(第 4.3 节 (https://arxiv.org/html/2606.15085#S4.SS3))。自由费米子门对令牌特征作用为正交映射;由这些门组成的砖墙结构,其雅可比条件数在所有深度精确为 1。 4. 交换传递矩阵和(有范围的)任意时刻推理(第 4.4 节 (https://arxiv.org/html/2606.15085#S4.SS4)、第 4.6 节 (https://arxiv.org/html/2606.15085#S4.SS6))。我们验证了 \([\tau(\lambda), \tau(\mu)] \approx 0\),并展示了一个可积*流*模型支持*精确*的顺序自由、预算可变的推理。我们明确指出这是单参数群的一个性质,仅对可积液流成立(而非包含 YB-Mixer 层的任意网络),并且是更广泛自适应计算思想 [26] (https://arxiv.org/html/2606.15085#bib.bib26)、[27] (https://arxiv.org/html/2606.15085#bib.bib27)、[40] (https://arxiv.org/html/2606.15085#bib.bib40)、[41] (https://arxiv.org/html/2606.15085#bib.bib41) 的一种实现——具有精确性和顺序自由的保证。 5. 一个严谨诚实的实证研究(第 4.5 节 (https://arxiv.org/html/2606.15085#S4.SS5)、第 4.7 节 (https://arxiv.org/html/2606.15085#S4.SS7))。YB-Mixer 在参数远少于自注意力基线的情况下(多随机种子),在一个长程传输任务上与其匹配,并附有原则性的初始化方案;我们记录了一个根植于自由费米子色散的长度泛化局限性。 6. 基线与长度泛化修复(第 4.8 节 (https://arxiv.org/html/2606.15085#S4.SS8)、第 4.7 节 (https://arxiv.org/html/2606.15085#S4.SS7))。与正交 RNN、对角 SSM、注意力和非线性混合器相比,YB-Mixer 在更少参数下在长程记忆任务上匹配或超越了结构化基线,仅在内容召回任务上落后于非线性混合器。我们进一步使用一个*谱*生成器解决了由色散驱动的长度泛化失败问题,该生成器保持正交和交换性,并能泛化到训练长度 4 倍的序列。 7. 规模化基准测试(第 4.9 节 (https://arxiv.org/html/2606.15085#S4.SS9))。在约 ~2.5M 参数规模下,与经过适当调优的基线(S4D-Lin/HiPPO、LRU、Transformer、FNet)相比,正交谱混合器在五个任务中的三个上以最少参数达到最佳或并列最佳——在序列 CIFAR(LRA-Image,84.8% vs Transformer/LRU/FNet 的 51–72%)上与调优后的 SSM 持平,并精确解决了归纳头检索任务——而在 IMDB 和 ListOps 任务上诚实地落后于调优后的 SSM。 所有实验规模较小、完全可重现,并作为独立脚本提供在发布的代码中。我们坦率地表示,这是一项受控任务研究:它确立了架构并验证了其性质,并不声称具有基准规模的精度(第 6 节 (https://arxiv.org/html/2606.15085#S6))。 ## 2. 背景理论 我们整理了所采用的可积系统工具。熟悉横向场伊辛模型、Jordan–Wigner 费米子化和量子逆散射方法的读者可略读至第 2.3 节 (https://arxiv.org/html/2606.15085#S2.SS3)。 ### 2.1. 横向场伊辛模型与伊辛交换代数 一维自旋 \(1/2\) TFIM 在 N 个格点上的哈密顿量为: \[ H_{\mathrm{TFIM}} = -g \sum_j Z_j - \sum_j X_j X_{j+1}, \] 其中 \(X_j, Y_j, Z_j\) 是作用在格点 j 上的泡利算符。定义局部*哈密顿密度*: \[ h_j^z = Z_j, \qquad h_j^{xx} = X_j X_{j+1}. \] 直接计算表明它们满足*伊辛交换代数*: \[ [h_j^z, h_k^z] = [h_j^{xx}, h_k^{xx}] = 0, \quad [h_j^z, h_k^{xx}] = 0 \ (j \neq k, k+1), \] \[ \{h_j^z, h_j^{xx}\} = \{h_{j+1}^z, h_k^{xx}\} = 0, \quad (h_j^z)^2 = (h_j^{xx})^2 = \mathbb{1}. \] 关键事实 [9] (https://arxiv.org/html/2606.15085#bib.bib9)、[1] (https://arxiv.org/html/2606.15085#bib.bib1) 是,(3) 式本身——独立于矩阵实现——就强制要求自由费米子谱。因此,一个作用于相邻自旋的*局部*关系保证了*全局*结构性质。这种表示无关性正是我们将要利用的。 ### 2.2. Jordan–Wigner 费米子化 Jordan–Wigner (JW) 变换将自旋映射到马约拉纳费米子: \[ \gamma_{2j-1} = \left( \prod_{k<j} Z_k \right) X_j, \quad \gamma_{2j} = \left( \prod_{k<j} Z_k \right) Y_j, \quad \{\gamma_i, \gamma_j\} = 2 \delta_{ij} \mathbb{1}. \] 在 (4) 式下,TFIM (1) 变为一个二次型(自由)马约拉纳哈密顿量: \[ H = i g \sum_j \gamma_{2j-1} \gamma_{2j} + i \sum_j \gamma_{2j} \gamma_{2j+1}, \] 可通过 Bogoliubov(正交)变换对角化。一个算子当且仅当它是 \(\gamma\) 的*二次型*时才是*自由费米子型*的;其作用随后完全由一个反对称的*单体*矩阵决定,这是一个 \(O(\dim)\) 量级的对象,而非指数大小的多体算子。这种单体约化是通向经典神经层(第 3 节 (https://arxiv.org/html/2606.15085#S3))的桥梁。 ### 2.3. 广义 Yang–Baxter 方程 普通的 Yang–Baxter 方程 [2] (https://arxiv.org/html/2606.15085#bib.bib2)、[3] (https://arxiv.org/html/2606.15085#bib.bib3) 是两体相互作用因子化散射的一致条件。其*广义* \((d, \ell, m)\) 形式 [7] (https://arxiv.org/html/2606.15085#bib.bib7) 允许 R 矩阵支撑在 \(\ell\) 个相邻格点上,并移动 m 个位置: \[ R_{1\cdots\ell}(\lambda) R_{(1+m)\cdots(\ell+m)}(\lambda+\mu) R_{1\cdots\ell}(\mu) = R_{(1+m)\cdots(\ell+m)}(\mu) R_{1\cdots\ell}(\lambda+\mu) R_{(1+m)\cdots(\ell+m)}(\lambda), \] 这是作用在 \(\bigotimes_{j=1}^{\ell+m} \mathcal{H}_d\) 上的算子方程,此处以*编织*(加法)形式写出。文献 [1] (https://arxiv.org/html/2606.15085#bib.bib1) 的构造使用由*超特殊 22 群*生成元构建的多位点算子 \(M_j\),满足: \[ M_j^2 = \mathbb{1}, \quad \{M_j, M_{j+1}\} = 0, \quad [M_j, M_k] = 0 \ (|j-k| \geq 2), \] 以及*Baxter 化*的 R 矩阵: \[ R(\lambda) = \mathbb{1} + \tan(\lambda) M. \] 谱参数通过正切函数进入,因为 \(M^2 = \mathbb{1}\):将 (7) 代入 (5) 并要求非平凡解,得到函数方程: \[ a(\lambda_1 + \lambda_3) = \frac{a(\lambda_1) + a(\lambda_3)}{1 - \kappa a(\lambda_1) a(\lambda_3)}, \quad M^2 = \kappa \mathbb{1}, \] 其解为 \(a(\lambda) = \tan(\lambda)/\sqrt{\kappa}\)(此处 \(\kappa=1\),正切加法公式)。我们在下面的引理 1 (https://arxiv.org/html/2606.15085#Thmlemma1) 中给出了基础的约化过程,这也是使可积门可学习的关键。 ### 2.4. 量子逆散射与交换传递矩阵 给定一个求解(非编织)YBE 的 R 矩阵,量子逆散射方法 (QISM) [8] (https://arxiv.org/html/2606.15085#bib.bib8) 构建了一个单参数族的相互交换算子。配备一个辅助空间 a,*单子*和*传递*矩阵为: \[ T_a(\lambda) = R_{a,N}(\lambda) \cdots R_{a,1}(\lambda), \quad \tau(\lambda) = \operatorname{tr}_a T_a(\lambda), \] 并且 YBE/RTT 关系意味着: \[ [\tau(\lambda), \tau(\mu)] = 0 \quad \forall \lambda, \mu. \] 方程 (10) 是可积性的代数核心:一族由谱参数索引的“前向传播”相互交换。在第 3 节 (https://arxiv.org/html/2606.15085#S3) 中,我们将其理解为推理的*顺序自由*。 ### 2.5. 提升算子(简要) 由 \(\tau(\lambda)\) 生成的守恒荷 \(I_{r+1}\) 可以通过一个*提升算子* \(B = \sum_j j M_j\) 经由递推关系 \(I_{r+1} = \frac{1}{r}[B, I_r]\) [10] (https://arxiv.org/html/2606.15085#bib.bib10)、[1] (https://arxiv.org/html/2606.15085#bib.bib1) 获得。每个荷都是作用范围为 r 的双线性形式,其端点之间包含一串守恒中心元。我们在实验中未使用提升塔,但指出它是通向多尺度、相互兼容特征的一条途径(第 7 节 (https://arxiv.org/html/2606.15085#S7))。 ## 3. 从可积代数到神经层 参见图注:图 1:YB-Mixer 架构。(a) 可积液流模型(式 13):输入序列被嵌入,由单一正交流 \(U(s) = \exp(sK)\) 混合,该流由学习的反对称生成器 \(K\) 生成,并由一个在位置 0 处应用一次的小型非线性头读出。(b) 砖墙式 YB-Mixer 层,即该流的离散实现:两令牌可积门先作用在偶数键 (1,2),(3,4),... 上,然后作用在奇数键 (2,3),(4,5),... 上;堆叠 \(\Theta(L)\) 个这样的层会产生一个耦合整个序列的光锥。(c) 自由费米子门,即可积原语(式 12):每个通道的 \(2 \times 2\) 旋转,角度为 \(\theta\)。由于该门是马约拉纳算子的二次型,其单体作用是正交矩阵,因此混合器确切保范且深度稳定,在所有深度的雅可比条件数均为 1(表 3)。整个 YB-Mixer 的全局结构如图 1 所示。该设计将可积算子读作一种对令牌特征的线性变换,利用了正交性和交换性。
相似文章
掩码语言模型中Glauber Dynamics的混合时间
本文分析了使用Glauber dynamics的掩码语言模型中迭代掩码标记重采样所引发的全局分布行为。引入了一种用于不相容性的矩形检验,建立了混合时间界限,并通过实验展示了相变和亚稳态语义盆地。
始终学习,始终混合:高效简单的全时数据混合
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
Toeplitz MLP Mixer 是低复杂度、信息丰富的序列模型
本文介绍了 Toeplitz MLP Mixer(TMM),这是一种新型架构,它用 Toeplitz 矩阵乘法取代注意力机制,从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。
跨分词器LLM蒸馏:基于字节级接口的方法
本文提出字节级蒸馏(BLD),一种简单的跨分词器知识迁移方法,通过在共享的字节级接口上操作,在1B-8B参数模型上实现了与更复杂现有方法相当或更优的性能。
高斯混合注意力:通过概率潜在路由实现线性时间序列混合
本文介绍了高斯混合注意力(Gaussian Mixture Attention,GMA),这是一种概率性注意力机制,它用通过学习得到的高斯混合组件进行路由,取代了显式的成对查询-键比较,从而在序列长度上实现了线性时间复杂度。实验表明,在长上下文任务中,它凭借固定K的线性内存扩展展现出了有竞争力的性能。