为什么SWAVE可能并非你所需的一切:关于复数值循环语言模型的概念演进回顾

arXiv cs.LG 论文

摘要

本文回顾了SWave(一种复数值循环语言模型)的设计演进过程,详细说明了哪些架构组件被保留、重构、取代或被证明为非承重件,并形式化了诸如余弦主导坍缩等失效模式。

arXiv:2606.18324v1 公告类型:新 摘要:SWave是一种复数值循环语言模型(参数规模169.26M,D=384,L=16,T=2048),在FineWeb-Edu上使用2xH100 NVL训练。其设计基于三个基本前提:将语言表示为复数波而非实数值,可实现更丰富的信息编码;基于Cayley参数化的酉变换能在数学上保证状态不衰减或爆炸;旋转而非收缩的隐藏状态能在任意长上下文中保持信号完整性。SWave的核心经历了三个开发阶段的重大演进。研究发现,共振头在结构上允许虚数通道坍缩作为全局损失最小值(我们称之为余弦主导坍缩的失效模式),并被来自相位关联记忆(PAM)架构的、具有独立实部与虚部嵌入表的非耦合头所取代。这解决了退化最小值问题,实现了稳定的20万步训练(最佳步PPL 22.0,第89,861步)。ComplexNorm和波传播扫描在三个阶段均被证明为承重件,并保留在最终架构中。ProtectGatedScan被重构为结构先验而非学习行为。四个多尺度保留概念在受控评估中未显示可测量的改进,被证明为非承重件。ComplexGatedUnit被具有更少参数的实值平方ReLU通道混合器取代。一旦结构约束得到解决,辅助训练目标便无益处。本研究给出了余弦主导坍缩的形式化描述、一种具有对数空间后向传递的并行扫描以实现数值稳定性、六条可迁移的复数值循环训练工程原则,以及一种用于捕捉传统测试套件遗漏的结构差异的计划到代码可追溯性方法论。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:41

# 为什么 SWave 可能并非你所需要的一切:复数循环语言模型的概念演进回顾  
来源: https://arxiv.org/html/2606.18324  
Swathika N EdgeVerve Systems Limited swathika\.n@edgeverve\.comSahil Dilip Panse EdgeVerve Systems Limited SahilDilip\_Panse@edgeverve\.com  

###### 摘要  

SWave 是一个复数循环语言模型(169.26M 参数,D=384,L=16,T=2048),在 FineWeb-Edu 上使用 2× H100 NVL 进行训练。它基于三个基本前提设计:将语言表示为复数波而非实数值可以编码更丰富的信息;凯莱参数化酉变换在数学上保证了状态既不衰减也不爆炸;一个“旋转”而非收缩的隐藏状态可以在任意长上下文中保持信号完整性。SWave 的核心在三个开发阶段中经历了显著演化。研究发现共振头在结构上会导致虚通道坍缩成为全局损失最小值(我们将这种失效模式称为“余弦主导坍缩”),并被一个具有独立实数和复数嵌入表的非捆绑头所取代,该嵌入表来源于相位关联记忆(PAM)架构(Vishwakarma 等人,2026 (https://arxiv.org/html/2606.18324#bib.bib15))。这解决了退化最小值问题,并实现了稳定的 200,000 步训练(最佳步 PPL 22.0,第 89,861 步)。ComplexNorm 和波传播扫描在所有三个阶段都起到了承重作用,并保留在最终架构中。ProtectGatedScan 被重新定义为结构先验而非学习行为。四个多尺度保留概念尽管有其设计动机,但在受控评估下并未产生显著的交叉熵改进,被证明是非承重的。ComplexGatedUnit 被一个实数值的平方 ReLU 通道混合器取代,后者以更少的参数实现了等效性能。辅助训练目标在结构性约束被源头解决后,未显示出可衡量的收益。

该研究产生了对余弦主导坍缩的形式化描述、一个可并行化的扫描及其用于数值稳定性的对数空间反向传播、六个适用于复数循环训练的可迁移工程原则,以及一种用于捕捉传统测试套件遗漏的结构性偏差的“计划到代码”追踪方法论。文档化的概念生命周期(哪些被保留、哪些被重新定义、哪些被取代、哪些被证明非承重)为未来的复数模型设计提供了参考案例。

关键词:复数循环神经网络;语言建模;损失景观分析;相位关联记忆;架构回顾;设计概念生命周期。

## 1 引言  

基于 Transformer 的语言模型面临两个众所周知的扩展性约束。首先,注意力机制的计算复杂度为 O(N²),而 KV 缓存的内存复杂度为 O(N),随上下文长度线性增长,使得极长序列在经济上不可行。其次,解决二次方成本的线性循环替代方案(RWKV、Mamba/S4)是通过指数衰减实现的:状态在每一步收缩,因此早期上下文信息在长序列中会逐渐消失。SWave 旨在同时规避这两个约束,匹配 RWKV 的 O(N) 训练成本和 O(1) 推理内存,同时消除导致 SSM 遗忘的衰减。

具有复数隐藏状态的循环序列模型提供了一条理论上合理的途径,实现 O(1) 内存推理和范数保持的长程状态保持(Arjovsky 等人,2016 (https://arxiv.org/html/2606.18324#bib.bib1);Wisdom 等人,2016 (https://arxiv.org/html/2606.18324#bib.bib16))。其关联记忆解释借鉴了复数 Hopfield 网络(Noest, 1992 (https://arxiv.org/html/2606.18324#bib.bib7))和全息简化表示(Plate, 1995 (https://arxiv.org/html/2606.18324#bib.bib11))。单位范数约束 h_t = e^{iφ} h_{t-1} + x_t 在任意长序列上精确保持 ‖h‖,而实数值循环只能通过仔细的正则化来近似这一性质。基于此基础,SWave 旨在探索一个功能齐全的复数语言模型会是什么样子:一个能够匹配 Transformer 级训练,同时保持每序列位置 O(1) 内存的模型。

##### 基本前提。  
设计由三个核心思想驱动。**基于波的处理**:令牌被嵌入为复数,因此隐藏状态同时携带振幅和相位,能够比实数值表示更丰富的编码。**凯莱酉记忆**:状态转移通过凯莱参数化强制 ‖α_t‖ = 1,从形式上保证状态能量在长序列中既不衰减也不爆炸。**有界衰减上下文**:因为状态“旋转”且具有有界衰减,而非每一步不受约束的指数收缩,早期上下文信号的衰减远小于标准实数值循环(其中衰减是无界的)。基于这一愿景开发了十六个设计概念;本文记录了每个概念的演变结果。

##### 我们尝试了什么。  
十六个设计概念分为六组:输出头(共振头、波嵌入)、状态动态(波传播扫描、振幅门、酉旋转、凯莱变换、ProtectGatedScan)、通道混合(ComplexGatedUnit、WaveMixer)、归一化(ComplexNorm)、多尺度保留(小波状态层级、相位总线、回声记忆、共振路由器),以及诊断基础设施(正交初始化、波诊断、波回溯)。每个概念及其假设和结果在第 2 节 (https://arxiv.org/html/2606.18324#S2) 中呈现。开发分为三个阶段(表 1 (https://arxiv.org/html/2606.18324#S1.T1))。

##### 开发阶段。  
**阶段 1(原始构想)** 建立了设计概念和捆绑的共振头架构。**阶段 2(PAM 基线)** 通过采用 PAM 原语解决了输出头中的结构性问题(阶段 2 几乎是直接采用 PAM 架构而非独立发明;SWave 在此阶段的具体贡献是使用 169M 参数和向量状态而非矩阵状态设计的实证验证),进行了 20 万步训练运行以确认稳定性,并完善了扫描、归一化和梯度监控基础设施。**阶段 3(集成)** 将阶段 2 的核心带回概念丰富的阶段 1 架构,在稳定基础上评估每个保留概念,并逐步将阶段 2 的原语替换为 Mamba/RWKV 的承重等价物,同时采用以假说驱动的发展方法论。

表 1:SWave 的三个开发阶段。  
请参见说明  
图 1:三个开发阶段训练期间的交叉熵损失。  
(a) 阶段 1(原始构想):捆绑的共振头导致训练不稳定,从未超过交叉熵 7.29(PPL 1471),然后在第 5,850 步发散至交叉熵 25.3,这是余弦主导坍缩的特征。(b) 阶段 2(PAM 基线):非捆绑头解决了退化最小值;训练稳定运行 20 万步,达到最佳交叉熵 3.09(PPL 22.0)。(c) 阶段 3(集成):阶段 2 稳定核心集成到原始架构中,达到最佳交叉熵 2.75(PPL 15.6),更嘈杂的动态反映了更复杂的配置。阴影曲线为原始日志;实线曲线为平滑结果。  
所有结果均使用单一模型配置:D=384,L=16,T=2048,V=100,277(cl100k_base 分词器),169.26M 参数,在 FineWeb-Edu(Penedo 等人,2024 (https://arxiv.org/html/2606.18324#bib.bib9))上使用 2× NVIDIA H100 NVL 训练。

##### 判定分类。  
每个设计概念根据预先指定的定量标准(表 2 (https://arxiv.org/html/2606.18324#S1.T2))分配五种判定之一。

表 2:应用于所有设计概念的判定分类。  
##### 范围。  
本文并未声称提出了新的最先进的架构。其价值在于记录了特定设计决策为何如此演变的详细分析,以及用于在结构性偏差在多次训练运行中累积之前识别它们的可迁移方法论。

## 2 架构  

SWave 是一个复数循环语言模型。阶段 2 中每个隐藏状态是一个复数向量 z ∈ C^D,存储为一对实数张量 (z^r, z^i) ∈ R^D × R^D。阶段 2 的每一层前向传播依次应用序列混合器(ProtectGatedScan)和通道混合器(ComplexGatedUnit),每个模块前后以 ComplexNorm 进行三明治式排列。阶段 3 将这些阶段 2 组件集成到原始阶段 1 架构中,随后替换了所有四个核心原语;第 3.2 节 (https://arxiv.org/html/2606.18324#S3.SS2) 记录了这些变化。

每个设计概念如下呈现,包括其原始假设,然后是对其在三个阶段中演变的统一描述,最后是最终判定。

### 2.1 输出头  

输出头将复数隐藏状态映射到词汇分布。

#### 2.1.1 共振头(捆绑相位头)  

##### 假设。  
每个词汇项 v 被分配一个可学习的相位 θ_v ∈ R;对数几率为:

ℓ_v(h_r, h_i; θ_v) = cos(θ_v) h_r + sin(θ_v) h_i = cos(θ_h - θ_v),(1)  
当 h = e^{iθ_h} 为单位范数时,最后等式成立。词汇检索被设想为一种相位对齐操作:学习到的相位与隐藏状态当前相位接近的令牌得分较高,类似于调谐振荡器中的共振。

##### 历程。  
第一次训练运行(阶段 1)在第 2,000 步再现了预测的失效模式:输出头处的余弦/正弦项比率达到 245×,词汇相位基本冻结(θ_drift,mean = 6.7×10^{-4} rad),且交叉熵在任何 500 步窗口内均未出现单调下降。形式化分析证明了在捆绑参数化下这是不可避免的:对于任何仅由 h_r 可表达的令牌分布,配置 (h_r, h_i = 0) 与任何 h_i ≠ 0 的配置达到相同的交叉熵最小值,因为梯度 ∂L_CE/∂h_i = ∑_v sin(θ_v)(p_v - y_v) 在 sin(θ_v) → 0 时(对于主导词汇项)消失。捆绑约束 cos²θ_v + sin²θ_v = 1 使得 h_i ≡ 0 子流形成为全局(而非局部)最小值。针对优化动态的五次连续干预证实了失效是架构性的而非依赖于优化的:梯度裁剪、热身调整、学习率降低、辅助损失和初始化更改均重现了 245× 的特征,而未改变损失景观的几何形状。

结构性的解决方案来自阶段 2 的 PAM(Vishwakarma 等人,2026 (https://arxiv.org/html/2606.18324#bib.bib15)):将捆绑头替换为两个独立的实数矩阵 E_r, E_i ∈ R^{V×D},初始化使用 N(0, 0.02²),使得对数几率变为 ℓ_v = E_r[v]^⊤ h^r + E_i[v]^⊤ h^i。这将头项初始化比率从 775× 降低到 ≈1.0×,从第 0 步起两个通道的对数几率方差相等。20 万步训练运行确认了结构稳定性:ρ = RMS(h_i)/RMS(h_r) ∈ [0.79, 1.22] 全程保持。在阶段 3 中,开发了一个具有三个学习到的桥接投影(W_ρ, W_φ^r, W_φ^i)的 PhaseAttentionHead 变体,并通过计划到代码审计进行了验证;普通的非捆绑头被确认为生产默认值。

请参见说明  
图 2:阶段 1 训练日志中的余弦主导坍缩特征。  
(a) 相位参数梯度范数 ‖∇φ‖(红色)在整个早期步中比嵌入梯度范数 ‖∇W_e‖(深色)高出几个数量级,表明损失表面几乎完全由相位参数塑造。(b) 相位到嵌入梯度比在第 50 步达到峰值 728× 并长期保持高位,确认了捆绑头的损失景观在结构上驱动 h_i → 0,无论辅助挽救措施如何。退化最小值是架构性的,而非优化层面的。
##### 判定。  
被取代。捆绑的共振头被非捆绑的 PAM 头取代。余弦主导坍缩分析是本工作的主要发现,已在训练中经验观察到并形式化描述。

#### 2.1.2 波嵌入(捆绑单位圆嵌入)  

##### 假设。  
每个令牌 v 被嵌入为单位圆上的一个点:h^r = cos θ_v, h^i = sin θ_v,约束 cos²θ_v + sin²θ_v = 1 对每对(令牌,通道)强制实施。两个分量具有不同的语义角色:振幅编码令牌的重要性或显著性,而相位编码其语义方向,语义相关的令牌预计占据相邻角度。这种波状表示预计通过复数表示之间的相位关系支持相长干涉(相关概念在隐藏状态中相互增强)和相消干涉(噪声和无关信号相互抵消)。生活在相位流形上的嵌入还预计与共振头的相位匹配检索自然对齐。

##### 历程。  
单位圆约束在阶段 1 中被构想为输入端的互补部分,与共振头紧密耦合。该约束意味着嵌入的大小恰好为 1,这与捆绑头的正余弦参数化相结合,使得 h_i ≡ 0 成为全局而非局部损失最小值;该约束消除了自由大小本可提供的逃逸路径。当阶段 2 中共振头被非捆绑头取代时,单位圆约束同时被释放:独立的表格 E_r, E_i ∈ R^{V×D} 携带无约束的大小,结构性病理随之消失。阶段 3 中未作更改。

##### 判定。  
已撤回。振幅/相位语义框架(振幅编码令牌显著性,相位编码语义方向)是一个连贯的设计假设,但未被独立评估。单位圆大小约束在结构上与捆绑共振头纠缠在一起:释放它是修复该头的一部分,而非对嵌入概念本身的否定。自由大小的复数嵌入配合显式相位先验是否比标准实数值嵌入提供更丰富的表示,仍是一个开放问题。

### 2.2 状态动态:循环核心  

SWave 的核心是一阶线性循环,

相似文章

利用大型语言模型构建社会世界模型

Hugging Face Daily Papers

本文介绍了社会世界模型(SWM)框架,该框架利用大型语言模型,无需显式标注即可模拟社会信念在事件响应中的动态变化。同时提出了基于预测市场的基准测试SWM-bench,并展示了最先进的结果。

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。

作为文化演化的模型崩溃

arXiv cs.CL

本文将LLM中的模型崩溃重新定义为一种文化传播现象,表明迭代学习理论预测了自我训练下组合性的非单调轨迹,并在多种语言和模型上得到证实。

语言模型需要睡眠

Hacker News Top

本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。