为什么累积变换能够实现外推?

arXiv cs.LG 论文

摘要

本文研究了为何累积的、依赖于token的正交变换(如PaTH Attention中使用的以及简化版SO(2)旋转变体)能使Transformer实现长度外推。论文证明此类变换在有限步后变得不连贯,从而抑制对远距离token的注意力;同时从理论和实验上表明该机制能改善外推,但在极端上下文长度下性能最终会下降。

arXiv:2606.24975v1 公告类型:新 摘要:PaTH Attention表明,用累积的、依赖于数据的Householder反射替换RoPE基于位置索引的旋转,能实现强大的长度外推,尽管在极端上下文长度下性能会下降。我们探究这种效果是否依赖于Householder的特定结构,还是反映了沿源到查询路径的累积变换的一般属性。我们研究了一个更简单的变体:保留RoPE的分块对角SO(2)旋转,但将基于位置索引的角度替换为累积的、依赖于token的角度。它表现出相同的模式:先改善外推,然后在长上下文下退化。我们证明该结果可推广到满足某些正则条件的累积正交变换:它们的乘积在有限步后变得不连贯,从而抑制对远距离token的注意力。查询和键的累积旋转创建了一个独立于上下文长度的有限混合窗口;训练中学习的每个token抑制效果能不变地转移到任何评估长度,而高维浓度则产生一个分数差距,抑制远距离token,同时近路径传输保留目标信号。相反,下界表明累积旋转最终必然退化:随着远距离集合增大,如果没有明确的远距离质量控制,无论什么旋转都无法保留近距离信号。对于SO(2)旋转,如果旋转值本身也会使残余的远距离贡献以不连贯的方式组合,从而扩展范围。受控实验支持这些预测:随机累积旋转相比RoPE显著改善了外推,学习到的依赖于token的旋转在远超训练上下文的长度下仍保持接近训练长度的困惑度,而旋转值相比仅旋转查询和键更有帮助。仅进行旋转的模型在极端长度下仍会退化,而ALiBi保持长度稳定性,这与需要远距离质量控制的结论一致。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:08

# 为什么累积变换能够外推? 来源:https://arxiv.org/html/2606.24975

###### 摘要

PaTH 注意力机制表明,用累积的数据依赖 Householder 反射替换 RoPE 的基于位置的旋转索引,能够实现很强的长度外推,尽管在极端上下文长度下性能最终会下降。本文探讨这种表现是依赖于 Householder 的特殊结构,还是反映了沿源到查询路径的累积变换的更一般性质。我们研究一个更简单的变体,它保留 RoPE 的块对角 SO(2) 旋转,但用累积的、依赖令牌的角度替代基于位置的索引角度。这个更简单的机制表现出相同的定性模式:外推能力提升,随后在足够长的上下文中性能下降。我们证明这个结果可以推广到满足一定正则条件的累积正交变换:它们的乘积在有限步后变得不相干,从而抑制对远距离令牌的注意力。我们通过一个简化的注意力模型分析该机制,该模型解释了这两种行为。查询和键的累积旋转创建了一个与上下文长度无关的有限混合窗口;训练时学到的逐令牌抑制机制能够无变化地转移到任何评估长度,而高维集中性产生一个分数差距,抑制远令牌注意力,同时近程传输保留目标信号。这揭示了累积传输与长度外推之间的具体机制。另一方面,一个下界表明累积旋转最终必定会退化:随着远距离集随上下文长度增长,如果没有明确的远距离质量控制,任何旋转选择都无法保证保留近程目标信号。此外,我们证明,对于 SO(2) 旋转,同时旋转值会使残存的远距离贡献非相干地组合,从而扩展外推范围。受控的 Transformer 实验支持这些预测。随机累积旋转比 RoPE 显著改善外推能力;学到的依赖令牌的旋转在远超训练上下文的长度上保持接近训练长度的困惑度;同时旋转查询、键和值优于仅旋转查询和键。仅旋转模型在极端长度下仍会退化,而 ALiBi 保持近似长度稳定,这与需要明确的远距离质量控制的结论一致。

## 1 引言

PaTH 注意力(Yang 等人,2025 (https://arxiv.org/html/2606.24975#bib.bib13))用累积的数据依赖 Householder 反射替换 RoPE(Su 等人,2024 (https://arxiv.org/html/2606.24975#bib.bib7))的基于位置的旋转索引,并在 760M 参数规模下展示了强大的外推能力:每个令牌贡献一个变换,源-查询关系由中间步骤的乘积决定,而非绝对位置。这种已确立的外推现象背后的机制尚未被充分理解。本文旨在阐明*为何*累积变换有助于长度外推。我们还探讨该机制是否需要 Householder 的完全一般性。我们发现,即使是 RoPE 的交换块对角 SO(2) 旋转,只要使用累积的依赖令牌的角度而非基于位置的角度,也会以相同的定性模式出现外推和退化。这表明该机制并非特定于任何特定的正交结构,实际上我们证明,满足一定正则条件的正交变换的累积乘积会变得不相干,从而抑制对远距离令牌的注意力。我们验证了 SO(2) 旋转和 Householder 反射都满足这些条件。

我们将从令牌 j 到查询 i 的有序源到查询路径称为*路线*。该路线上的中间令牌生成逐令牌旋转,其乘积给出源-查询旋转。在 RoPE 中,这个旋转完全由距离 i-j 决定;在累积传输中,它取决于路线上有哪些令牌。远距离路线经过许多独立的、依赖令牌的步骤,从而变得不相干,而附近路线可以保持近似对齐。这两个区域之间的边界与上下文长度无关,因此模型在任何评估长度下都能看到相同的远近结构。这种训练/测试分布匹配是外推的必要条件,但本身并不充分。NoPE(Kazemnejad 等人,2023 (https://arxiv.org/html/2606.24975#bib.bib10))提供了一个有启发性的反例:恒等传输是长度稳定的,但它没有产生抑制远令牌的分数差距。仅分布匹配不能量化远令牌被抑制的强度、这种抑制是否会随着上下文增长而被压倒、或者那些通过分数选择存活的远值会怎样。下面的分析将解决这些问题。

我们开发了一个简化的注意力模型,解释了外推和最终的退化:
1. **分数侧退相干(外推的机制)。** 查询和键的累积旋转创建了一个有限混合窗口,其边界与上下文长度无关。一旦训练长度覆盖了这个窗口,在简化模型内,训练和评估时远近路线的区域是相同的。在该区域内,高维集中性产生一个分数差距,抑制远令牌的注意力质量,而近程传输保留目标信号。我们证明这个结果适用于任何具有谱间隙的累积正交变换(附录 B.5 (https://arxiv.org/html/2606.24975#A2.SS5))。
2. **远质量下界(最终退化的机制)。** 逐令牌抑制在各长度上是稳定的,但远距离集随上下文增长。一个下界证明这种增长是根本性的:如果没有明确的远质量控制,任何旋转选择都不能保证在无界长度下保留目标信号。这个下界适用于任何正交传输。这与基于距离偏置的方法(如 ALiBi(Press 等人,2022 (https://arxiv.org/html/2606.24975#bib.bib8)))的平坦外推一致,这些方法直接控制总远质量,而旋转本身无法限制这个总量。

此外,我们证明,对于 SO(2) 旋转,同时旋转值以及查询和键可以扩展外推范围,因为仍然获得注意力质量的远值会非相干地组合,从而限制了远贡献的协方差。

我们的目标不是在规模上复现 PaTH。相反,我们训练带有累积 SO(2) 旋转的小型仅解码器 Transformer 来隔离该机制;结果支持每项预测。随机累积旋转最直接地体现了我们的实验变体中的独立性和谱间隙假设,并比 RoPE 显著改善外推。仅旋转模型在极端长度下逐渐退化,而 ALiBi 保持平坦,这与远质量需求一致。添加值旋转进一步减少了长上下文退化,与理论预测一致。学到的依赖令牌的旋转在训练长度下匹配 RoPE,并在 16× 训练上下文长度上保持接近训练长度的困惑度。

论文的其余部分遵循这一进展。第 2 节 (https://arxiv.org/html/2606.24975#S2) 定义了全文使用的简化注意力模型和路线记号。第 3 节 (https://arxiv.org/html/2606.24975#S3) 表明累积旋转产生一个依赖内容的混合窗口和一个迫使总远注意力质量很小的分数差距,建立了远令牌干扰的上界。第 4 节 (https://arxiv.org/html/2606.24975#S4) 证明了一个下界,表明即使稳定的逐令牌抑制也无法在远集增长时消除远质量泄露;远质量的显式控制(例如,距离偏置)在结构上是必要的。第 5 节 (https://arxiv.org/html/2606.24975#S5) 表明,对于 SO(2) 变体,同时旋转值以及查询和键通过使存活的远贡献非相干组合来收紧远令牌干扰的上界。第 6 节 (https://arxiv.org/html/2606.24975#S6) 确立近信号保留并总结组合的图像。第 7 节 (https://arxiv.org/html/2606.24975#S7) 在受控的 SO(2) 实验中测试了由此产生的预测。第 8 节 (https://arxiv.org/html/2606.24975#S8) 讨论范围及与其他位置方法的关系;第 9 节 (https://arxiv.org/html/2606.24975#S9) 总结。

## 2 预备知识和简化模型

### 2.1 Transformer 注意力与聚合模型

对于单个注意力头,令 \(x_j \in \mathbb{R}^{d_{\rm model}}\) 为位置 j 处的残差表示。标准的缩放点积注意力构成:
\[
q_i = W_Q x_i, \quad k_j = W_K x_j, \quad v_j = W_V x_j,
\tag{1}
\]
然后计算分数和 softmax 权重。使用显式的 logit 缩放因子 \(\lambda > 0\),
\[
s_{ij} = \frac{q_i^\top k_j}{\sqrt{d_k}} + b_{ij}, \qquad \alpha_{ij} = \frac{\exp(\lambda s_{ij})}{\sum_{\ell} \exp(\lambda s_{i\ell})},
\tag{2}
\]
其中 \(b_{ij}\) 可能包含因果掩码或位置偏置。通常的归一化通过取 \(\lambda = 1\) 恢复;更大的 \(\lambda\) 使 softmax 更具选择性。注意力头在输出投影之前的输出为:
\[
o_i = \sum_j \alpha_{ij} v_j.
\tag{3}
\]
因此注意力具有分数侧(产生权重 \(\alpha_{ij}\))和值侧(形成加权值求和)。从现在起,\(d\) 表示值/传输维度,假定为偶数;它可以是值投影维度而非完整的残差维度 \(d_{\rm model}\)。本节定义用于研究分数侧选择权重后远干扰的值/分数抽象。

值侧聚合为:
\[
c_i = \sum_j \alpha_{ij} P_{j \to i} v_j.
\tag{4}
\]
通过取 \(P_{j \to i} = I_d\),普通的 Transformer 值求和得以恢复,此时 \(c_i = o_i\)。这涵盖了恒等旋转基线和标准的 RoPE 风格基线(其中 Q/K 使用依赖于位置的旋转,但 V 直接求和)。在依赖于位置的 Q/K/V 比较中,\(P_{j \to i}\) 根据源-查询偏移选择。在依赖于内容的 Q/K/V 比较中,\(P_{j \to i}\) 由中间令牌累积而成。Q/K 使用相同的路线级远近分割在第 2 定理 (https://arxiv.org/html/2606.24975#Thmtheorem2) 中分析。在简化模型中,近值携带一个潜在目标分量;远值是背景。问题是当添加更多远项时,潜在分量是否仍然可恢复。

### 2.2 路线传输

传输算子是与源到查询区间相关联的正交路线算子 \(P_{j \to i}\)。它可以是与内容无关的(如基于位置的旋转),也可以是与内容相关的(如由中间令牌表示生成的累积旋转)。在值路径上,当启用值传输时,它在求和前旋转每个被选中的值向量。在分数路径上,可以使用相同的路线几何来比较传输后的查询和键特征。仅旋转查询和键的变体(包括标准的 RoPE 风格注意力)没有 V 侧传输:\(P_{j \to i} = I_d\)。

令 \(c_t\) 表示位置 t 处的令牌。每个位置携带一个逐令牌正交步骤 \(M_t \in O(d)\)。对于源 j < i,累积产品为
\[
P_{j \to i} = M_{j+1} M_{j+2} \cdots M_i.
\tag{6}
\]
当 j = i 时,\(P_{i \to i} = I_d\)。每个 \(M_t\) 可以依赖该令牌的表示(内容)或仅依赖位置号(位置)。内容依赖是 PaTH 和我们的学习实验中的情况;在随机旋转基线中,它被替换为独立同分布的随机抽取。

### 2.3 分数模型的简化

令查询 i 和源 j 的路由键为
\[
k_j^{(i)} = P_{j \to i} k_j.
\tag{7}
\]
在简化的分数模型中,我们关注块对角正交结构,允许对 d_q 维子空间进行分析。具体地,令 d = d_q = d_k 且 \(P_{j \to i}\) 作用于子空间。分数为
\[
S_{j \to i} = q_i^\top P_{j \to i} k_j.
\tag{8}
\]
源 j 对查询 i 的注意力权重为
\[
\alpha_{ij} = \frac{\exp(\lambda S_{j \to i})}{\sum_{m \in \mathcal{A}_i} \exp(\lambda S_{m \to i})}, \quad \lambda > 0.
\tag{11}
\]
当引入 SO(2) 特化时,显式的分数公式(块相位上的余弦平均)在第 5 节 (https://arxiv.org/html/2606.24975#S5) 中给出。

### 2.4 信号-干扰分解

查询 i 的活跃源集为 \(\mathcal{A}_i = \mathcal{S}_i \dot{\cup} \mathcal{D}_i\),其中 \(\mathcal{S}_i\) 是近窗口内的目标承载集,\(\mathcal{D}_i\) 是远集。传输后的近信号系数为:
\[
B_{\mathcal{S}, i} = \sum_{j \in \mathcal{S}_i} \alpha_{ij} P_{j \to i},
\tag{12}
\]
远贡献为:
\[
e_i = \sum_{j \in \mathcal{D}_i} \alpha_{ij} P_{j \to i} v_j.
\tag{13}
\]
令 \(\mathcal{E}_{i,L}\) 表示*聚合环境*:近和远索引集、权重 \(\{\alpha_{ij}^{(L)}\}\) 以及路线传输 \(P_{j \to i}^{(L)}\)。在给定实现 \(\mathcal{E}_{i,L} = e\) 后的远协方差为:
\[
\Delta_{\mathcal{D}}(e) = \mathrm{Cov}(e_i \mid \mathcal{E}_i = e).
\tag{14}
\]
分析关注于远值共享结构、从而在传输后产生非零交叉协方差的设定。典型的特化是*共享背景模型*(附录 B (https://arxiv.org/html/2606.24975#A2),定义 1 (https://arxiv.org/html/2606.24975#Thmdefinition1)),其中远令牌共享一个零均值的高斯分量。普通的值求和使该分量保持相干;值传输可以使加权和变小。

## 3 累积旋转如何抑制远注意力

累积的、依赖内容的正交变换创建了一个依赖内容的混合窗口。论证分三步:谱间隙混合结果、高维集中性导致的分数差距、以及 softmax 后的远权重界。起点是有限混合窗口(定理 1 (https://arxiv.org/html/2606.24975#Thmtheorem1))。对于独立同分布的随机正交步骤矩阵 \(M_t \in O(d)\),满足 \(\|\mathbb{E}[M_t]\|_{\mathrm{op}} \leq \beta < 1\)(*谱间隙*),累积积 \(P_n = M_1 \cdots M_n\) 满足 \(\|\mathbb{E}[P_n]\|_{\mathrm{op}} \leq \beta^n\)。因此路线传输的一阶矩几何衰减,因此在有限步数 \(w_{\varepsilon_{\rm mix}}\)(取决于 \(\beta\) 和容忍度,而非总上下文长度)之后,累积传输变得去相关。算子范数条件 \(\|\mathbb{E}[M_t]\|_{\mathrm{op}} < 1\) 是本文中使用的方便的充分压缩条件;一阶矩去相关的准确充要条件是 \(\rho(\mathbb{E}[M_t]) < 1\),其中 \(\rho\) 表示谱半径。(对于独立同分布步骤,\(\mathbb{E}[P_n] = (\mathbb{E}[M])^n \to 0\) 当且仅当 \(\rho(\mathbb{E}[M]) < 1\)。)当 \(\rho(\mathbb{E}[M_t]) = 1\) 时——特别是当 \(M_t\) 是确定性的——累积乘积保留一个非衰减分量,不发生去相关。

###### 例 1(SO(2):均匀步长角度)。如果步长角度在 \([-a, a]\) 上均匀分布且 \(a > 0\),则 \(\beta = |\sin(a)/a| < 1\)。随机旋转实验(第 7 节 (https://arxiv.org/html/2606.24975#S7))使用此分布。

###### 例 2(Householder 反射)。令 \(d \geq 2\)。对于 H...

相似文章

全循环Transformer:简单稳定循环

arXiv cs.LG

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。

RoPE在长上下文中既不能区分位置也不能区分标记,可证明

arXiv cs.CL

本文提供了理论证明,表明基于Transformer的语言模型中的旋转位置嵌入(RoPE)在长上下文中会失去其局部性偏差和区分标记顺序的能力,注意力分数变得不比随机更好。作者证明,增加RoPE基频会在位置区分和标记区分之间进行权衡,且多头、多层架构无法弥补这一基本限制。

Exact Linear Attention

arXiv cs.LG

本文介绍了一种名为Exact Linear Attention (ELA) 的机制,该机制通过利用核函数分解,在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度,并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接(Hyper Link)、记忆叶(Memory Lobe)以及面向混合专家模型的路由偏置在内的工程创新。