PJ-RoPE: 一种用于相对注意力的傅里叶-若尔当-仿射位置空间
摘要
PJ-RoPE将RoPE的傅里叶相位、Jordan-RoPE的有限若尔当块和ALiBi的仿射近因性统一到一个可学习的相对位置空间中,并研究了不同任务对该空间区域的选择。
arXiv:2606.05345v1 公告类型:新
摘要:我们将RoPE的傅里叶相位、Jordan-RoPE的有限若尔当块和ALiBi的仿射近因性统一到一个可学习的相对位置空间中,并研究了不同任务对该空间区域的选择。PJ-RoPE是一种用于相对注意力的傅里叶-若尔当-仿射公式,可选配庞加莱型解读,作为齐次傅里叶-若尔当位置表示的仿射完备化。代数上,相同的原语构成一个常系数有限差分模:滞后移位算子的简单根给出傅里叶/RoPE特征,非零重根给出若尔当/傅里叶若尔当块,单位重根给出类ALiBi的仿射近因性。
该框架将标量PJ偏置核与精确的PJ旋转特征变换分离,引入自适应扇区诊断,并使用LC/快度坐标来稳定高阶若尔当块。受控探针验证了扇区包含和选择;小规模语言运行暴露了仿射/近因边界;音乐标记流提供了最清晰的案例,其中LC/仿射变体保持强劲,同时携带可测量的高阶修正;LC诊断显示出尺度稳定性增益伴随相位分辨率损失。
查看缓存全文
缓存时间: 2026/06/05 08:10
# PJ-RoPE: 一种用于相对注意力的傅里叶-喷射-仿射位置空间
Source: https://arxiv.org/html/2606.05345
###### 摘要
我们将RoPE的傅里叶相位、Jordan-RoPE的有限喷射和ALiBi的仿射近因统一到一个单一的可学习相对位置空间中,并研究不同任务会选择该空间的哪些区域。PJ-RoPE是一种用于相对注意力的傅里叶-喷射-仿射公式,可选地具有庞加莱型解读,作为齐次傅里叶-喷射位置表示的仿射完备化。在代数上,相同的原始元素构成一个有限常系数差分模:时滞移位算子的单根给出傅里叶/RoPE特征,重复非零根给出Jordan/傅里叶喷射,而重复单位根给出类似ALiBi的仿射近因。
该框架将标量PJ偏置核与精确的PJ旋转特征变换分离,引入了自适应扇区诊断方法,并使用LC/快度坐标来稳定高阶喷射。受控探针验证了扇区包含和选择;小型语言运行暴露了仿射/近因边界;音乐令牌流提供了最清晰的案例,其中LC/仿射变体保持强劲,同时携带可测量的高阶校正;LC诊断显示了与相位分辨率损失相关的尺度稳定性收益。
## 1 引言
相对位置表示已成为Transformer长上下文注意力中的核心部分[22 (https://arxiv.org/html/2606.05345#bib.bib1)]。RoPE通过傅里叶特征生成的旋转来编码相对时滞[19 (https://arxiv.org/html/2606.05345#bib.bib4)]。ALiBi直接在注意力分数上添加单调的仿射近因项[16 (https://arxiv.org/html/2606.05345#bib.bib5)]。相对注意力和基于循环的长上下文机制提供了早期证据,表明时滞结构在注意力内部是重要的[18 (https://arxiv.org/html/2606.05345#bib.bib2),4 (https://arxiv.org/html/2606.05345#bib.bib3)]。RoPE缩放方法改变了旋转相位在训练窗口外的分配方式[2 (https://arxiv.org/html/2606.05345#bib.bib6),15 (https://arxiv.org/html/2606.05345#bib.bib7),5 (https://arxiv.org/html/2606.05345#bib.bib8)]。Jordan-RoPE采取了不同的步骤:它将半单旋转频率替换为有限若尔当块,从而在相同频率周围产生类似导数的有限喷射特征[24 (https://arxiv.org/html/2606.05345#bib.bib26)]。
这些方法通常被描述为相互竞争的即插即用设计。这种观点掩盖了一个有用的共同结构。RoPE是一个退化的傅里叶特征点。Jordan-RoPE是该点的非退化加厚。高阶Jordan-RoPE增加了喷射重数。ALiBi贡献了一个仿射的、类似平移的近因方向。这暗示了一种位置空间解释:有用的注意力可能同时需要频率-喷射扇区和仿射扇区,而任务则决定使用每个扇区的多少。
这就引出了“庞加莱型”这一术语。在物理学中,庞加莱群是通过添加平移得到的齐次洛伦兹群的仿射扩张[23 (https://arxiv.org/html/2606.05345#bib.bib25),7 (https://arxiv.org/html/2606.05345#bib.bib24)],
\[
\mathrm{ISO}(1,n-1)=\mathbb{R}^{1,n-1}\rtimes SO^{+}(1,n-1).
\]
在本文中,庞加莱型意味着齐次傅里叶-喷射位置表示的仿射完备化。RoPE和Jordan-RoPE存在于齐次相位/喷射扇区中:它们通过傅里叶特征及其有限的非半单加厚来作用。类似ALiBi的近因提供了相应的仿射方向,即相对位置核中的一个附加的类似平移的分量。这是一种结构类比,而非令牌序列的字面时空对称性。
PJ-RoPE将这一解释转化为一个具体的相对位置框架。它定义了一个由原始元素构成的傅里叶-喷射-仿射空间,并使扇区权重可学习。本文将相对注意力作为研究对象。其标量实现PJ-偏置是一个加性注意力分数核,包含傅里叶特征、阻尼有限喷射、仿射近因项以及LC紧化变体。其精确特征变换实现PJ-旋转对查询和键特征应用相对作用,并用于验证RoPE/Jordan-RoPE的封闭性。保持这两个机制分离至关重要:标量PJ-偏置可以恢复标量核,但它与旋转特征变换不是同一对象。
该框架还暴露了一个稳定性问题。高阶喷射携带相对距离的幂次。在长上下文中,这些幂次可能导致变换后的特征、分数和缓存规模急剧增长。光锥PJ将原始距离替换为紧化相位 \(L\operatorname{asinh}(d/L)\) 和饱和振幅 \(d/\sqrt{d^{2}+L^{2}}\)。这控制了增长,但也压缩了远距离的相位分辨率。我们将这种压缩视为显式的稳定性-分辨率权衡。
PJ-RoPE在此用作一个位置空间诊断工具。实验探究任务会选择傅里叶-喷射-仿射空间的哪个区域:受控核恢复它们设计的扇区,合成序列任务测试这些扇区是否可用于可训练的注意力内部,语言运行集中在仿射/近因行为上,音乐令牌流展示了具有可测量高阶校正的LC/仿射行为,而LC诊断则暴露了稳定性-分辨率权衡。
#### 贡献点。
我们做出四项贡献。
**位置空间公式化。** 我们将PJ-RoPE公式化为一个傅里叶-喷射-仿射相对位置空间,并区分标量PJ-偏置核与精确的PJ-旋转特征变换。
**扇区包含关系。** 我们识别出RoPE、Jordan/高阶有限喷射、类似ALiBi的近因以及LC紧化坐标作为同一空间的不同扇区。
**自适应诊断方法。** 我们引入扇区门控、有效质量、功能能量以及留一阶消融实验,以衡量任务级别的扇区选择。
**证据链。** 我们通过受控核、合成序列任务、字节级语言建模和符号音乐令牌流,评估扇区恢复、可训练使用、自然任务分配以及LC稳定性-分辨率权衡。
## 2 背景
令 \(d = i - j \geq 0\) 表示从位置 \(i\) 的查询到位置 \(j\) 的键的相对时滞。RoPE通过旋转来表示这个时滞。用复数表示,原始相对特征为
\[
\chi_\omega(d) = \exp(i\omega d).
\]
实数实现则对应余弦和正弦分量[19 (https://arxiv.org/html/2606.05345#bib.bib4)]。长上下文RoPE变体,如位置插值、YaRN和LongRoPE,改变了训练长度之外的相位调度[2 (https://arxiv.org/html/2606.05345#bib.bib6),15 (https://arxiv.org/html/2606.05345#bib.bib7),5 (https://arxiv.org/html/2606.05345#bib.bib8)]。
ALiBi使用不同的原始元素。它在注意力分数上添加了一个头特定的线性近因项[16 (https://arxiv.org/html/2606.05345#bib.bib5)]。在相对位置基中,这是一个仿射方向,而不是傅里叶相位。这一区别很重要,因为模型可能出于不同原因需要局部近因和振荡相位信息。
Jordan-RoPE将纯旋转块替换为非半单若尔当块[24 (https://arxiv.org/html/2606.05345#bib.bib26)]。一阶若尔当校正贡献形如 \(d \exp(i\omega d)\) 的项。高阶块贡献 \(d\) 的更高幂次乘以相同的傅里叶特征。在微分语言中,这些是傅里叶特征曲线的有限喷射。这使得Jordan-RoPE成为RoPE在频率空间中的局部加厚。
## 3 相关工作
#### Transformer与相对位置。
原始Transformer将绝对正弦位置信号添加到原本置换不变的注意力层中[22 (https://arxiv.org/html/2606.05345#bib.bib1)]。而相对位置表示直接将成对时滞结构注入自注意力[18 (https://arxiv.org/html/2606.05345#bib.bib2)],同时Transformer-XL将相对位置项与段级循环相结合,用于更长上下文的语言建模[4 (https://arxiv.org/html/2606.05345#bib.bib3)]。这些工作激励了PJ-RoPE的相对注意力公式。
#### 旋转与仿射相对位置。
RoPE通过齐次旋转相位作用表示相对时滞,使得位置的平移表现为查询/键内积中的相位差[19 (https://arxiv.org/html/2606.05345#bib.bib4)]。ALiBi则采取互补的标量路线:它直接在注意力分数上添加头特定的线性近因偏置[16 (https://arxiv.org/html/2606.05345#bib.bib5)]。这两种机制通常被视为竞争性方案,但对于本文而言,它们提供了相对位置空间的不同扇区:齐次相位扇区和仿射近因扇区。
#### 长上下文相位缩放与核化偏置。
位置插值、YaRN、LongRoPE和XPos修改了旋转或相对相位在训练窗口外的分配方式[2 (https://arxiv.org/html/2606.05345#bib.bib6),15 (https://arxiv.org/html/2606.05345#bib.bib7),5 (https://arxiv.org/html/2606.05345#bib.bib8),20 (https://arxiv.org/html/2606.05345#bib.bib9)]。核化与函数化相对位置方法,如KERPLE、FIRE和MEP,通过核或学习函数族推广了标量相对偏置[3 (https://arxiv.org/html/2606.05345#bib.bib10),13 (https://arxiv.org/html/2606.05345#bib.bib11),6 (https://arxiv.org/html/2606.05345#bib.bib18)]。双曲偏置方法如HyPE也使用非线性距离坐标进行相对位置偏置[1 (https://arxiv.org/html/2606.05345#bib.bib19)]。这些方法是长上下文语言建模的强基线,仍然是重要的参考线。PJ-RoPE探究的是,当傅里叶、有限喷射、仿射和LC稳定化坐标在共享空间中可用时,任务会选择哪个原始元素。
#### 相对位置原始元素族。
现有的相对位置机制也可以根据它们引入注意力的时滞的原始函数类型进行分组。基于表格和桶的方法学习局部或离散的偏移。偏置中心的方法向分数添加标量近因函数,包括线性、桶式、对数或核化形式。旋转方法使用傅里叶相位特征并修改其频率调度以进行长上下文外推。若尔当类型方法添加多项式调制的傅里叶项。PJ-RoPE遵循这种原始元素族视角:傅里叶扇区包含零阶相位特征,有限喷射扇区包含重根傅里叶喷射,仿射扇区包含类似ALiBi的近因,而LC分支则压缩高阶坐标以实现长上下文稳定性。
#### 无位置编码与长度泛化分析。
无位置编码研究表明,因果Transformer仍然可以从因果掩码和训练动态中获取位置信息,而更广泛的比较发现,最佳的长度泛化行为强烈依赖于任务和位置机制[8 (https://arxiv.org/html/2606.05345#bib.bib12),11 (https://arxiv.org/html/2606.05345#bib.bib13)]。这支持了扇区选择框架:实证问题是,在给定的训练机制和领域下,位置空间的哪个区域被占用。
#### 代数与群论位置编码。
最近有几项工作通过代数或群作用视角研究位置编码。代数位置编码将位置解释为结构化算子[12 (https://arxiv.org/html/2606.05345#bib.bib14)];LieRE通过学习的李旋转推广了RoPE[14 (https://arxiv.org/html/2606.05345#bib.bib15)];GRAPE为类似RoPE的乘法旋转和类似ALiBi的加法偏置提供了最接近现有的群作用统一框架[25 (https://arxiv.org/html/2606.05345#bib.bib16)]。在这个版图中,PJ-RoPE强调了非半单傅里叶-喷射扇区,其中旋转频率被有缺陷的复数块取代,同时结合了自适应扇区诊断和LC/快度稳定化。
#### 从Jordan-RoPE到PJ-RoPE。
Jordan-RoPE通过将半单旋转频率替换为有限若尔当块来扩展RoPE,从而在傅里叶点周围产生非半单有限喷射校正[24 (https://arxiv.org/html/2606.05345#bib.bib26)]。PJ-RoPE保留了该扇区,但拓宽了研究对象:它添加了仿射近因作为显式完备化,引入了跨越扇区和阶数的可学习门控,并提出了LC/快度坐标以稳定长距离下的高阶行为。因此,升级是从单一的非半单旋转扇区到一个可学习的傅里叶-喷射-仿射相对位置空间。
#### 音乐序列建模。
Music Transformer表明,自注意力和相对时序是处理具有长程重复性的符号音乐的自然工具[10 (https://arxiv.org/html/2606.05345#bib.bib21)]。MAESTRO提供了对齐的钢琴演奏数据,包含MIDI和音频[9 (https://arxiv.org/html/2606.05345#bib.bib22)],而MusicNet提供了带有音符标注的古典音乐录音,专为转录研究设计[21 (https://arxiv.org/html/2606.05345#bib.bib23)]。我们使用MAESTRO和MusicNet仅限于符号MIDI派生的令牌流;并非音频转录基准。
## 4 PJ-RoPE位置空间
PJ-RoPE研究一个由时滞索引的有限相对位置原始元素族。在标量相似文章
RoVE:面向相对位置依赖值路径的旋转值嵌入注意力机制
本文提出RoVE,一种无需参数的旋转位置嵌入改进方法,通过同时旋转值与键使值路径具备位置敏感性,将RoPE注意力转化为注意力卷积。在GPT-2模型上的实验表明,该机制在少样本上下文学习、分布外困惑度及长上下文检索方面持续提升性能。
RoPE 在长上下文中既无法区分位置也无法区分词元,可证明
本文证明,基于RoPE的注意力机制在长上下文中无法区分词元位置和身份,解释了LLM在宣称的上下文长度内失败的原因。实验验证表明,针对检索优化的模型在简单列表任务上表现困难。
RoPE在长上下文中既不能区分位置也不能区分标记,可证明
本文提供了理论证明,表明基于Transformer的语言模型中的旋转位置嵌入(RoPE)在长上下文中会失去其局部性偏差和区分标记顺序的能力,注意力分数变得不比随机更好。作者证明,增加RoPE基频会在位置区分和标记区分之间进行权衡,且多头、多层架构无法弥补这一基本限制。
FRAPPE: 使用投影追踪编码器的完整输入残差输出自编码
FRAPPE是一种新颖的自编码框架,使用投影追踪编码器从完整输入预测残差,实现了高效的变速率图像压缩和快速的CPU编码。在高压缩比下,FRAPPE-Image在感知质量上优于AVIF,编码速度快47倍,使得仅使用CPU即可实现实时1080p 30fps编码。
CF-JEPA:利用不对称编码器进行无掩码前向预测的时间序列表示学习
提出CF-JEPA,一种无掩码的自监督学习框架,用于时间序列表示学习。该方法通过从随机裁剪中进行多视野前向预测,并利用在线编码器与指数移动平均目标编码器之间的不对称性,在分类、预测和异常检测任务上提升了性能。