能量门控注意力与Wavelet位置编码:Transformer注意力的互补归纳偏置
摘要
本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。
arXiv:2605.26355v1 公告类型:新
摘要:标准Transformer注意力计算成对令牌相似度,但将所有令牌视为同等显著,所有位置视为同等局部,而不考虑输入的信息结构。我们识别了标准注意力缺乏的两个互补归纳偏置:能量显著性(哪些令牌集中了信息能量,通过端到端学习而无需显式频率分解)和尺度选择性局部性(在每个频率上位置影响的范围,通过Morlet小波编码实现)。我们通过两个简单组件解决这两个问题。能量门控注意力(EGA)通过单个线性投影计算的关键令牌嵌入的学习能量估计来门控值聚合;它选择关注什么。Morlet位置编码(MoPE)用学习的高斯窗口化小波替代固定的正弦编码,这些编码将联合位置-频率定位适应语料库;它指定每个尺度上注意力操作的位置。在TinyShakespeare上,EGA单独相比标准注意力获得+0.092的验证损失改进(相比阶段1-3基线为+0.103);MoPE单独为-0.032(作为独立编码低于基线);但它们的组合达到+0.119——超过各部分之和。这种超加性在两个独立训练运行中观察到,是核心实验发现:显著性和局部性是互补的归纳偏置,每个都弥补了另一个单独无法填补的空白。消融实验证实,结构化谱先验(Morlet小波门、尺度初始化的头、固定正弦PE)始终不如其无约束学习对应物,而互补的学习组件超加性地相互作用。所有实验都在小规模(<=6M参数、字符级基准、单种子)上进行;更大规模的多种子验证是未来工作最重要的方向。
查看缓存全文
缓存时间: 2026/05/27 09:09
# 能量门控注意力与小波位置编码:Transformer注意力的互补归纳偏置 来源:https://arxiv.org/html/2605.26355 Athanasios Zerisi0009\-0002\-6907\-2400 (https://orcid.org/0009-0002-6907-2400) 独立研究员,希腊雅典。通讯邮箱:[email protected]。ORCID:0009\-0002\-6907\-2400 (https://orcid.org/0000-0002-XXXX-XXXX)。本论文是五篇系列论文之一,内容涉及Transformer注意力中的频谱方法。 ###### 摘要 标准Transformer注意力计算逐对词元的相似度,但将所有词元视为同等显著,将所有位置视为同等局部,而不考虑输入的信息结构。我们识别出标准注意力所缺失的两种互补归纳偏置:*能量显著性*(哪些词元集中了信息能量,通过端到端学习而不需要显式频率分解)和*尺度选择性局部性*(在每个频率下,位置影响的范围有多大,通过Morlet小波编码实现)。我们用两个简单组件分别解决这些问题。**能量门控注意力**(EGA)通过一个单一线性投影计算的关键词元嵌入的学习能量估计,对值聚合进行门控;它选择*什么*需要关注。**Morlet位置编码**(MoPE)用学习的高斯加窗小波替换固定的正弦编码,该小波能根据语料自适应地调整联合位置-频率定位;它指定了在每个尺度下注意力在*何处*发挥作用。在TinyShakespeare上,仅EGA就比标准注意力(比阶段1-3基线)实现了+0.092验证损失改进;仅MoPE作为独立编码时比基线低0.032;但它们的组合实现了+0.119——超过各部分之和。这种超加性在两个独立训练运行中一致观察到,是核心经验发现:显著性和局部性是*互补的*归纳偏置,各自弥补了另一个单独无法填补的空白。消融实验证实,结构化的频谱先验(Morlet小波门控、尺度初始化头、固定正弦PE)始终不如其无约束的学习对应物,而互补的学习组件则超加性地相互作用。所有实验均在小规模(≤6M参数、字符级基准、单一随机种子)下进行;更大规模的多种子验证是未来工作最重要的方向。 ## 1 引言 Transformer(Vaswani et al., 2017 (https://arxiv.org/html/2605.26355#bib.bib20))仅通过查询-键相似度计算注意力权重。这虽然强大,但在两个方面结构上不完整:它没有建模哪些词元本质上具有信息性(频谱显著性),也没有调整在每个尺度上位置影响的范围(局部性)。我们提出两个组件分别解决这两个空白,并通过实验证明它们是互补的。 #### 注意力缺乏显著性。 点积注意力根据与当前查询的内容相似度对词元加权,但不考虑其内在的信息密度。出现在形态边界、句法中心词或话语标记处的词元,无论查询是什么,都携带了不成比例的信息。标准注意力没有机制来检测或利用这一特性。EGA(Zeris, 2026 (https://arxiv.org/html/2605.26355#bib.bib1))通过对值聚合施加一个学习到的能量估计门控来解决这一问题——该标量对信息密集的词元高,对背景词元(如功能词、重复模式、填充词)低。该门控是一个单一的学习线性投影,参数开销小于0.3%。 #### 位置编码缺乏自适应局部性。 标准正弦PE(Vaswani et al., 2017 (https://arxiv.org/html/2605.26355#bib.bib20))为每个嵌入维度分配一个固定频率,没有空间包络:每个位置在每个尺度上贡献相同,无论上下文长度或所编码语言现象的自然尺度如何。RoPE(Su et al., 2021 (https://arxiv.org/html/2605.26355#bib.bib18))编码相对位置而非绝对位置,但仍使用没有高斯局部性的固定频率。MoPE通过将固定的正弦基替换为学习的高斯加窗小波来解决这一问题。每个嵌入维度学习自己的中心频率ω_i和局部性带宽σ_i,提供自适应的时频定位。 #### 互补性假设。 EGA控制*什么*需要关注(显著性);MoPE控制在每个尺度下注意力*在何处*敏感(局部性)。我们假设这些是注意力正交的属性——两者不能相互替代——并且它们的组合提供了比任何单独一个更完整的注意力机制。 #### 主要结果。 EGA-MORLET组合在TinyShakespeare上达到验证损失1.3550,比标准注意力提高了+0.119。这超过了各组分之和(+0.092−0.032 = +0.060)达+0.059,与互补性而非简单加性一致。这一结果在两个不同随机种子的独立训练运行中观察到,提供了稳健性的初步证据。 #### 辅助发现。 另外五个实验检验了注意力频谱滤波解释的预测:卷积注意力(非零延迟优于零延迟点积,+0.007);尺度初始化头(无收益,−0.007,负面结果表明梯度下降无需指导即可发现尺度结构);频谱通量门控(+0.012,表明边界检测是一个有用的注意力信号);相位相干性门控(−0.007,表明在字符尺度上相位信息不具信息性);以及频谱级联分析,显示了跨层的定性频谱粗化。代码可访问:https://github.com/AthanasiosZeris/energy-gated-attention。 #### 贡献。 1. 对点积注意力的互相关解释:q_i·k_j = C_ij(0),确立标准注意力是一个更丰富频谱关系的零延迟值。 2. MoPE:一种局部化小波位置编码,严格推广了sin/cos PE(σ_i → ∞ 恢复sin/cos),并提供与RoPE(在σ→∞极限下的相位结构)和ALiBi(零频率局部性极限)的理论联系。 3. 在受控实验中实证展示EGA和MoPE是互补的归纳偏置,其组合具有超加性。 4. 结构化消融实验,显示哪些频谱先验有帮助或失败,并为每种结果提供可解释的解释。 ## 2 方法 ### 2.1 将注意力解释为互相关 标准缩放点积注意力计算: e_ij = (q_i · k_j) / √(d_k) = C_ij(0) (1) 其中C_ij(τ) = Σ_d q_i[d] · k_j[d+τ] 是延迟τ处的互相关。标准注意力是这个互相关的*零延迟*值,丢弃了完整的延迟轮廓 {C_ij(τ): τ ≠ 0}。 我们采纳 Verma & Pilanci (2024 (https://arxiv.org/html/2605.26355#bib.bib21)) 的操作频谱解释:嵌入维度在词元位置上的每个坐标定义了一个长度为T的一维因果信号。所有频谱量都是应用于非平稳学习嵌入的有限窗操作估计;应将其理解为近似值而非精确频谱定理。 #### 零延迟丢弃了什么。 缩减到零延迟会丢失三个量: **尺度选择性。** 完整的互谱密度 S_ij(ω) = Q_i*(ω) K_j(ω) 显示了哪些频率贡献于相似度。点积对所有频率进行等权积分。 **延迟结构。** C_ij(τ) 对于 τ ≠ 0 测量了查询和键信号在时间偏移下的关系。正延迟(τ > 0):键先于查询——预期结构。负延迟(τ < 0):查询先于键——回顾性指代、回指。 **频谱显著性。** 边缘能量 ∫ |K_j(ω)|^2 dω 独立于查询测量了位置j的总频谱内容。EGA直接估计这一量。 ### 2.2 能量门控注意力(EGA) EGA(Zeris, 2026 (https://arxiv.org/html/2605.26355#bib.bib1))用一个学习到的能量门控增强标准注意力: e_j = w_proj^⊤ x_j (能量投影) (2) ĥe_j = (e_j - μ_e) / (σ_e + ε) (z-归一化) (3) g_j = σ(α(ĥe_j - τ)) (门控) (4) Â_ij = (A_ij · g_j) / (Σ_k A_ik · g_k + ε) (重新归一化) (5) 门控g_j ∈ (0,1) 对于其嵌入在学习的投影方向w_proj上投影强的词元为高——这些词元在主导投影方向上携带高能量。阈值τ收敛到约0.35,与初始化无关,对应携带高于平均能量(约36%)的词元比例——与英文连续文本中的实词比例一致(Zeris, 2026 (https://arxiv.org/html/2605.26355#bib.bib1))。 EGA每个头增加了d+2个参数(开销 < 0.3%),且没有可衡量的计算成本。它是因果实现的:投影 w_proj^⊤ x_j 仅作用于位置j,满足 Verma & Pilanci (2024 (https://arxiv.org/html/2605.26355#bib.bib21)) 的因果性要求。 #### 关于术语“能量显著性”。 我们使用术语*能量显著性*来指代EGA门控,其精确含义如下:根据帕塞瓦尔恒等式,嵌入维度上的线性投影估计了嵌入向量的一个频谱加权能量,因此w_proj^⊤ x_j 理论上可动机为一个能量估计。我们承认,w_proj 端到端实际学到的可能更好地描述为一种通用的信息显著性信号——它可能学习检测句法主导性、词元罕见度、边界位置或频率选择性能量,所有这些都会产生观察到的改进。门控是否专门学习频谱能量而非其他显著性属性是可检验的(通过将门控输出与通过DFT计算的嵌入频谱能量进行相关性分析),我们将其视为未来工作的重要方向。EGA最准确地描述为一个*学习的能量门控*;频谱框架提供了理论动机,而非关于具体计算机制的断言。 ### 2.3 Morlet位置编码(MoPE) MoPE用学习的高斯加窗小波编码替换固定的正弦PE: MoPE(b, 2i) = cos(ω_i b) · e^{-b^2 / (2σ_i^2)} (6) MoPE(b, 2i+1) = sin(ω_i b) · e^{-b^2 / (2σ_i^2)} (7) 其中ω_i和σ_i是每个嵌入维度学习的参数,以二进间隔初始化,且 ω_i σ_i = 5(允许最小值)。 #### 理论性质。 MoPE提供了类似于高斯加窗小波的联合位置-频率表示。标准 sin/cos PE 是退化情况 σ_i → ∞: lim_{σ_i→∞} MoPE(b, 2i) = cos(ω_i b) (8) 因此MoPE严格推广了 sin/cos PE。 #### 与先前PE方法的联系。 在相位结构层面,RoPE 在 MoPE 应用于相对位置的 σ_i → ∞ 极限下恢复正弦相位行为;完整的 RoPE 机制还在复杂的查询-键空间中使用旋转复合,这不等同于在加法 MoPE 编码中设置 σ_i → ∞。ALiBi 对应于零频率下的 MoPE(仅有局部性,无振荡)。MoPE 是唯一同时提供自适应频率和自适应局部性的推广。 #### 互相关结构。 将MoPE代入互相关 C_i(τ) = Σ_b MoPE(b,2i) · MoPE(b+τ,2i),假设同尺度相关且忽略边界效应,归一化常数下得到: C_i(τ) ∝ e^{-τ^2/(4σ_i^2)} · cos(ω_i τ) (9) 这具有延迟空间中的Morlet核形式。有三个显著性质。 **持续性。** 高斯项 e^{-τ^2/(4σ_i^2)} 衡量尺度i的语言模式随τ个词元步骤的持续强度。细尺度维度(小σ_i)具有快速衰减的互相关,捕获字符级局部结构。粗尺度维度(大σ_i)具有缓慢衰减的互相关,捕获从句或句子级依赖关系。 **周期性。** 余弦项 cos(ω_i τ) 编码了频率ω_i下的相对位置——与同频率下RoPE的旋转角相同。 **海森堡权衡。** 在高斯加窗表示类中,乘积 Δτ · Δω = 1/2 达到了海森堡界限允许的最小不确定度乘积。MoPE提供了该类中的最优权衡;sin/cos PE实现了 Δω=0(零带宽),但代价是 Δτ=∞(无局部性)。 ### 2.4 组合模型:显著性与局部性 组合模型 EGA-MORLET 将 EGA 门控应用于在 MoPE 位置编码下计算的注意力权重。除了这两个组件外,不需要其他架构更改。 互补性假设预测超加性:EGA和MoPE解决了注意力不同且不重叠的性质。EGA通过识别*哪些*词元具有信息性(显著性感知)来改进注意力。MoPE通过指定在每个尺度上位置影响*在何处*延伸(局部性感知)来改进注意力。每个组件都不编码另一个提供的信息。因此,它们的组合应该比任何单独一个实现更多——我们在第4节 (https://arxiv.org/html/2605.26355#S4) 中实证检验这一预测。 ## 3 理论分析 ### 3.1 为什么组合是超加性的 超加性的形式理由源于EGA和MoPE提供的信息的互补性。 EGA通过重新加权哪些词元贡献来修改*值*聚合步骤。MoPE通过改变可用的位置信息来修改*分数*计算。这两个操作修改了不同的计算步骤,并携带非重叠的信息,因此它们的组合可以同时改进两者。 更精确地说,EGA-MORLET注意力分数为: e_ij^(EGA-MORLET) = (q_i^(MoPE) · k_j^(MoPE)) / √(d_k) · g_j^(EGA) (10)
相似文章
语法引导的稀疏注意力机制:实现高效可解释的Transformer
本文介绍了一种针对Transformer的语法引导稀疏注意力机制,旨在通过利用语言结构来提高效率和可解释性。
Exact Linear Attention
本文介绍了一种名为Exact Linear Attention (ELA) 的机制,该机制通过利用核函数分解,在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度,并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接(Hyper Link)、记忆叶(Memory Lobe)以及面向混合专家模型的路由偏置在内的工程创新。
SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推
SEGA是一种无需训练的方法,通过在去噪步骤中根据空间频率结构自适应地缩放RoPE组件的注意力,改善高分辨率文本到图像生成。
光谱探针电路:识别预训练Transformer中注意力头电路的三步法
介绍了一种三步法,用于识别预训练Transformer中的注意力头电路,该方法使用频谱信号和任务模式筛选,无需标签,并在51M到1B参数模型及多种架构上验证。
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。