注意力的路由与过滤结构
摘要
本文将注意力交互矩阵分解为路由(反对称)和过滤(对称)两个组成部分,并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象,可预测注意力简化的位置,从而在极小困惑度损失下实现显著的参数减少。
arXiv:2605.18826v1 Announce Type: new \n摘要:注意力交互矩阵 $QK^{\top}$ 包含两种纠缠的计算:一种是在位置之间重新分配信息的反对称分量(路由),另一种是缩放相互相关性的对称分量(过滤)。我们对五个预训练 Transformer 中的 1776 个注意力头进行分解,发现路由以低秩运行,远低于权重核分配的路由容量。我们引入 $S$-$D$ 注意力作为一种诊断性参数化方法,通过结构设计将路由与过滤解耦,保证稳定性($\mathrm{Re}(\lambda) \le 0$),并能在无层归一化的情况下稳定训练。当解耦且未归一化时,路由自组织成谱级联,第一层有效秩为 $2$,随着深度扩展,涵盖从 7M 到 355M 参数的六个规模。该级联预测了注意力可以简化的位置:对 125M 参数 $S$-$D$ 注意力的前七层进行线性化,困惑度增加小于 $5\%$,而标准注意力在相同干预下崩溃。可线性化区域随深度增加。用 ELU+1 线性注意力替换前四层,在全头维度下达到基准的 $1.4\%$ 以内。级联分配架构以注意力参数换取困惑度(注意力参数减少 $47\%-65\%$,困惑度增加 $+3.9\%$ 到 $+8.4\%$)。路由-过滤分解使谱预算变得清晰;级联使其可操作。
相似文章
学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力
本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。
功能注意力:从成对亲和性到功能对应关系
功能注意力是一种新颖的注意力机制,它将注意力重新解释为自适应基之间的功能对应关系,用受几何功能映射启发的结构化线性算子取代了softmax亲和性。该方法在包括PDE求解和3D分割在内的算子学习任务上实现了最先进的性能,同时保持了分辨率不变性。
结构注意力税:检索格式如何独立于内容劫持上下文学习
本文识别并形式化了'结构注意力税'现象,即检索内容的格式(例如知识图谱三元组)独立于语义相关性扭曲了LLM的注意力分布,导致演示注意力压缩。它提供了正式框架、跨模型和基准的实证证据,并提出了结构感知的缓解策略。
Chiaroscuro Attention:在黑暗中运用计算
CHIAR-Former使用基于谱熵的路由,动态选择DCT、RBF和自注意力算子,在大规模文本数据集上实现了效率提升,同时通过混合注意力机制保持性能。
Delta Attention Residuals
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。