注意力的路由与过滤结构

arXiv cs.LG 2026/05/20 04:00 论文

attention transformer routing filtering decomposition spectral-cascade linear-attention

摘要

本文将注意力交互矩阵分解为路由（反对称）和过滤（对称）两个组成部分，并引入 S-D 注意力以解耦它们。揭示了路由中的谱级联现象，可预测注意力简化的位置，从而在极小困惑度损失下实现显著的参数减少。

arXiv:2605.18826v1 Announce Type: new \n摘要：注意力交互矩阵 $QK^{\top}$ 包含两种纠缠的计算：一种是在位置之间重新分配信息的反对称分量（路由），另一种是缩放相互相关性的对称分量（过滤）。我们对五个预训练 Transformer 中的 1776 个注意力头进行分解，发现路由以低秩运行，远低于权重核分配的路由容量。我们引入 $S$-$D$ 注意力作为一种诊断性参数化方法，通过结构设计将路由与过滤解耦，保证稳定性（$\mathrm{Re}(\lambda) \le 0$），并能在无层归一化的情况下稳定训练。当解耦且未归一化时，路由自组织成谱级联，第一层有效秩为 $2$，随着深度扩展，涵盖从 7M 到 355M 参数的六个规模。该级联预测了注意力可以简化的位置：对 125M 参数 $S$-$D$ 注意力的前七层进行线性化，困惑度增加小于 $5\%$，而标准注意力在相同干预下崩溃。可线性化区域随深度增加。用 ELU+1 线性注意力替换前四层，在全头维度下达到基准的 $1.4\%$ 以内。级联分配架构以注意力参数换取困惑度（注意力参数减少 $47\%-65\%$，困惑度增加 $+3.9\%$ 到 $+8.4\%$）。路由-过滤分解使谱预算变得清晰；级联使其可操作。

查看原文

注意力的路由与过滤结构

相似文章

学习跳跃块：自我发现的超度量路由用于硬件加速稀疏注意力

功能注意力：从成对亲和性到功能对应关系

结构注意力税：检索格式如何独立于内容劫持上下文学习

Chiaroscuro Attention：在黑暗中运用计算

Delta Attention Residuals

提交意见反馈