局部性并不意味着可达性:块稀疏因果注意力中的边界修复

arXiv cs.LG 论文

摘要

本文研究了固定块稀疏因果注意力中序列局部性与注意力图可达性之间的不匹配,形式化了边界伪影,并提出了诊断覆盖函数和一种名为边界桥注意力的最小修复方法。

arXiv:2606.02680v1 公告类型:新 摘要:稀疏因果注意力通常通过序列局部性来描述:相邻的token应该保持易于访问,而远处的token可以被丢弃以降低成本。本文研究了序列局部性与注意力图可达性之间的不匹配。在固定块因果注意力中,两个相邻的token可能在每一层的注意力图中断开连接。我们通过结构依赖集形式化了这种边界伪影:如果每个注意力层使用相同的固定块因果掩码,并且所有其他操作都是按位置进行的,则目标表示只能依赖于其自身块前缀中的token。这为构建的K路边界复制分布产生了架构级别的边界复制分离,其top-1准确率上限为1/K,期望交叉熵下限为log K。然后我们推导了相位条件覆盖函数,表明可达性依赖于源-目标距离以及目标在其块内的偏移。这些覆盖定律预测了稀疏模式何时会失败,何时修复可以有所帮助,以及为什么滑动窗口注意力和边界修复不可互换。边界桥注意力被视为建设性的证据:它保留了固定块路径,并使用共享投影在块边界附近添加了零额外参数的辅助因果边。受控的1024-token实验表明,收益集中在覆盖对齐的诊断上。作为次要的外部有效性证据,一个固定检查点的8K-token Qwen2.5-7B探针显示了相同的覆盖不可比较模式。贡献在于一个理论指导的诊断框架,用于块稀疏因果注意力中的局部性-可达性不匹配,以及相位条件覆盖分析和最小建设性修复。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:39

# 块稀疏因果注意力中的边界修复  
来源:https://arxiv.org/html/2606.02680  

## 局部性并不意味着可达性:块稀疏因果注意力中的边界修复(2026年5月)  

###### 摘要  
稀疏因果注意力通常用序列局部性来描述:邻近的 token 应当保持易访问,而遥远的 token 可以为了降低成本而被丢弃。本文研究序列局部性与注意力图可达性之间的不匹配问题。在固定块因果注意力中,相邻的两个 token 在每一深度的注意力图中都可能断开。我们通过结构依赖集将这一边界伪影形式化:如果每个注意力层都使用相同的固定块因果掩码,且所有剩余操作都是按位置进行的,那么目标表示只能依赖于其自身块前缀内的 token。这为构造的一个 \(K\) 路边界复制分布产生了一个架构级别的边界-复制分离,其 top-1 准确率上界为 \(1/K\),期望交叉熵下界为 \(\log K\)。然后,我们推导出相条件覆盖函数,表明可达性既取决于源-目标距离,也取决于目标在其块内的偏移量。这些覆盖规律可以预测稀疏模式何时会失败,何时修复会有帮助,以及为何滑动窗口注意力与边界修复是不可互换的。我们将边界桥接注意力视为一种建设性证明:它保留了固定块路径,并使用共享投影在块边界附近添加了零额外参数的辅助因果边。受控的 1024 token 实验表明,增益集中在与覆盖对齐的诊断中:源扩展桥接在桥接窗口检索上几乎匹配滑动窗口注意力,而滑动窗口注意力在困惑度和标准针检索上仍然更强。作为次要的外部效度证据,一个固定检查点的 8K token Qwen2.5-7B 探针显示了相同的覆盖不可比较模式:PBB+Full 在加权诊断平均值上与 SWA+Full 相差在 0.4 个百分点以内,同时使用了更小的优化局部边预算,并在边界窗口探针上最强,而 SWA+Full 在语义变体上仍然更强。贡献在于:一个针对块稀疏因果注意力中局部性-可达性不匹配的理论指导诊断框架,连同相条件覆盖分析,以及一个最小的建设性修复。  

## 1 引言  

全因果注意力使得每个 token 都能直接访问所有更早的 token,但这种访问代价高昂:注意力分数矩阵随序列长度呈二次增长(Vaswani 等,2017)。稀疏注意力通过从因果注意力图中删除边来降低成本。本文的核心问题是这些被删除的边可能会引入何种结构性失效。我们聚焦于一个简单但具有启发性的情形:具有固定分区的块稀疏因果注意力。  

局部稀疏注意力的通常直觉是度量性的:邻近的 token 应当比遥远的 token 更容易访问。固定块因果注意力违反了这一直觉。序列被划分为块,每个 token 只关注自己块内的更早 token。在边界 \(p = jb\) 处,位置 \(p-1\) 和 \(p\) 在序列距离上是相邻的,但如果每一层都使用相同的固定块因果掩码,且所有其他操作都是按位置进行的,那么在注意力图中就不存在从 \(p-1\) 到 \(p\) 的有向路径。因此,token 距离上的局部性并不意味着计算图中的可达性。  

一旦固定分区被陈述,边界断开就不神秘了。本文的重点是将这个简单的掩码伪影转变为一个诊断框架。失效的原因不是模型层数太少,也不是优化恰好错过了一种模式;在所陈述的架构假设下,缺少的依赖在前向传播中是结构上不可用的。我们通过结构依赖集使其精确化,推导出一个边界复制下界,然后刻画哪些源-目标对可以被几种局部稀疏模式覆盖。由此产生的相条件覆盖规律表明,token 的有效感受野取决于它在块内的偏移量,而不是仅取决于向后的距离。  

边界桥接注意力在这篇论文中作为所分析缺陷的建设性修复出现。它保持固定块注意力作为主路径,并使用相同的查询、键、值和输出投影在块边界附近添加同层的辅助因果边。后边界桥接和源扩展桥接通过仅改变源和回写几何结构来细化修复。因此,桥接作为一个最小证明:恢复缺失的边界边恰好改变了图分析所预测的那些诊断项。  

我们的实证目标遵循这种理论优先的框架。我们在相同的数据、优化和 token 预算下训练参数匹配的 1024 token 基础语言模型,然后评估那些可以隔离字面检索、桥接窗口检索、相位敏感边界行为以及语义线索单事实检索的探针。因此,本文不是一个稀疏注意力排行榜:实验测试的是关于每种掩码下哪些源位置可达的图级预测。全因果注意力仍然保持上界。在局部模型中,SWA 在验证困惑度和标准针检索上仍然更强。源扩展桥接在桥接窗口检索上几乎匹配 SWA;它在干净语义线索单事实检索上的微小固定检查点配对优势被视作次要证据。我们还将一个固定检查点的 8K token Qwen2.5-7B 干预作为外部效度探针,而不是替代广泛的长上下文基准测试。  

这种模式支持核心解释:连续局部历史和边界修复暴露了不同的可达源集。我们研究固定块模型作为硬分区极限,因为它允许精确的图分析。这个极限暴露了一个结构性失效,如果局部性仅用 token 距离描述,该失效是不可见的。现代高效注意力系统仍然围绕块、块、压缩 KV 条目、选定页面或窗口化缓存状态来组织计算(Yuan 等,2025;DeepSeek-AI,2026;Jiang 等,2023)。在这些系统中,性能不仅取决于上下文中是否存在邻近 token,还取决于相关源是否被表示、选择并且可被查询到达。固定块注意力提供了一个最小的环境,其中这种局部性-可达性区分可以被精确证明。  

使用 1024 token、124M GPT-2 风格的基础模型同样是一个诊断设计选择。它使得边界缺陷保持可见,同时避免了规模、后期训练、长上下文适应或混合注意力调度等混杂因素。额外的 7B 探针则有意识地改变了这个问题:它询问当在一个周期性全混合调度下应用到预训练检查点时,相同的图干预是否具有可检测的标记。答案用于支持理论优先的主张,而不是将论文重新定位为一种新的高性能长上下文架构。第 5 节和范围讨论将回到这些外部效度轴。  

我们的贡献是:  

1. 我们将局部性-可达性不匹配表述为稀疏因果注意力的一种图级失效模式。  
2. 我们定义了结构依赖集,并证明了在固定分区下,固定块因果注意力会创建一个任意深度的可达性屏障。  
3. 我们将该屏障转化为固定块因果 Transformer 的一个定量边界复制下界。  
4. 我们推导了 Block、SWA、PBB 和 SE-Bridge 的相条件覆盖函数,明确了边界相位如何控制可达源集。  
5. 我们将覆盖函数与探针特定风险联系起来,并表明 SWA 和 SE-Bridge 在主要几何结构上是覆盖不可比较的。  
6. 我们将 Bridge 系列机制重新解释为一种零额外参数的建设性修复,它在保留块路径的同时添加了残差边界边。  
7. 我们提供了受控的诊断,表明经验增益集中在与覆盖对齐的区域,而 SWA 在均匀局部上下文方面仍然更强,且语义结果仍然是次要的。  
8. 我们增加了一个固定检查点的 7B/8K 探针,在周期性全混合调度下显示了相同的覆盖模式,其中 PBB+Full 几乎匹配 SWA+Full,同时需要的优化局部注意力边更少。  

## 2 相关工作  

#### 稀疏注意力作为设计空间。  
稀疏注意力方法都减少了二次注意力图,但它们在如何选择保留的边上有所不同。早期长序列 Transformer 主要使用固定或轻度结构化的模式:Sparse Transformer 中的因子化注意力(Child 等,2019)、Longformer 和 ETC 中的局部加全局布局(Beltagy 等,2020;Ainslie 等,2020),以及 BigBird 中局部、随机和全局边的混合(Zaheer 等,2020)。其他工作通过路由或哈希使稀疏性更加依赖于输入(Kitaev 等,2020;Roy 等,2021)。在解码器 LM 中,滑动窗口注意力通过 Mistral 7B 成为一种实用的局部基线(Jiang 等,2023);LongNet 则通过膨胀注意力延伸局部访问(Ding 等,2023),而 StreamingLLM 表明仅窗口解码仍然会失败,除非保留注意力汇(Xiao 等,2024)。实践系统也使用混合层调度:Gemma 2 交替使用局部和全局注意力层(Gemma Team 等,2024)。全局、随机和类似展开器的稀疏模式解决了一个不同的问题:它们提供了广泛或多跳访问。我们的 SWA 基线属于局部窗口族,而 Bridge 则保持固定块注意力作为主路径,仅添加同层的边界残差。  

最近的长上下文系统越来越超越固定的手工设计掩码,转向可训练的、依赖于查询的以及硬件对齐的稀疏性,包括 token 选择、压缩和推理时的稀疏路由(Yuan 等,2025;Tang 等,2024;Jiang 等,2024)。原生稀疏注意力结合了粗粒度 token 压缩、细粒度 token 或块选择,以及用于局部上下文的滑动窗口分支(Yuan 等,2025)。DeepSeek-V4 的技术报告同样描述了一个已部署的百万上下文系统,该系统基于 token 级压缩、稀疏选择和局部细节保留(DeepSeek-AI,2026)。DuoAttention 在长上下文推理期间通过区分检索头和流头提供了互补的头级视角(Xiao 等,2025)。本文研究的是同一更广泛关注点的分析清晰硬分区极限:当计算是块结构时,哪些源实际上被表示、选择并且可达?  

#### 边界跨越与边界修复。  
与 Bridge 最接近的几何类比是移位窗口注意力:Swin Transformer 交替窗口分区,使得局部注意力可以在保持计算有界的同时跨越窗口边界交换信息(Liu 等,2021)。Bridge 使用了相关的边界跨越几何结构,但这里研究的机制是不同的。移位分区是一种层间混合策略:一个 token 可能仅在信息首先经过一层分区变换后,再在后续移位的分区下被读取,才能接收到跨边界信息。Bridge 是一种同层修复:它保持原始的固定块路径完整,并在同一层添加辅助因果边,为覆盖的源-目标对提供长度为 1 的修复路径。这个区分在因果语言建模中尤其重要,因为交替分区可以改善多层可达性,而不涉及缺失的边界依赖是否可以作为同层残差边被恢复的问题。因此,我们将移位窗口作为几何背景引用,并专注于固定块图的同层残差修复。  

#### 实现效率。  
稀疏注意力不仅是一个图设计问题,也是一个实现问题。FlashAttention 和 FlashAttention-2 表明,注意力速度和内存高度依赖于 IO 感知的分块、工作分区和内核设计(Dao 等,2022;Dao,2024)。硬件感知的稀疏系统(如原生稀疏注意力)通过将稀疏算法与实现感知的执行配对,从稀疏方面提出了同样的观点(Yuan 等,2025)。因此,我们的吞吐量数字应被理解为当前 PyTorch 实现的度量,而不是内核优化后的极限。它们在一种实现下对于比较我们的基线是有用的,但它们本身并不能确立架构级别的速度边界。  

#### 记忆和循环上下文。  
对上下文碎片化的另一种回应是向前携带状态,而不是改变局部注意力图。Transformer-XL 使用段循环和相对位置编码(Dai 等,2019);Compressive Transformer 将过去的激活压缩成更小的记忆(Rae 等,2020);而块循环 Transformer 在 token 块上维持循环状态(Hutchins 等,2022)。Landmark Attention 和 Infini-attention 同样通过地标 token、学习摘要或压缩记忆来保留长上下文访问(Mohtashami 和 Jaggi,2023;Munkhdalai 等,2024)。Bridge 在主实验中故意没有记忆:它不存储压缩摘要、不添加循环状态、也不引入学习的记忆槽。这使得我们可以将边界修复与更广泛的检索-压缩权衡隔离开来。  

#### 长上下文评估。  
针在一堆干草中的测试为长上下文模型提出一个简单问题:模型能否恢复一个放置在远离查询位置的字面事实(Kamradt,2023)?随后的基准测试沿着几个轴使这个问题复杂化。Lost in the Middle 表明,即使是字面检索也深受位置影响,因此在一个放置位置上的成功并不意味着均匀的上下文使用(Liu 等,2024)。RULER 将 NIAH 模板扩展到多针、追踪和聚合任务,从单事实查找转向结构化检索和共

相似文章

架构而非规模:大语言模型中的电路局部化

arXiv cs.CL

本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。

结构注意力税:检索格式如何独立于内容劫持上下文学习

arXiv cs.CL

本文识别并形式化了'结构注意力税'现象,即检索内容的格式(例如知识图谱三元组)独立于语义相关性扭曲了LLM的注意力分布,导致演示注意力压缩。它提供了正式框架、跨模型和基准的实证证据,并提出了结构感知的缓解策略。

功能注意力:从成对亲和性到功能对应关系

Hugging Face Daily Papers

功能注意力是一种新颖的注意力机制,它将注意力重新解释为自适应基之间的功能对应关系,用受几何功能映射启发的结构化线性算子取代了softmax亲和性。该方法在包括PDE求解和3D分割在内的算子学习任务上实现了最先进的性能,同时保持了分辨率不变性。

重新思考高效注意力在混合架构中的作用

arXiv cs.CL

本文系统分析了高效注意力模块在混合语言模型架构中的作用,发现不同设计在充分训练下长上下文性能趋于一致,且长距离检索主要由全注意力承担,而高效注意力塑造了优化轨迹,揭示了一个称为“大窗口懒惰”的现象。