擦除后增量注意力:在Delta规则线性注意力中解耦擦除与写入地址

arXiv cs.CL 论文

摘要

提出擦除后增量注意力(EDA),一种用于线性注意力的记忆更新规则,它在写入新内容之前,先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明,在标准评估和长上下文评估中均取得一致增益。

arXiv:2606.26560v1 公告类型:新论文 摘要:Delta规则线性注意力通过在当前写入地址处先纠正已存储的内容,再写入新内容,从而改进循环记忆更新。然而,主动纠正仍然锚定在同一个写入地址上。因此,存储在另一个地址的过时信息无法在新内容写入其他位置之前被主动移除。我们提出擦除后增量注意力(EDA),一种记忆更新规则,将擦除位置与写入位置解耦。关键见解是:循环记忆模型不仅应纠正当前写入,还应在一个独立选择的地址上有选择地抑制过时记忆。具体而言,我们的方法首先沿学习到的擦除方向执行针对性的擦除步骤,然后沿当前写入方向执行标准的增量式纠正写入。这保留了Delta规则更新的纠正行为,同时扩展了其记忆管理能力。在密集2.5B和MoE 25B-A2.8B模型系列上的语言模型预训练实验表明,EDA在两种设置下均表现最佳。在MoE模型进行80B令牌长上下文中间训练后,增益仍然存在,此时EDA在从4k到128k上下文的评估中也表现最佳。紧凑更新分析和记忆状态探测表明原因:EDA保持Delta规则纠正写入完整的同时,在被动衰减较弱时额外分配了一条最强烈的清理路径。这些结果表明,循环记忆模型不仅应决定写入什么,还应决定擦除哪些过时信息以及擦除位置。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:18

# 在Delta规则线性注意力中将擦除地址与写入地址解耦
来源: https://arxiv.org/html/2606.26560
Xiao Li1,2, Chengruidong Zhang1, Hao Luo1, Xi Lin1,3, Zekun Wang1, Zihan Qiu1, Yunfei Mao1, Langshi Chen1, Man Yuan1, Minmin Sun1, Huiqiang Jiang1, Siqi Zhang1, Rui Men1, Wei Hu2, Gong Cheng2, Bo Zheng1†, Dayiheng Liu1†, Jingren Zhou1
1 Qwen团队 2 南京大学 3 浙江大学 †通讯作者

###### 摘要

Delta规则线性注意力通过纠正当前写入地址中已存储的内容,然后再写入新内容来改进循环记忆更新。然而,主动纠正仍然锚定在同一个写入地址上。结果,存储在另一个地址的过时信息在将新内容写入其他地方之前无法被主动移除。我们提出**擦除-然后-Delta 注意力 (EDA)**,一种将擦除地址与写入地址解耦的记忆更新规则。关键洞察是,循环记忆模型不仅应纠正当前的写入,还应在独立选择的地址上选择性抑制过时的记忆。具体来说,我们的方法首先沿学习到的擦除方向应用一个目标性的擦除步骤,然后沿当前写入方向执行标准的Delta式纠正写入。这保留了Delta规则更新的纠正行为,同时扩展了其记忆管理能力。在密集2.5B和MoE 25B-A2.8B模型家族上的语言模型预训练实验表明,EDA在两种设置下均表现最佳。这种优势在MoE模型经过80B token的长上下文中期训练后仍然持续,EDA在4k到128k上下文的长上下文评估中也表现最佳。紧凑更新分析和记忆状态探测提示了其原因:EDA保持Delta规则纠正写入完整,同时在被动衰减较弱时额外分配一个最强的清理路径。这些结果表明,循环记忆模型不仅应决定写什么,还应决定擦除哪些过时信息以及在哪里擦除。

## 1 引言

自回归Transformer (Vaswani et al., 2017 (https://arxiv.org/html/2606.26560#bib.bib6)) 已成为现代语言建模的基础,部分原因是基于softmax的自注意力能够实现高效的并行计算。该机制通过维护一个显式的键值缓存,在上下文学习和长上下文检索方面取得了强大性能。然而,它在推理时也引入了根本性瓶颈:二次时间复杂度和线性增长的内存开销,限制了长序列任务和智能体推理轨迹的可扩展性。为了解决这些限制,越来越多的工作探索了高效的替代方案,这些方案在保持恒定内存和O(1)\mathcal{O}(1)推理时间的同时,保留了注意力的表达能力。

基于线性注意力 (Katharopoulos et al., 2020 (https://arxiv.org/html/2606.26560#bib.bib7)) 和状态空间模型 (Gu et al., 2022 (https://arxiv.org/html/2606.26560#bib.bib8); Gu and Dao, 2024 (https://arxiv.org/html/2606.26560#bib.bib9)) 的循环模型提供了一种原则性解决方案:它们将上下文信息压缩到固定大小的状态中,从而实现恒定内存和线性时间训练。早期变体如Linformer (Wang et al., 2020 (https://arxiv.org/html/2606.26560#bib.bib10)) 和RetNet (Sun et al., 2023 (https://arxiv.org/html/2606.26560#bib.bib11)) 缺乏数据依赖的记忆控制,性能不如softmax注意力。后续模型引入了动态门控机制 (Yang et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib1); Dao and Gu, 2024 (https://arxiv.org/html/2606.26560#bib.bib13); Beck et al., 2024 (https://arxiv.org/html/2606.26560#bib.bib14)),允许选择性遗忘,显著缩小了性能差距。然而,加性门控更新仍然将新内容写入有限状态,而没有显式纠正当前存储在写入地址的关联。

最近一系列工作用**delta规则** (Schlag et al., 2021 (https://arxiv.org/html/2606.26560#bib.bib15)) 替代了加性更新,它将循环状态视为一个可学习的联想记忆,使其自身朝着当前的键值映射进行纠正。门控DeltaNet (GDN) (Yang et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib1)) 将此纠正写入与头部级遗忘门结合,最近的通道级变体进一步将此门细化为对角衰减,为每个键特征赋予其自己的保留率 (Team et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib2))。GDN-2进一步将标量delta门分离为键侧擦除门和值侧写入门,但主动编辑仍然围绕当前写入键组织 (Hatamizadeh et al., 2026 (https://arxiv.org/html/2606.26560#bib.bib3))。我们在此基础上构建通道级门控delta设置,也称为对角加低秩 (DPLR),它结合了GDN的硬件高效delta规则结构与更细粒度的通道级遗忘。尽管取得了这些进展,一个结构性限制仍未解决:主动delta纠正仍然使用当前写入方向kt\mathbf{k}_{t}作为其唯一地址。这种耦合意味着模型只能抑制当前正在写入地址的记忆;存储在别处的过时信息要么持续存在,要么通过通道级但与地址无关的遗忘来衰减。

这一限制具有切实的后果。在语言建模和状态跟踪任务中,有用的记忆更新不仅需要写入新内容,还需要移除过时信息,否则这些信息会干扰未来的读取和写入。当模型遇到必须先前的信息必须失效的情况——例如变量重新赋值、事实纠正或上下文转换——它没有直接的机制来在提交新内容之前移除旧内容。因此,核心缺失的能力不是更强的遗忘,而是**在不依赖于当前写入地址的地址上,对过时记忆进行目标性删除**。

我们通过**擦除-然后-Delta 注意力 (EDA)** 来解决这个问题,这是一种将擦除与写入解耦的记忆更新规则。EDA不是将记忆抑制绑定到当前写入地址,而是首先在独立选择的地址上移除过时内容,然后在当前写入地址执行通常的Delta式纠正写入。直观地说,擦除步骤主动清除过时记忆,而delta步骤保留了使delta规则模型有效的纠正写入行为。这产生了一个严格更丰富的更新规则:模型可以在同一个循环步骤中在一个地址擦除并在另一个地址写入。

我们表明这个简单的修改有三个重要的后果。首先,它通过分离对角衰减、独立寻址的擦除和写入耦合的纠正,为通道级门控delta循环提供了更清晰的记忆管理视角。其次,实证分析表明,模型学习了擦除和写入寻址之间的近似正交分离,表明这两个操作扮演着真正不同的角色。第三,语言模型预训练实验表明,EDA相比于DPLR风格的门控delta基线有所改进,并且与几个强大的更新规则变体相比表现更好。

总之,我们引入EDA,一种门控delta规则线性注意力更新,它在解耦擦除和写入地址的同时,保留了标准的delta纠正写入。我们分析了由此产生的擦除-然后-delta更新,并通过语言模型预训练、长上下文评估和记忆状态探测对其进行评估,表明额外的地址作为一个条件性清理路径,而不仅仅是更强的遗忘。

## 2 预备知识

我们简要介绍与我们方法最相关的循环记忆符号和通道级门控delta更新。关键点在于,对角遗忘门已经提供了细粒度的衰减,但主动纠正和写入仍然绑定在同一个地址。

### 2.1 符号与线性联想记忆

我们考虑一个循环记忆状态St∈Rdk×dv\mathbf{S}_{t}\in\mathbb{R}^{d_{k}\times d_{v}},在每一步tt更新。键kt∈Rdk\mathbf{k}_{t}\in\mathbb{R}^{d_{k}}作为写入地址,值vt∈Rdv\mathbf{v}_{t}\in\mathbb{R}^{d_{v}}是要存储的内容,查询qt∈Rdk\mathbf{q}_{t}\in\mathbb{R}^{d_{k}}通过St⊤qt∈Rdv\mathbf{S}_{t}^{\top}\mathbf{q}_{t}\in\mathbb{R}^{d_{v}}从记忆读取。

标准线性注意力以加性方式更新记忆:

St=St−1+ktvt⊤,ot=St⊤qt.\mathbf{S}_{t}=\mathbf{S}_{t-1}+\mathbf{k}_{t}\mathbf{v}_{t}^{\top},\,\qquad\mathbf{o}_{t}=\mathbf{S}_{t}^{\top}\mathbf{q}_{t}. \quad (1)
这个规则很高效,但没有明确决定抑制哪些过时信息。

### 2.2 耦合的擦除与纠正写入

DeltaNet (Schlag et al., 2021 (https://arxiv.org/html/2606.26560#bib.bib15); Yang et al., 2024 (https://arxiv.org/html/2606.26560#bib.bib24)) 用源自重构损失的纠正更新替代加性写入

Ltdelta(S)=12∥S⊤kt−vt∥2.\mathcal{L}_{t}^{\mathrm{delta}}(\mathbf{S})=\frac{1}{2}\lVert\mathbf{S}^{\top}\mathbf{k}_{t}-\mathbf{v}_{t}\rVert^{2}. \quad (2)
以学习率βt\beta_{t}采取梯度步骤得到

St=(I−βtktkt⊤)St−1+βtktvt⊤.\mathbf{S}_{t}=(\mathbf{I}-\beta_{t}\mathbf{k}_{t}\mathbf{k}_{t}^{\top})\mathbf{S}_{t-1}+\beta_{t}\mathbf{k}_{t}\mathbf{v}_{t}^{\top}. \quad (3)
DeltaNet不是简单地累加ktvt⊤\mathbf{k}_{t}\mathbf{v}_{t}^{\top},而是首先纠正记忆当前在地址kt\mathbf{k}_{t}返回的内容,然后将新内容写入同一地址。

门控DeltaNet (GDN) (Yang et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib1)) 用头部级标量遗忘门αt∈(0,1)\alpha_{t}\in(0,1)增强此规则:

St=αt(I−βtktkt⊤)St−1+βtktvt⊤.\mathbf{S}_{t}=\alpha_{t}(\mathbf{I}-\beta_{t}\mathbf{k}_{t}\mathbf{k}_{t}^{\top})\mathbf{S}_{t-1}+\beta_{t}\mathbf{k}_{t}\mathbf{v}_{t}^{\top}. \quad (4)
这里αt\alpha_{t}在头部内提供均匀衰减,而(I−βtktkt⊤)(\mathbf{I}-\beta_{t}\mathbf{k}_{t}\mathbf{k}_{t}^{\top})提供地址特定的纠正。然而,擦除和写入行为仍然是耦合的:同一个键kt\mathbf{k}_{t}决定了记忆被强烈修改的位置以及新内容被写入的位置。因此,GDN只能强烈抑制它当前正在写入的地址。

遵循 Kimi Delta 注意力 (KDA) (Team et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib2)),我们使用此GDN设计的通道级版本,将头部级标量遗忘门替换为对角衰减Dt=Diag⁡(αt)\mathbf{D}_{t}=\operatorname{Diag}(\boldsymbol{\alpha}_{t}):

St=(I−βtktkt⊤)DtSt−1+βtktvt⊤.\mathbf{S}_{t}=(\mathbf{I}-\beta_{t}\mathbf{k}_{t}\mathbf{k}_{t}^{\top})\mathbf{D}_{t}\mathbf{S}_{t-1}+\beta_{t}\mathbf{k}_{t}\mathbf{v}_{t}^{\top}. \quad (5)
对角门为每个键通道赋予自己的保留率,并使转换与对角加低秩视图兼容。这改善了不同通道被保留或衰减的强度,但没有改变delta更新本身的寻址结构:纠正修改仍然锚定在当前写入键。因此,即使有通道级门控,在将新内容写入其他地方之前,存储在另一个地址的过时信息无法被显式擦除。

GDN-2通过将标量delta门分离为键侧擦除门和值侧写入门来解决一个密切相关的耦合 (Hatamizadeh et al., 2026 (https://arxiv.org/html/2606.26560#bib.bib3)):

St=(I−kte~t⊤)DtSt−1+ktzt⊤,e~t=bt⊙kt,zt=wt⊙vt.\mathbf{S}_{t}=\left(\mathbf{I}-\mathbf{k}_{t}\widetilde{\mathbf{e}}_{t}^{\top}\right)\mathbf{D}_{t}\mathbf{S}_{t-1}+\mathbf{k}_{t}\boldsymbol{z}_{t}^{\top},\qquad\widetilde{\mathbf{e}}_{t}=\boldsymbol{b}_{t}\odot\mathbf{k}_{t},\quad\boldsymbol{z}_{t}=\boldsymbol{w}_{t}\odot\mathbf{v}_{t}. \quad (6)
这解耦了delta残差内部的通道级擦除和写入强度。然而,擦除/读取方向e~t\widetilde{\mathbf{e}}_{t}仍然是从当前写入键kt\mathbf{k}_{t}构建的,并且纠正仍然沿着kt\mathbf{k}_{t}提交。因此,GDN-2放宽了门控级别的耦合,但擦除和写入之间的地址级耦合仍然存在。

这种耦合是我们针对的限制。如果过时信息存储在不同于当前写入地址的地址,对角门可以衰减特征通道,但不能在写入别处之前选择性移除那个过时的关联。

### 2.3 与近期Delta风格变体的关系

最近的线性循环模型通常通过丰富转换规则或将delta风格记忆嵌入到更强的架构中来提高性能。DeltaProduct (Siems et al., 2026 (https://arxiv.org/html/2606.26560#bib.bib4)) 通过每步多个Householder因子增加了转换表达能力,而RWKV-7 (Peng et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib16)) 和 Comba (Hu et al., 2026 (https://arxiv.org/html/2606.26560#bib.bib5)) 采用了更丰富的结构化转换参数化。最近的混合架构进一步表明,围绕富有表现力的通道级门控delta组件构建的强大设计可以完全与注意力竞争 (Team et al., 2025 (https://arxiv.org/html/2606.26560#bib.bib2))。

我们的目标有所不同。我们主要不是寻求全局更丰富的转换;相反,我们引入了一种缺失的记忆管理能力:在另一个地址执行标准的delta风格纠正写入之前,在一个地址擦除过时记忆。从这个意义上说,我们的方法最好被视为与转换丰富方法正交,并且可能与更强的通道级门控delta骨干兼容。

## 3 方法

### 3.1 概览

我们的目标是通过一个缺失的记忆管理能力来扩展门控delta规则线性注意力:在当前写入地址之外的一个地址选择性删除过时记忆。为此,我们重新审视DPLR风格的更新规则,并识别出主动纠正与写入之间的结构耦合。然后我们引入**擦除-然后-Delta 注意力 (EDA)**,一个顺序更新规则,它在标准的Delta风格纠正写入之前,增加了一个独立寻址的擦除步骤。本节首先形式化衰减门控delta基线的限制,然后推导新规则,最后讨论其代数结构和稳定性属性。

### 3.2 门控Delta更新中的擦除-写入耦合

我们考虑一个由带对角衰减的门控delta规则更新的循环记忆状态St\mathbf{S}_{t}:

St=(I−βtktkt⊤)DtSt−1+βtktvt⊤,Dt=Diag⁡(αt).\mathbf{S}_{t}=(\mathbf{I}-\beta_{t}\mathbf{k}_{t}\mathbf{k}_{t}^{\top})\mathbf{D}_{t}\mathbf{S}_{t-1}+\beta_{t}\mathbf{k}_{t}\mathbf{v}_{t}^{\top},\qquad\mathbf{D}_{t}=\operatorname{Diag}(\boldsymbol{\alpha}_{t}). \quad (7)
这里Dt\mathbf{D}_{t}是一个对角衰减矩阵,其保留因子为αt\boldsymbol{\alpha}_{t},βt\beta_{t}控制delta风格纠正的强度。

相似文章

动态线性注意力

arXiv cs.CL

本文提出DLA,一种用于多状态线性注意力的动态内存建模框架,它能根据令牌信息变化自适应地合并状态,并维护固定大小的状态缓存,从而在无需标准注意力二次复杂度的前提下实现更好的长上下文表示。

Dynamic Linear Attention

Hugging Face Daily Papers

DLA引入了自适应状态合并和容量受限的内存建模,用于多状态线性注意力,提升了长上下文LLM的性能。

Exact Linear Attention

arXiv cs.LG

本文介绍了一种名为Exact Linear Attention (ELA) 的机制,该机制通过利用核函数分解,在不引入近似误差的情况下实现了Transformer注意力的线性计算复杂度,并通过约束核函数解决了梯度爆炸和词元稀释问题。文中还提出了包括超链接(Hyper Link)、记忆叶(Memory Lobe)以及面向混合专家模型的路由偏置在内的工程创新。

Delta Attention Residuals

Hugging Face Daily Papers

Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。

变分线性注意力:用于长上下文 Transformer 的稳定联想记忆

arXiv cs.LG

本文介绍了变分线性注意力(VLA),这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题,证明了状态范数的有界性,并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。