Gated DeltaNet-2：线性注意力中的擦除与写入解耦

Hugging Face Daily Papers 2026/05/21 00:00 论文

linear-attention delta-rule gated-delta-net-2 long-context language-modeling retrieval efficient-attention

摘要

Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门，在长上下文语言建模和检索任务中实现了优越的性能。

线性注意力用固定大小的循环状态取代了 softmax 注意力的无界缓存，将序列混合降至线性时间，解码内存恒定。难点不仅在于忘记什么，更在于如何在编辑这个压缩内存时不打乱已有的关联。Delta 规则模型在写入新值之前减去当前读取值，Kimi Delta Attention (KDA) 通过通道级衰减增强了遗忘。但主动编辑仍然使用单个标量门来控制两个不同的事物：在键侧擦除多少旧内容，以及在值侧提交多少新内容。我们引入了 Gated DeltaNet-2，它通过继承自适应遗忘和通道级衰减来泛化 Gated DeltaNet 和 KDA，同时解决了它们共同的局限性，即擦除与写入之间的标量耦合。Gated Delta Rule-2 使用通道级擦除门 b_t 和通道级写入门 w_t 来分离这些角色，当两个门收缩为同一个标量时退化为 KDA，当衰减也收缩时退化为 Gated DeltaNet。我们推导了快速权重更新视图、一个将通道级衰减吸收为非对称擦除因子的分块 WY 算法，以及一个保持高效并行训练的感知门控反向传播。在 100B FineWeb-Edu token 上训练了 1.3B 参数后，Gated DeltaNet-2 在语言建模、常识推理和检索方面，在 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3 变体中取得了最强的整体结果。其优势在长上下文 RULER 针堆检索基准上最为显著，在评估的多键检索设置中有所改进，并且在循环和混合设置中均保持强劲。代码可在 https://github.com/NVlabs/GatedDeltaNet-2 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:29

论文页面 - Gated DeltaNet-2：在线性注意力中解耦擦除与写入

来源：https://huggingface.co/papers/2605.22791

摘要

Gated DeltaNet-2 通过使用不同的通道级门控（通道级门控）将擦除和写入操作分离，改进了现有的线性注意力模型，在长上下文语言建模和检索任务中实现了更优的性能。

线性注意力（https://huggingface.co/papers?q=Linear%20attention）用固定大小的循环状态（https://huggingface.co/papers?q=recurrent%20state）替换了 softmax 注意力（https://huggingface.co/papers?q=softmax%20attention）的无界缓存，将序列混合复杂度降至线性时间，并将解码过程的内存占用压缩为常量。难点不仅在于决定忘记什么，还在于如何编辑这个压缩记忆而不打乱已有的关联。

Delta 规则模型（https://huggingface.co/papers?q=Delta-rule%20models）在写入新值之前会减去当前读取的内容；Kimi Delta 注意力（https://huggingface.co/papers?q=Kimi%20Delta%20Attention）（KDA）则通过通道级衰减（https://huggingface.co/papers?q=channel-wise%20decay）来强化遗忘机制。但主动编辑仍然使用单个标量门控来控制两件不同的事：在键（key）一侧擦除多少旧内容，以及在值（value）一侧提交多少新内容。

我们提出了 Gated DeltaNet-2，它同时泛化了 Gated DeltaNet（https://huggingface.co/papers?q=Gated%20DeltaNet）和 KDA：继承了自适应遗忘与通道级衰减，同时解决了它们共有的限制——即擦除与写入之间的标量耦合。Gated Delta Rule-2 通过一个通道级擦除门控（https://huggingface.co/papers?q=erase%20gate）b_t 和一个通道级写入门控（https://huggingface.co/papers?q=write%20gate）w_t 将这两个角色分离；当两个门控退化为同一个标量时，它约简为 KDA；而当衰减也退化时，约简为 Gated DeltaNet（https://huggingface.co/papers?q=Gated%20DeltaNet）。我们推导了一种快速权重更新视角（https://huggingface.co/papers?q=fast-weight%20update）、一种将通道级衰减吸收为不对称擦除因子的分块 WY 算法（https://huggingface.co/papers?q=chunkwise%20WY%20algorithm），以及一种保持高效并行训练的门控感知反向传播（https://huggingface.co/papers?q=gate-aware%20backward%20pass）。

在 1.3B 参数规模下使用 100B FineWeb-Edu 令牌进行训练，Gated DeltaNet-2 在语言建模、常识推理和检索任务中，在 Mamba-2（https://huggingface.co/papers?q=Mamba-2）、Gated DeltaNet（https://huggingface.co/papers?q=Gated%20DeltaNet）、KDA 和 Mamba-3（https://huggingface.co/papers?q=Mamba-3）等各种变体中取得了最强的综合结果。其优势在长上下文 RULER（https://huggingface.co/papers?q=RULER）“大海捞针”基准测试（https://huggingface.co/papers?q=needle-in-a-haystack%20benchmarks）中尤为显著，改进了评估的多键检索设置，并在循环和混合设置中均保持强大性能。代码已开源：https://github.com/NVlabs/GatedDeltaNet-2。

查看 arXiv 页面（https://arxiv.org/abs/2605.22791）查看 PDF（https://arxiv.org/pdf/2605.22791）GitHub 19（https://github.com/NVlabs/GatedDeltaNet-2）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.22791）

在您的代理中获取此论文：

hf papers read 2605\.22791

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型与此论文关联

请在模型的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。

引用此论文的数据集0

没有数据集与此论文关联

请在数据集的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到收藏集（https://huggingface.co/new-collection）中以从此页面链接。

Gated DeltaNet-2：线性注意力中的擦除与写入解耦

论文页面 - Gated DeltaNet-2：在线性注意力中解耦擦除与写入

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

Nemotron-3-Super-120B-A12B（混合Mamba+MoE）在4×3090上实现504K token的完美针检索

OpenBioRQ：AI代理有15.9%的概率引用错误论文

面向长推理的信息感知KV缓存压缩

擦除后增量注意力：在Delta规则线性注意力中解耦擦除与写入地址

基于汉克尔降阶建模的SSM适配器：注入位置决定长上下文微调中的任务适配性

提交意见反馈