Gated DeltaNet-2:线性注意力中的擦除与写入解耦

Hugging Face Daily Papers 论文

摘要

Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门,在长上下文语言建模和检索任务中实现了优越的性能。

线性注意力用固定大小的循环状态取代了 softmax 注意力的无界缓存,将序列混合降至线性时间,解码内存恒定。难点不仅在于忘记什么,更在于如何在编辑这个压缩内存时不打乱已有的关联。Delta 规则模型在写入新值之前减去当前读取值,Kimi Delta Attention (KDA) 通过通道级衰减增强了遗忘。但主动编辑仍然使用单个标量门来控制两个不同的事物:在键侧擦除多少旧内容,以及在值侧提交多少新内容。我们引入了 Gated DeltaNet-2,它通过继承自适应遗忘和通道级衰减来泛化 Gated DeltaNet 和 KDA,同时解决了它们共同的局限性,即擦除与写入之间的标量耦合。Gated Delta Rule-2 使用通道级擦除门 b_t 和通道级写入门 w_t 来分离这些角色,当两个门收缩为同一个标量时退化为 KDA,当衰减也收缩时退化为 Gated DeltaNet。我们推导了快速权重更新视图、一个将通道级衰减吸收为非对称擦除因子的分块 WY 算法,以及一个保持高效并行训练的感知门控反向传播。在 100B FineWeb-Edu token 上训练了 1.3B 参数后,Gated DeltaNet-2 在语言建模、常识推理和检索方面,在 Mamba-2、Gated DeltaNet、KDA 和 Mamba-3 变体中取得了最强的整体结果。其优势在长上下文 RULER 针堆检索基准上最为显著,在评估的多键检索设置中有所改进,并且在循环和混合设置中均保持强劲。代码可在 https://github.com/NVlabs/GatedDeltaNet-2 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/22 02:29

论文页面 - Gated DeltaNet-2:在线性注意力中解耦擦除与写入

来源:https://huggingface.co/papers/2605.22791

摘要

Gated DeltaNet-2 通过使用不同的通道级门控(通道级门控)将擦除和写入操作分离,改进了现有的线性注意力模型,在长上下文语言建模和检索任务中实现了更优的性能。

线性注意力(https://huggingface.co/papers?q=Linear%20attention)用固定大小的循环状态(https://huggingface.co/papers?q=recurrent%20state)替换了 softmax 注意力(https://huggingface.co/papers?q=softmax%20attention)的无界缓存,将序列混合复杂度降至线性时间,并将解码过程的内存占用压缩为常量。难点不仅在于决定忘记什么,还在于如何编辑这个压缩记忆而不打乱已有的关联。

Delta 规则模型(https://huggingface.co/papers?q=Delta-rule%20models)在写入新值之前会减去当前读取的内容;Kimi Delta 注意力(https://huggingface.co/papers?q=Kimi%20Delta%20Attention)(KDA)则通过通道级衰减(https://huggingface.co/papers?q=channel-wise%20decay)来强化遗忘机制。但主动编辑仍然使用单个标量门控来控制两件不同的事:在键(key)一侧擦除多少旧内容,以及在值(value)一侧提交多少新内容。

我们提出了 Gated DeltaNet-2,它同时泛化了 Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)和 KDA:继承了自适应遗忘与通道级衰减,同时解决了它们共有的限制——即擦除与写入之间的标量耦合。Gated Delta Rule-2 通过一个通道级擦除门控(https://huggingface.co/papers?q=erase%20gate)b_t 和一个通道级写入门控(https://huggingface.co/papers?q=write%20gate)w_t 将这两个角色分离;当两个门控退化为同一个标量时,它约简为 KDA;而当衰减也退化时,约简为 Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)。我们推导了一种快速权重更新视角(https://huggingface.co/papers?q=fast-weight%20update)、一种将通道级衰减吸收为不对称擦除因子的分块 WY 算法(https://huggingface.co/papers?q=chunkwise%20WY%20algorithm),以及一种保持高效并行训练的门控感知反向传播(https://huggingface.co/papers?q=gate-aware%20backward%20pass)。

在 1.3B 参数规模下使用 100B FineWeb-Edu 令牌进行训练,Gated DeltaNet-2 在语言建模、常识推理和检索任务中,在 Mamba-2(https://huggingface.co/papers?q=Mamba-2)、Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)、KDA 和 Mamba-3(https://huggingface.co/papers?q=Mamba-3)等各种变体中取得了最强的综合结果。其优势在长上下文 RULER(https://huggingface.co/papers?q=RULER)“大海捞针”基准测试(https://huggingface.co/papers?q=needle-in-a-haystack%20benchmarks)中尤为显著,改进了评估的多键检索设置,并在循环和混合设置中均保持强大性能。代码已开源:https://github.com/NVlabs/GatedDeltaNet-2。

查看 arXiv 页面(https://arxiv.org/abs/2605.22791)查看 PDF(https://arxiv.org/pdf/2605.22791)GitHub 19(https://github.com/NVlabs/GatedDeltaNet-2)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22791)

在您的代理中获取此论文:

hf papers read 2605\.22791

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型与此论文关联

请在模型的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。

引用此论文的数据集0

没有数据集与此论文关联

请在数据集的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

面向长推理的信息感知KV缓存压缩

arXiv cs.CL

本文提出InfoKV,一种熵感知的KV缓存压缩框架,结合了token级别的预测不确定性和注意力分数,以提高长上下文推理效率。实验表明,它在Llama-3.1、Llama-3.2和DeepSeek-R1上优于现有的基于注意力的方法。