Gated DeltaNet-2:线性注意力中的擦除与写入解耦
摘要
Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门,在长上下文语言建模和检索任务中实现了优越的性能。
查看缓存全文
缓存时间: 2026/05/22 02:29
论文页面 - Gated DeltaNet-2:在线性注意力中解耦擦除与写入
来源:https://huggingface.co/papers/2605.22791
摘要
Gated DeltaNet-2 通过使用不同的通道级门控(通道级门控)将擦除和写入操作分离,改进了现有的线性注意力模型,在长上下文语言建模和检索任务中实现了更优的性能。
线性注意力(https://huggingface.co/papers?q=Linear%20attention)用固定大小的循环状态(https://huggingface.co/papers?q=recurrent%20state)替换了 softmax 注意力(https://huggingface.co/papers?q=softmax%20attention)的无界缓存,将序列混合复杂度降至线性时间,并将解码过程的内存占用压缩为常量。难点不仅在于决定忘记什么,还在于如何编辑这个压缩记忆而不打乱已有的关联。
Delta 规则模型(https://huggingface.co/papers?q=Delta-rule%20models)在写入新值之前会减去当前读取的内容;Kimi Delta 注意力(https://huggingface.co/papers?q=Kimi%20Delta%20Attention)(KDA)则通过通道级衰减(https://huggingface.co/papers?q=channel-wise%20decay)来强化遗忘机制。但主动编辑仍然使用单个标量门控来控制两件不同的事:在键(key)一侧擦除多少旧内容,以及在值(value)一侧提交多少新内容。
我们提出了 Gated DeltaNet-2,它同时泛化了 Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)和 KDA:继承了自适应遗忘与通道级衰减,同时解决了它们共有的限制——即擦除与写入之间的标量耦合。Gated Delta Rule-2 通过一个通道级擦除门控(https://huggingface.co/papers?q=erase%20gate)b_t 和一个通道级写入门控(https://huggingface.co/papers?q=write%20gate)w_t 将这两个角色分离;当两个门控退化为同一个标量时,它约简为 KDA;而当衰减也退化时,约简为 Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)。我们推导了一种快速权重更新视角(https://huggingface.co/papers?q=fast-weight%20update)、一种将通道级衰减吸收为不对称擦除因子的分块 WY 算法(https://huggingface.co/papers?q=chunkwise%20WY%20algorithm),以及一种保持高效并行训练的门控感知反向传播(https://huggingface.co/papers?q=gate-aware%20backward%20pass)。
在 1.3B 参数规模下使用 100B FineWeb-Edu 令牌进行训练,Gated DeltaNet-2 在语言建模、常识推理和检索任务中,在 Mamba-2(https://huggingface.co/papers?q=Mamba-2)、Gated DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)、KDA 和 Mamba-3(https://huggingface.co/papers?q=Mamba-3)等各种变体中取得了最强的综合结果。其优势在长上下文 RULER(https://huggingface.co/papers?q=RULER)“大海捞针”基准测试(https://huggingface.co/papers?q=needle-in-a-haystack%20benchmarks)中尤为显著,改进了评估的多键检索设置,并在循环和混合设置中均保持强大性能。代码已开源:https://github.com/NVlabs/GatedDeltaNet-2。
查看 arXiv 页面(https://arxiv.org/abs/2605.22791)查看 PDF(https://arxiv.org/pdf/2605.22791)GitHub 19(https://github.com/NVlabs/GatedDeltaNet-2)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22791)
在您的代理中获取此论文:
hf papers read 2605\.22791
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型与此论文关联
请在模型的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。
引用此论文的数据集0
没有数据集与此论文关联
请在数据集的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。
引用此论文的 Spaces0
没有 Space 与此论文关联
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.22791 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
Nemotron-3-Super-120B-A12B(混合Mamba+MoE)在4×3090上实现504K token的完美针检索
英伟达的Nemotron-3-Super-120B-A12B,一种混合Mamba和混合专家模型,仅使用四块RTX 3090 GPU就实现了在504K token下的完美大海捞针检索。
OpenBioRQ:AI代理有15.9%的概率引用错误论文
一项新的基准论文OpenBioRQ揭示,AI代理很少捏造引用,但常常引用不支持其主张的论文,在生物医学语境中有15.9%的引用不匹配。
面向长推理的信息感知KV缓存压缩
本文提出InfoKV,一种熵感知的KV缓存压缩框架,结合了token级别的预测不确定性和注意力分数,以提高长上下文推理效率。实验表明,它在Llama-3.1、Llama-3.2和DeepSeek-R1上优于现有的基于注意力的方法。
擦除后增量注意力:在Delta规则线性注意力中解耦擦除与写入地址
提出擦除后增量注意力(EDA),一种用于线性注意力的记忆更新规则,它在写入新内容之前,先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明,在标准评估和长上下文评估中均取得一致增益。
基于汉克尔降阶建模的SSM适配器:注入位置决定长上下文微调中的任务适配性
介绍了一种基于汉克尔降阶模型(HRM)的适配器,这是一种通过平衡截断初始化的SSM残差模块,用于参数高效微调,在长上下文任务中优于LoRA。