@BlinkDL_AI：Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环，却对房间里的大象视而不见

X AI KOLs Following 2026/05/22 05:20 论文

摘要

Ali Hatamizadeh 宣布了 Gated DeltaNet-2，一种新的线性注意力模型，在 1.3B 规模上优于 KDA 和 Mamba-3；@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。

Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环，却对房间里的大象视而不见 🙂

查看原文

查看缓存全文

缓存时间: 2026/05/23 12:05

Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环，却对房间里的大象视而不见 🙂

Ali Hatamizadeh (@ahatamiz1): Gated DeltaNet-2 正式发布啦！🚀

🔥 新论文：Gated DeltaNet-2：在线性注意力中解耦删除与写入

Gated DeltaNet-2 在 1.3B 规模上与目前最新最强循环架构 KDA 和 Mamba-3 正面交锋，表现更胜一筹。🏆

💡 它的核心思路如下：

线性注意力

相似文章

@BlinkDL_AI: RWKV-7 G1g 已发布：世界上最好的纯 RNN 大型语言模型，并且在整体上具有竞争力。尝试 https://huggingface.co/spaces/…

X AI KOLs Following

BlinkDL 宣布了 RWKV-7 G1g，一种纯 RNN 大型语言模型，声称是其同类中最好的，且与通用 LLM 竞争，在单个 RTX 5090 上具有高速推理性能。

MDN：通过并行化逐步动量优化 Delta 线性注意力

Hugging Face Daily Papers

该论文介绍了动量 DeltaNet（MDN），一种线性注意力模型。它利用逐步动量和并行算法，在训练效率和性能上超越了 Mamba2 等模型。

关于次二次架构：从应用到原理

Hugging Face Daily Papers

本文在复杂序列建模任务上比较了 xLSTM、Mamba-2 和 Gated DeltaNet，发现 xLSTM 因其增强的状态追踪和记忆动态而更优，并在合成长度泛化任务上得到验证。

@jiqizhixin: NVIDIA 新成果！你可以在不扰乱模型已有知识的前提下编辑其压缩记忆！推出 Gated DeltaNe…

X AI KOLs Timeline

NVIDIA 推出 Gated DeltaNet-2，一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法，使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。

DualKV: 针对大规模生成和长上下文的共享提示Flash Attention，用于高效RL训练

arXiv cs.LG

介绍DualKV，一种FlashAttention内核变体，可消除RL后训练（GRPO/DAPO）中冗余的提示词元计算，在30B MoE模型上实现高达3.82倍的加速。