@BlinkDL_AI:Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见
摘要
Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。
查看缓存全文
缓存时间: 2026/05/23 12:05
Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见 🙂
Ali Hatamizadeh (@ahatamiz1): Gated DeltaNet-2 正式发布啦!🚀
🔥 新论文:Gated DeltaNet-2:在线性注意力中解耦删除与写入
Gated DeltaNet-2 在 1.3B 规模上与目前最新最强循环架构 KDA 和 Mamba-3 正面交锋,表现更胜一筹。🏆
💡 它的核心思路如下:
线性注意力
相似文章
@BlinkDL_AI: RWKV-7 G1g 已发布:世界上最好的纯 RNN 大型语言模型,并且在整体上具有竞争力。尝试 https://huggingface.co/spaces/…
BlinkDL 宣布了 RWKV-7 G1g,一种纯 RNN 大型语言模型,声称是其同类中最好的,且与通用 LLM 竞争,在单个 RTX 5090 上具有高速推理性能。
MDN:通过并行化逐步动量优化 Delta 线性注意力
该论文介绍了动量 DeltaNet(MDN),一种线性注意力模型。它利用逐步动量和并行算法,在训练效率和性能上超越了 Mamba2 等模型。
@jiqizhixin: NVIDIA 新成果!你可以在不扰乱模型已有知识的前提下编辑其压缩记忆!推出 Gated DeltaNe…
NVIDIA 推出 Gated DeltaNet-2,一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法,使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。
DualKV: 针对大规模生成和长上下文的共享提示Flash Attention,用于高效RL训练
介绍DualKV,一种FlashAttention内核变体,可消除RL后训练(GRPO/DAPO)中冗余的提示词元计算,在30B MoE模型上实现高达3.82倍的加速。
𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]
Delta Attention Residuals 是一种对残差连接的即插即用升级,它通过增量(deltas)而非累积隐藏状态进行路由,实现更清晰的跨层路由,在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%,并支持以几乎为零的开销微调预训练模型(如 Qwen3-0.6B)。