@BlinkDL_AI:Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见

X AI KOLs Following 论文

摘要

Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。

Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见 🙂
查看原文
查看缓存全文

缓存时间: 2026/05/23 12:05

Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见 🙂

Ali Hatamizadeh (@ahatamiz1): Gated DeltaNet-2 正式发布啦!🚀

🔥 新论文:Gated DeltaNet-2:在线性注意力中解耦删除与写入

Gated DeltaNet-2 在 1.3B 规模上与目前最新最强循环架构 KDA 和 Mamba-3 正面交锋,表现更胜一筹。🏆

💡 它的核心思路如下:

线性注意力

相似文章