标签
NVIDIA 推出 Gated DeltaNet-2,一种在不导致灾难性遗忘的前提下编辑模型压缩记忆的方法,使用独立的门控机制分别执行擦除和写入操作。该方法在语言建模和长上下文任务上优于 Mamba-2、Mamba-3 等现有模型。
Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。