标签
BlinkDL 宣布了 RWKV-7 G1g,一种纯 RNN 大型语言模型,声称是其同类中最好的,且与通用 LLM 竞争,在单个 RTX 5090 上具有高速推理性能。
Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。