标签
提出擦除后增量注意力(EDA),一种用于线性注意力的记忆更新规则,它在写入新内容之前,先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明,在标准评估和长上下文评估中均取得一致增益。