erase-then-delta

标签

Cards List
#erase-then-delta

擦除后增量注意力:在Delta规则线性注意力中解耦擦除与写入地址

arXiv cs.CL · 昨天 缓存

提出擦除后增量注意力(EDA),一种用于线性注意力的记忆更新规则,它在写入新内容之前,先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明,在标准评估和长上下文评估中均取得一致增益。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈