delta-rule

#delta-rule

擦除后增量注意力：在Delta规则线性注意力中解耦擦除与写入地址

arXiv cs.CL ↗ · 昨天缓存

提出擦除后增量注意力（EDA），一种用于线性注意力的记忆更新规则，它在写入新内容之前，先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明，在标准评估和长上下文评估中均取得一致增益。

0 人收藏 0 人点赞

#delta-rule

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门，在长上下文语言建模和检索任务中实现了优越的性能。

0 人收藏 0 人点赞

#delta-rule

Hacker News Top ↗ · 2026-05-16 缓存

提出 delta-Mem，一种轻量级在线记忆机制，利用紧凑状态矩阵并通过增量规则学习进行更新，以提升冻结大型语言模型的长上下文性能，无需全量微调或上下文扩展。

0 人收藏 0 人点赞

#delta-rule

X AI KOLs Following ↗ · 2026-05-13 缓存

本文介绍了δ-mem，一种轻量级在线记忆机制，它通过delta规则学习更新的紧凑型关联记忆状态来增强冻结的LLM，在记忆密集型基准测试中取得了显著改进，无需微调或上下文扩展。

0 人收藏 0 人点赞