delta-rule

标签

Cards List
#delta-rule

擦除后增量注意力:在Delta规则线性注意力中解耦擦除与写入地址

arXiv cs.CL · 昨天 缓存

提出擦除后增量注意力(EDA),一种用于线性注意力的记忆更新规则,它在写入新内容之前,先通过解耦擦除和写入地址来有选择地抑制过时信息。在2.5B密集模型和25B MoE模型上的实验表明,在标准评估和长上下文评估中均取得一致增益。

0 人收藏 0 人点赞
#delta-rule

Gated DeltaNet-2:线性注意力中的擦除与写入解耦

Hugging Face Daily Papers · 2026-05-21 缓存

Gated DeltaNet-2 为线性注意力引入了独立的擦除门和写入门,在长上下文语言建模和检索任务中实现了优越的性能。

0 人收藏 0 人点赞
#delta-rule

Δ-Mem:大型语言模型的高效在线记忆

Hacker News Top · 2026-05-16 缓存

提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。

0 人收藏 0 人点赞
#delta-rule

@dair_ai: // δ-mem: LLM的高效在线记忆 // 这是我本月看到的最优雅的记忆机制之一。大多数长…

X AI KOLs Following · 2026-05-13 缓存

本文介绍了δ-mem,一种轻量级在线记忆机制,它通过delta规则学习更新的紧凑型关联记忆状态来增强冻结的LLM,在记忆密集型基准测试中取得了显著改进,无需微调或上下文扩展。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈