Δ-Mem:大型语言模型的高效在线记忆

Hacker News Top 论文

摘要

提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/16 12:39

# $δ$-mem: 大规模语言模型的高效在线记忆
来源:https://arxiv.org/abs/2605.12357
查看 PDF (https://arxiv.org/pdf/2605.12357)

> 摘要:随着大型语言模型在长期助手和智能体系统中不断积累并复用历史信息的需求日益增长,简单地扩展上下文窗口不仅成本高昂,且往往无法保证有效的上下文利用。为此,我们提出 $\\delta$-mem,一种轻量级记忆机制,它在冻结的全注意力骨干网络上附加一个紧凑的在线关联记忆状态。$\\delta$-mem 通过 delta 规则学习将过去信息压缩为固定大小的状态矩阵,并在生成过程中利用其读取结果对骨干网络的注意力计算产生低秩修正。仅凭一个 $8\\times8$ 的在线记忆状态,$\\delta$-mem 即可将平均得分提升至冻结骨干网络的 $1.10\\times$,以及最强非 $\\delta$-mem 记忆基线的 $1.15\\times$。在记忆密集型基准测试上它取得了更大提升,在 MemoryAgentBench 上达到 $1.31\\times$,在 LoCoMo 上达到 $1.20\\times$,同时基本保留了一般能力。这些结果表明,通过一个直接与注意力计算耦合的紧凑在线状态即可实现有效记忆,而无需全微调、替换骨干网络或显式扩展上下文。

## 提交历史

来自:Jingdi Lei [查看邮箱](https://arxiv.org/show-email/3b79a046/2605.12357) **[v1]** 2026年5月12日 星期二 16:31:44 UTC (609 KB)

相似文章

δ-mem:大型语言模型的高效在线记忆机制

Hugging Face Daily Papers

本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。

StageMem:面向语言模型的生命周期管理记忆框架

arXiv cs.CL

StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。