δ-mem:大型语言模型的高效在线记忆机制

Hugging Face Daily Papers 论文

摘要

本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。

大型语言模型在长期助手和智能体系统中越来越需要积累和重用历史信息。单纯扩大上下文窗口不仅成本高昂,而且往往无法确保有效地利用上下文。我们提出了 δ-mem,这是一种轻量级的记忆机制,它通过紧凑的在线关联记忆状态来增强冻结的全注意力骨干网络。δ-mem 将过去的信息压缩为一个固定大小的状态矩阵,并通过增量规则学习(delta-rule learning)进行更新,并在生成过程中利用其读取输出,对骨干网络的注意力计算进行低秩校正。仅使用一个 8x8 的在线记忆状态,δ-mem 就能将平均得分提升至冻结骨干网络的 1.10 倍,以及最强非 δ-mem 记忆基线模型的 1.15 倍。它在记忆密集型基准测试中取得了更大的提升,在 MemoryAgentBench 上达到 1.31 倍,在 LoCoMo 上达到 1.20 倍,同时在很大程度上保留了通用能力。这些结果表明,通过直接与注意力计算耦合的紧凑在线状态,无需完全微调、替换骨干网络或显式扩展上下文,即可实现高效的记忆功能。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - δ-mem:大语言模型的高效在线记忆

来源:https://huggingface.co/papers/2605.12357

摘要

一种名为 δ-mem 的轻量级记忆机制,通过引入一个紧凑的关联记忆状态来增强冻结的注意力骨干网络,该状态为注意力计算提供低秩校正。

大语言模型 (https://huggingface.co/papers?q=Large%20language%20models) 在长期助手和智能体系统中日益需要积累并复用历史信息。单纯扩大上下文窗口成本高昂,且往往无法确保上下文的有效利用。我们提出了 δ-mem,这是一种轻量级记忆机制 (https://huggingface.co/papers?q=memory%20mechanism),它通过一个紧凑的在线关联记忆状态 (https://huggingface.co/papers?q=associative%20memory) 来增强冻结的全注意力骨干网络 (https://huggingface.co/papers?q=frozen%20full-attention%20backbone)。δ-mem 将过去的信息压缩为一个固定大小的状态矩阵,并通过 delta-rule 学习 (https://huggingface.co/papers?q=delta-rule%20learning) 进行更新,并在生成过程中利用其读取输出来对骨干网络的注意力计算 (https://huggingface.co/papers?q=attention%20computation) 进行低秩校正。仅使用 8x8 的在线记忆状态,δ-mem 将平均得分提升至冻结骨干网络的 1.10 倍,以及最强非 δ-mem 记忆基线的 1.15 倍。它在记忆密集型基准测试 (https://huggingface.co/papers?q=memory-heavy%20benchmarks) 上取得了更大的提升,在 MemoryAgentBench (https://huggingface.co/papers?q=MemoryAgentBench) 上达到 1.31 倍,在 LoCoMo (https://huggingface.co/papers?q=LoCoMo) 上达到 1.20 倍,同时 largely 保留了通用能力。这些结果表明,有效的记忆可以通过与注意力计算 (https://huggingface.co/papers?q=attention%20computation) 直接耦合的紧凑在线状态来实现,而无需全参数微调、骨干网络替换或显式上下文扩展。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12357) 查看 PDF (https://arxiv.org/pdf/2605.12357) GitHub26 (https://github.com/declare-lab/delta-Mem) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12357)

引用此论文的模型 0

没有模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12357 以从此页面建立链接。

引用此论文的数据集 0

没有数据集引用此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12357 以从此页面建立链接。

引用此论文的空间 0

没有 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12357 以从此页面建立链接。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面建立链接。

相似文章

Δ-Mem:大型语言模型的高效在线记忆

Hacker News Top

提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。

StageMem:面向语言模型的生命周期管理记忆框架

arXiv cs.CL

StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。