@dair_ai: // δ-mem: LLM的高效在线记忆 // 这是我本月看到的最优雅的记忆机制之一。大多数长…

X AI KOLs Following 论文

摘要

本文介绍了δ-mem,一种轻量级在线记忆机制,它通过delta规则学习更新的紧凑型关联记忆状态来增强冻结的LLM,在记忆密集型基准测试中取得了显著改进,无需微调或上下文扩展。

// δ-mem: LLM的高效在线记忆 // 这是我本月看到的最优雅的记忆机制之一。大多数长时记忆工作要么膨胀上下文,要么重新训练模型。这篇论文展示了一个微小的外部状态,直接耦合到注意力计算中,能够完成更大的上下文窗口无法完成的任务。它廉价、模块化,且对冻结模型友好。无需微调、无需更换骨干网络、无需扩展上下文。δ-mem通过一个紧凑的在线关联记忆状态增强了冻结的全注意力模型。该状态是一个由delta规则学习更新的固定大小矩阵,其读出在生成过程中对骨干网络的注意力产生低秩修正。结果:一个8×8的在线记忆状态足以将冻结骨干网络的平均得分提升1.10倍,并超越最强的非δ-mem记忆基线1.15倍。在记忆密集型基准上差距更大(MemoryAgentBench上1.31倍,LoCoMo上1.20倍),同时通用能力基本保持不变。论文:https://arxiv.org/abs/2605.12357 在我们的学院学习构建有效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/05/13 20:25

// δ-mem: 大型语言模型的高效在线记忆 // 这是我本月看到的最优雅的记忆机制之一。大多数长时记忆工作要么膨胀上下文,要么重新训练模型。这篇论文表明,一个微小外部状态,直接耦合到注意力计算中,可以完成更大的上下文窗口无法完成的任务。它廉价、模块化,且对冻结模型友好。无需微调、无需更换骨干网络、无需扩展上下文。δ-mem 用一个紧凑的在线联想记忆状态来增强冻结的全注意力模型。该状态是一个固定大小的矩阵,通过 delta 规则学习更新,其读取输出在生成过程中对骨干网络的注意力产生低秩修正。结果:一个 8×8 的在线记忆状态足以将冻结骨干网络的平均得分提升 1.10 倍,并击败最强的非 δ-mem 记忆基线 1.15 倍。在重度记忆基准上差距扩大(MemoryAgentBench 上 1.31 倍,LoCoMo 上 1.20 倍),同时通用能力基本保持不变。论文:https://arxiv.org/abs/2605.12357 在我们的学院学习构建有效的 AI 智能体:https://academy.dair.ai


δ-mem:面向大型语言模型的高效在线记忆

来源:https://arxiv.org/abs/2605.12357 查看 PDF (https://arxiv.org/pdf/2605.12357)

摘要:大型语言模型在长期辅助和智能体系统中日益需要积累和重用历史信息。简单地扩展上下文窗口成本高昂,且往往难以确保有效的上下文利用。我们提出 δ-mem,一种轻量级记忆机制,它用一个紧凑的在线联想记忆状态来增强冻结的全注意力骨干网络。δ-mem 将过去信息压缩为一个固定大小的状态矩阵,通过 delta 规则学习更新,并在生成过程中利用其读取输出来产生对骨干网络注意力计算的低秩修正。仅凭一个 8\times8 的在线记忆状态,δ-mem 将平均得分提升至冻结骨干网络的 1.10 倍,达到最强非 δ-mem 记忆基线的 1.15 倍。它在重度记忆基准上取得更大增益,在 MemoryAgentBench 上达到 1.31 倍,在 LoCoMo 上达到 1.20 倍,同时基本保留了通用能力。这些结果表明,通过一个直接与注意力计算耦合的紧凑在线状态,无需全微调、骨干网络替换或显式上下文扩展,即可实现有效记忆。

提交历史

来自:雷静迪 [查看邮件 (https://arxiv.org/show-email/3b79a046/2605.12357)]
[v1] 2026年5月12日星期二 16:31:44 UTC (609 KB)

相似文章

Δ-Mem:大型语言模型的高效在线记忆

Hacker News Top

提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。

δ-mem:大型语言模型的高效在线记忆机制

Hugging Face Daily Papers

本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。