Mela:基于转化假说的测试时记忆巩固
摘要
本文介绍了 Mela,这是一种受人类记忆巩固机制启发的、增强记忆的 Transformer 架构,其核心特征为层级记忆模块(HMM),能够有效提升长上下文语言建模的性能。
查看缓存全文
缓存时间: 2026/05/12 07:31
论文页面 - Mela: 基于转化假说的测试时记忆巩固
来源: https://huggingface.co/papers/2605.10537
摘要
一种名为 Mela 的记忆增强型 Transformer 架构,融合了受人类记忆巩固过程启发的分层记忆模块,通过多粒度记忆表示实现了长上下文语言建模性能的显著提升。
记忆巩固 (https://huggingface.co/papers?q=Memory%20consolidation),即将短暂体验转化为稳定、结构化表示的过程,是大脑组织运作的基础原则,但在现代序列模型的设计中仍未得到充分探索。在本研究中,我们利用已确立的神经科学理论,包括记忆巩固 (https://huggingface.co/papers?q=memory%20consolidation) 和跨频段耦合 (https://huggingface.co/papers?q=cross-frequency%20coupling),提出了分层记忆模块 (https://huggingface.co/papers?q=Hierarchical%20Memory%20Module) (HMM),这是一种由两个功能不同、在不同更新频率下运行的子模块组成的神经记忆架构。受转化假说启发,低频子模块生成捕捉抽象、概要知识的高层表示,而高频子模块则生成保留更丰富情景细节的细粒度表示。最终的记忆输出是这两种表示的上下文相关动态组合,类似于人类记忆检索的重构性质。我们将 HMM 集成到基于 Transformer 的语言解码器 (https://huggingface.co/papers?q=Transformer-based%20language%20decoder) 中,形成了 Mela,这是一系列在测试时执行在线记忆巩固 (https://huggingface.co/papers?q=memory%20consolidation) 的记忆增强语言模型 (https://huggingface.co/papers?q=memory-augmented%20language%20models)。为了进一步利用 HMM 产生的多粒度记忆表示 (https://huggingface.co/papers?q=multi-granularity%20memory%20representations),我们引入了 MemStack (https://huggingface.co/papers?q=MemStack),这是一种在不引入额外 token 的情况下,将不同层级的记忆特征分布到解码器早期层的方法。语言建模实验表明,Mela 在所有模型规模上均优于 Transformer 基线。此外,在预训练上下文长度固定为 4K 的情况下,Mela 在显著更长的上下文中仍能保持性能,而 Transformer 基线在超过其训练长度后性能迅速下降。广泛的消融研究验证了每个组件的贡献,并为实际配置提供了指导。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10537)查看 PDF (https://arxiv.org/pdf/2605.10537)GitHub0 (https://github.com/Musubi-ai/Mela)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10537)
在您的 Agent 中获取此论文:
hf papers read 2605\.10537
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。
包含此论文的收藏集 1
相似文章
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型,用于存储、检索和整合…
MeMo 引入了一种模块化记忆模型,可为任何 LLM 增强存储、检索和整合新知识的能力,无需重新训练或担心灾难性遗忘。它在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 等基准测试上优于基于 RAG 的方法。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。
T-Mem: 预见性记忆,而非归档式记忆
T-Mem 是一种新型长程对话记忆架构,能够同时支持描述性回忆和关联性回忆,涵盖查询与记忆共享表面特征的场景以及两者通过潜在语义弧相连的场景。该架构在 LoCoMo 和 LoCoMo-Plus 基准测试上达到了最先进水平。
MemTrain:自监督上下文记忆训练
MemTrain 提出了一种自监督训练框架,通过在维基百科语料上使用掩码重建和中间记忆召回代理任务,增强 LLM 智能体的上下文记忆能力,在下游记忆密集型 QA 基准上取得了高达 17.67 个百分点的提升。