Mela:基于转化假说的测试时记忆巩固

Hugging Face Daily Papers 论文

摘要

本文介绍了 Mela,这是一种受人类记忆巩固机制启发的、增强记忆的 Transformer 架构,其核心特征为层级记忆模块(HMM),能够有效提升长上下文语言建模的性能。

记忆巩固是将短暂体验转化为稳定、结构化表征的过程,这是人类大脑的基础组织原则,但在现代序列模型的设计中尚未得到充分探索。在这项工作中,我们利用已确立的神经科学记忆巩固理论及跨频率耦合机制,提出了层级记忆模块(HMM)。这是一种神经记忆架构,由两个功能不同、以不同更新频率运行的子模块组成。受转化假说(transformation hypothesis)的启发,低频子模块生成捕捉抽象、概要级知识的高层表征;而高频子模块则生成保留更丰富情景细节的细粒度表征。最终的记忆输出被动态重构为这两种表征的上下文依赖组合,这与人类记忆提取的重构性质类似。我们将 HMM 集成到基于 Transformer 的语言解码器中,形成了 Mela,这是一类在测试时执行在线记忆巩固的增强记忆语言模型。为了进一步利用 HMM 产生的多粒度记忆表征,我们引入了 MemStack 方法,该方法在不增加额外 token 的情况下,将不同层级的记忆特征分布在解码器的早期层中。语言建模实验表明,Mela 在所有模型规模下均优于 Transformer 基线模型。此外,在预训练上下文长度固定为 4K 的情况下,Mela 在显著更长的上下文中仍能保持性能,而 Transformer 基线模型在超过其训练长度后性能迅速下降。广泛的消融研究验证了各个组件的贡献,并为实际配置提供了指导。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 07:31

论文页面 - Mela: 基于转化假说的测试时记忆巩固

来源: https://huggingface.co/papers/2605.10537

摘要

一种名为 Mela 的记忆增强型 Transformer 架构,融合了受人类记忆巩固过程启发的分层记忆模块,通过多粒度记忆表示实现了长上下文语言建模性能的显著提升。

记忆巩固 (https://huggingface.co/papers?q=Memory%20consolidation),即将短暂体验转化为稳定、结构化表示的过程,是大脑组织运作的基础原则,但在现代序列模型的设计中仍未得到充分探索。在本研究中,我们利用已确立的神经科学理论,包括记忆巩固 (https://huggingface.co/papers?q=memory%20consolidation) 和跨频段耦合 (https://huggingface.co/papers?q=cross-frequency%20coupling),提出了分层记忆模块 (https://huggingface.co/papers?q=Hierarchical%20Memory%20Module) (HMM),这是一种由两个功能不同、在不同更新频率下运行的子模块组成的神经记忆架构。受转化假说启发,低频子模块生成捕捉抽象、概要知识的高层表示,而高频子模块则生成保留更丰富情景细节的细粒度表示。最终的记忆输出是这两种表示的上下文相关动态组合,类似于人类记忆检索的重构性质。我们将 HMM 集成到基于 Transformer 的语言解码器 (https://huggingface.co/papers?q=Transformer-based%20language%20decoder) 中,形成了 Mela,这是一系列在测试时执行在线记忆巩固 (https://huggingface.co/papers?q=memory%20consolidation) 的记忆增强语言模型 (https://huggingface.co/papers?q=memory-augmented%20language%20models)。为了进一步利用 HMM 产生的多粒度记忆表示 (https://huggingface.co/papers?q=multi-granularity%20memory%20representations),我们引入了 MemStack (https://huggingface.co/papers?q=MemStack),这是一种在不引入额外 token 的情况下,将不同层级的记忆特征分布到解码器早期层的方法。语言建模实验表明,Mela 在所有模型规模上均优于 Transformer 基线。此外,在预训练上下文长度固定为 4K 的情况下,Mela 在显著更长的上下文中仍能保持性能,而 Transformer 基线在超过其训练长度后性能迅速下降。广泛的消融研究验证了每个组件的贡献,并为实际配置提供了指导。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10537)查看 PDF (https://arxiv.org/pdf/2605.10537)GitHub0 (https://github.com/Musubi-ai/Mela)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10537)

在您的 Agent 中获取此论文:

hf papers read 2605\.10537

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。

包含此论文的收藏集 1

相似文章

δ-mem:大型语言模型的高效在线记忆机制

Hugging Face Daily Papers

本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。

StageMem:面向语言模型的生命周期管理记忆框架

arXiv cs.CL

StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。