Mela：基于转化假说的测试时记忆巩固

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文介绍了 Mela，这是一种受人类记忆巩固机制启发的、增强记忆的 Transformer 架构，其核心特征为层级记忆模块（HMM），能够有效提升长上下文语言建模的性能。

记忆巩固是将短暂体验转化为稳定、结构化表征的过程，这是人类大脑的基础组织原则，但在现代序列模型的设计中尚未得到充分探索。在这项工作中，我们利用已确立的神经科学记忆巩固理论及跨频率耦合机制，提出了层级记忆模块（HMM）。这是一种神经记忆架构，由两个功能不同、以不同更新频率运行的子模块组成。受转化假说（transformation hypothesis）的启发，低频子模块生成捕捉抽象、概要级知识的高层表征；而高频子模块则生成保留更丰富情景细节的细粒度表征。最终的记忆输出被动态重构为这两种表征的上下文依赖组合，这与人类记忆提取的重构性质类似。我们将 HMM 集成到基于 Transformer 的语言解码器中，形成了 Mela，这是一类在测试时执行在线记忆巩固的增强记忆语言模型。为了进一步利用 HMM 产生的多粒度记忆表征，我们引入了 MemStack 方法，该方法在不增加额外 token 的情况下，将不同层级的记忆特征分布在解码器的早期层中。语言建模实验表明，Mela 在所有模型规模下均优于 Transformer 基线模型。此外，在预训练上下文长度固定为 4K 的情况下，Mela 在显著更长的上下文中仍能保持性能，而 Transformer 基线模型在超过其训练长度后性能迅速下降。广泛的消融研究验证了各个组件的贡献，并为实际配置提供了指导。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:31

论文页面 - Mela: 基于转化假说的测试时记忆巩固

来源: https://huggingface.co/papers/2605.10537

摘要

一种名为 Mela 的记忆增强型 Transformer 架构，融合了受人类记忆巩固过程启发的分层记忆模块，通过多粒度记忆表示实现了长上下文语言建模性能的显著提升。

记忆巩固 (https://huggingface.co/papers?q=Memory%20consolidation)，即将短暂体验转化为稳定、结构化表示的过程，是大脑组织运作的基础原则，但在现代序列模型的设计中仍未得到充分探索。在本研究中，我们利用已确立的神经科学理论，包括记忆巩固 (https://huggingface.co/papers?q=memory%20consolidation) 和跨频段耦合 (https://huggingface.co/papers?q=cross-frequency%20coupling)，提出了分层记忆模块 (https://huggingface.co/papers?q=Hierarchical%20Memory%20Module) (HMM)，这是一种由两个功能不同、在不同更新频率下运行的子模块组成的神经记忆架构。受转化假说启发，低频子模块生成捕捉抽象、概要知识的高层表示，而高频子模块则生成保留更丰富情景细节的细粒度表示。最终的记忆输出是这两种表示的上下文相关动态组合，类似于人类记忆检索的重构性质。我们将 HMM 集成到基于 Transformer 的语言解码器 (https://huggingface.co/papers?q=Transformer-based%20language%20decoder) 中，形成了 Mela，这是一系列在测试时执行在线记忆巩固 (https://huggingface.co/papers?q=memory%20consolidation) 的记忆增强语言模型 (https://huggingface.co/papers?q=memory-augmented%20language%20models)。为了进一步利用 HMM 产生的多粒度记忆表示 (https://huggingface.co/papers?q=multi-granularity%20memory%20representations)，我们引入了 MemStack (https://huggingface.co/papers?q=MemStack)，这是一种在不引入额外 token 的情况下，将不同层级的记忆特征分布到解码器早期层的方法。语言建模实验表明，Mela 在所有模型规模上均优于 Transformer 基线。此外，在预训练上下文长度固定为 4K 的情况下，Mela 在显著更长的上下文中仍能保持性能，而 Transformer 基线在超过其训练长度后性能迅速下降。广泛的消融研究验证了每个组件的贡献，并为实际配置提供了指导。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10537)查看 PDF (https://arxiv.org/pdf/2605.10537)GitHub0 (https://github.com/Musubi-ai/Mela)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10537)

在您的 Agent 中获取此论文：

hf papers read 2605\.10537

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10537 即可从本页链接它。

包含此论文的收藏集 1

相似文章

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

Hugging Face Daily Papers

提出内存高效型循环Transformer（MELT），这是一种新型循环大语言模型架构，通过跨循环共享单一KV缓存，并结合插值过渡与注意力对齐蒸馏的分块训练方法，实现了推理深度与内存消耗的解耦。

δ-mem：大型语言模型的高效在线记忆机制

Hugging Face Daily Papers

本文介绍了 δ-mem，这是一种轻量级的记忆机制，通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明，该机制在计算开销极小的情况下，在记忆密集型基准测试中实现了性能提升。

HeLa-Mem：面向LLM智能体的赫布学习与联想记忆

arXiv cs.CL

# HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents 来源：[https://arxiv.org/html/2604.16839](https://arxiv.org/html/2604.16839) Jinchang Zhu1,∗,a, Jindong Li1,∗, Cheng Zhang2,∗, Jiahong Liu3, Menglin Yang1,†,b 1香港科技大学（广州） 2吉林大学 3香港中文大学 [email protected] [email protected] ∗同等贡献 †通讯作者 ###### 摘要长...

Mem0：利用可扩展的长期记忆构建生产就绪的 AI 智能体

Papers with Code Trending

Mem0 引入了一种基于图表示的可扩展内存中心架构，旨在提升大语言模型（LLM）在长期对话中的连贯性，在显著降低延迟和 Token 成本的同时，性能优于现有的记忆系统。

StageMem：面向语言模型的生命周期管理记忆框架