面向高效长上下文生成的Context Memorization
摘要
提出了attention-state memory,一种免训练方法,将预计算的注意力状态存储在轻量级记忆中,以提高长前缀推理的准确率并降低延迟,在基准测试中优于传统方法。
查看缓存全文
缓存时间: 2026/05/20 10:37
论文页面 - 高效长上下文生成的上下文记忆化
来源:https://huggingface.co/papers/2605.18226
摘要
注意力状态记忆通过将预计算的注意力状态存储在轻量级内存中,实现了高效的长前缀推理,与传统方法相比提高了准确性并降低了延迟。
现代大语言模型(LLM)应用越来越依赖长条件前缀,以在推理时控制模型行为。虽然前缀增强推理(https://huggingface.co/papers?q=prefix-augmented%20inference)很有效,但它存在两个结构性限制:i)前缀的影响随着生成过程的进行而衰减;ii)对前缀的注意力计算(https://huggingface.co/papers?q=attention%20computation)与其长度呈线性增长。现有方法要么将前缀保留在注意力中同时对其压缩,要么通过基于梯度的训练将其内化到模型参数中。前者在推理时仍然需要关注前缀,而后者训练开销大且不适合前缀更新。为解决这些问题,我们提出注意力状态记忆(https://huggingface.co/papers?q=attention-state%20memory),这是一种无需训练的方法,将前缀外部化为一个轻量级的、基于查找的记忆(https://huggingface.co/papers?q=lookup-based%20memory),其中存储了前缀与查询词元之间预计算的注意力状态(https://huggingface.co/papers?q=precomputed%20attention%20states)。在LLaMA-3.1-8B(https://huggingface.co/papers?q=LLaMA-3.1-8B)上的ManyICLBench(https://huggingface.co/papers?q=ManyICLBench)实验中,我们的方法在1K-8K内存预算下,比上下文学习(https://huggingface.co/papers?q=in-context%20learning)的准确性更高,同时在8K时注意力延迟降低了1.36倍;在NBA基准(https://huggingface.co/papers?q=NBA%20benchmark)上,仅使用全注意力RAG(https://huggingface.co/papers?q=full-attention%20RAG)20%的内存足迹就超过了其性能。
查看arXiv页面(https://arxiv.org/abs/2605.18226)查看PDF(https://arxiv.org/pdf/2605.18226)GitHub0(https://github.com/yasu0001/AttentionMemory)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18226)
在您的代理中获取此论文:
hf papers read 2605\.18226
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2605.18226以从本页链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2605.18226以从本页链接。
引用此论文的Space0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2605.18226以从本页链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将本论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页链接。
相似文章
动态线性注意力
本文提出DLA,一种用于多状态线性注意力的动态内存建模框架,它能根据令牌信息变化自适应地合并状态,并维护固定大小的状态缓存,从而在无需标准注意力二次复杂度的前提下实现更好的长上下文表示。
Interdomain Attention: 超越令牌级键值记忆
提出了Interdomain Attention,一种通过核方法将状态空间模型集成到注意力中的新方法,实现了固定大小状态的高效长上下文建模,并在参数规模达13亿的语言建模实验中超越了SSM和softmax注意力。
Dynamic Linear Attention
DLA引入了自适应状态合并和容量受限的内存建模,用于多状态线性注意力,提升了长上下文LLM的性能。
更少的上下文,更高的准确性:一种用于LLM代理的双时态记忆引擎,其中精简检索的上下文胜过了完整历史
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。
MemTrain:自监督上下文记忆训练
MemTrain 提出了一种自监督训练框架,通过在维基百科语料上使用掩码重建和中间记忆召回代理任务,增强 LLM 智能体的上下文记忆能力,在下游记忆密集型 QA 基准上取得了高达 17.67 个百分点的提升。