面向高效长上下文生成的Context Memorization

Hugging Face Daily Papers 2026/05/18 00:00 论文

long-context attention-memory prefix-inference efficient-inference lookup-memory llm inference-optimization

摘要

提出了attention-state memory，一种免训练方法，将预计算的注意力状态存储在轻量级记忆中，以提高长前缀推理的准确率并降低延迟，在基准测试中优于传统方法。

现代大语言模型（LLM）应用越来越依赖长条件前缀在推理时控制模型行为。虽然前缀增强推理有效，但存在两个结构限制：i) 随着生成进行，前缀的影响逐渐减弱；ii) 对前缀的注意力计算与其长度呈线性增长。现有方法要么将前缀保留在注意力中同时进行压缩，要么通过基于梯度的训练将其内化为模型参数。前者在推理时仍需要关注前缀，后者则训练成本高且不适合前缀更新。为解决这些问题，我们提出了attention-state memory，一种免训练方法，将前缀外化为一个轻量级、基于查找的记忆，其中存储了前缀与查询令牌之间的预计算注意力状态。在LLaMA-3.1-8B的ManyICLBench上，我们的方法在1K-8K记忆预算下相比上下文学习提升了准确率，同时在8K下将注意力延迟降低了1.36倍，并且在NBA基准测试中仅使用全注意力RAG记忆占用量的20%便超越了其性能。

查看原文

查看缓存全文

缓存时间: 2026/05/20 10:37

论文页面 - 高效长上下文生成的上下文记忆化

来源：https://huggingface.co/papers/2605.18226

摘要

注意力状态记忆通过将预计算的注意力状态存储在轻量级内存中，实现了高效的长前缀推理，与传统方法相比提高了准确性并降低了延迟。

现代大语言模型（LLM）应用越来越依赖长条件前缀，以在推理时控制模型行为。虽然前缀增强推理（https://huggingface.co/papers?q=prefix-augmented%20inference）很有效，但它存在两个结构性限制：i）前缀的影响随着生成过程的进行而衰减；ii）对前缀的注意力计算（https://huggingface.co/papers?q=attention%20computation）与其长度呈线性增长。现有方法要么将前缀保留在注意力中同时对其压缩，要么通过基于梯度的训练将其内化到模型参数中。前者在推理时仍然需要关注前缀，而后者训练开销大且不适合前缀更新。为解决这些问题，我们提出注意力状态记忆（https://huggingface.co/papers?q=attention-state%20memory），这是一种无需训练的方法，将前缀外部化为一个轻量级的、基于查找的记忆（https://huggingface.co/papers?q=lookup-based%20memory），其中存储了前缀与查询词元之间预计算的注意力状态（https://huggingface.co/papers?q=precomputed%20attention%20states）。在LLaMA-3.1-8B（https://huggingface.co/papers?q=LLaMA-3.1-8B）上的ManyICLBench（https://huggingface.co/papers?q=ManyICLBench）实验中，我们的方法在1K-8K内存预算下，比上下文学习（https://huggingface.co/papers?q=in-context%20learning）的准确性更高，同时在8K时注意力延迟降低了1.36倍；在NBA基准（https://huggingface.co/papers?q=NBA%20benchmark）上，仅使用全注意力RAG（https://huggingface.co/papers?q=full-attention%20RAG）20%的内存足迹就超过了其性能。

查看arXiv页面（https://arxiv.org/abs/2605.18226）查看PDF（https://arxiv.org/pdf/2605.18226）GitHub0（https://github.com/yasu0001/AttentionMemory）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18226）

在您的代理中获取此论文：

hf papers read 2605\.18226

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2605.18226以从本页链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2605.18226以从本页链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2605.18226以从本页链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将本论文添加到一个收藏集（https://huggingface.co/new-collection）以从本页链接。

面向高效长上下文生成的Context Memorization

论文页面 - 高效长上下文生成的上下文记忆化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

动态线性注意力

Interdomain Attention: 超越令牌级键值记忆

Dynamic Linear Attention

更少的上下文，更高的准确性：一种用于LLM代理的双时态记忆引擎，其中精简检索的上下文胜过了完整历史

MemTrain：自监督上下文记忆训练

提交意见反馈