利用指数衰减记忆增强注意力提升查询感知的KV稀疏性
摘要
本文探讨了RAT+中的指数衰减记忆模块如何提升长上下文语言模型的查询感知稀疏推理方法,在针尖干草垛任务中,跨多种稀疏预算展示了一致的准确率提升。
查看缓存全文
缓存时间: 2026/06/08 15:16
论文页面 - Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity
来源:https://huggingface.co/papers/2605.28640
摘要
RAT+ 记忆模块通过提升各种稀疏预算下的长上下文语言模型准确率,增强了查询感知稀疏推理方法。
高效推理对长上下文语言模型至关重要,其中注意力计算和 KV 缓存访问占据了主要成本。近期工作 RAT+ 引入了一种循环增强注意力主干,使得推理时能够灵活使用膨胀注意力。本文研究这种指数衰减记忆是否也能改进现有的查询感知稀疏推理方法。我们使用 Quest、MoBA 和 SnapKV 等代表性方法,在八项大海捞针任务中展示了 RAT+ 在不同稀疏预算下相比标准注意力均能一致地提升准确率。我们基于 RAT+ 论文发布的标准检查点以及额外用记忆模块继续预训练了 100 亿 token 的 OLMo2-7B 验证了这些增益。最后,我们提出两个假设解释为何该记忆模块有利于查询感知稀疏推理,并设计了针对性实验加以支持。
查看 arXiv 页面 (https://arxiv.org/abs/2605.28640) 查看 PDF (https://arxiv.org/pdf/2605.28640) 项目页面 (https://huggingface.co/barpitf/ratplus) GitHub6 (https://github.com/wimh966/rat-plus) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28640)
在您的 agent 中获取此论文:
hf papers read 2605.28640
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
无模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。
引用此论文的数据集 0
无数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。
引用此论文的 Space 0
无 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。
包含此论文的收藏 0
无收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页链接。
相似文章
SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力
SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。
让每个 Token 都物尽其用:通过 KV 缓存淘汰提升长上下文性能
本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法,通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力,同时显著降低内存占用。
ReST-KV:基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法
本文介绍了 ReST-KV,一种用于大型语言模型的新型鲁棒 KV Cache 驱逐方法。该方法利用逐层输出重构与时空平滑技术来提升效率,显著降低了解码延迟,并在 LongBench 和 RULER 等长上下文基准测试中超越了现有的最先进基线模型。
EntmaxKV:面向Entmax注意力机制的支持感知解码
EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。