利用指数衰减记忆增强注意力提升查询感知的KV稀疏性

Hugging Face Daily Papers 论文

摘要

本文探讨了RAT+中的指数衰减记忆模块如何提升长上下文语言模型的查询感知稀疏推理方法,在针尖干草垛任务中,跨多种稀疏预算展示了一致的准确率提升。

高效推理对于长上下文语言模型至关重要,其中注意力计算和KV缓存访问占据了大部分成本。近期工作RAT+引入了一种递归增强的注意力骨干,在推理时支持灵活的扩张注意力。在本文中,我们研究了这种指数衰减记忆是否也能改进现有的查询感知稀疏推理方法。通过使用包括Quest、MoBA和SnapKV在内的代表性方法,我们展示了RAT+在八个针尖干草垛任务中,跨多种稀疏预算均一致地提升了准确率。我们分别在RAT+论文发布的检查点以及OLMo2-7B上验证了这些增益,后者我们使用添加的记忆模块在100亿tokens上继续预训练。最后,我们提出了两个假设来解释为什么这一记忆模块有利于查询感知的稀疏推理,并设计了有针对性的实验来支持它们。
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:16

论文页面 - Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

来源:https://huggingface.co/papers/2605.28640

摘要

RAT+ 记忆模块通过提升各种稀疏预算下的长上下文语言模型准确率,增强了查询感知稀疏推理方法。

高效推理对长上下文语言模型至关重要,其中注意力计算和 KV 缓存访问占据了主要成本。近期工作 RAT+ 引入了一种循环增强注意力主干,使得推理时能够灵活使用膨胀注意力。本文研究这种指数衰减记忆是否也能改进现有的查询感知稀疏推理方法。我们使用 Quest、MoBA 和 SnapKV 等代表性方法,在八项大海捞针任务中展示了 RAT+ 在不同稀疏预算下相比标准注意力均能一致地提升准确率。我们基于 RAT+ 论文发布的标准检查点以及额外用记忆模块继续预训练了 100 亿 token 的 OLMo2-7B 验证了这些增益。最后,我们提出两个假设解释为何该记忆模块有利于查询感知稀疏推理,并设计了针对性实验加以支持。

查看 arXiv 页面 (https://arxiv.org/abs/2605.28640) 查看 PDF (https://arxiv.org/pdf/2605.28640) 项目页面 (https://huggingface.co/barpitf/ratplus) GitHub6 (https://github.com/wimh966/rat-plus) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28640)

在您的 agent 中获取此论文:

hf papers read 2605.28640

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。

引用此论文的 Space 0

无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。

包含此论文的收藏 0

无收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页链接。

相似文章

SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力

arXiv cs.CL

SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。

内存

Reddit r/artificial

解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。

EntmaxKV:面向Entmax注意力机制的支持感知解码

arXiv cs.LG

EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。