利用指数衰减记忆增强注意力提升查询感知的KV稀疏性

Hugging Face Daily Papers 2026/05/27 00:00 论文

attention kv-cache sparse-inference long-context language-models memory-module recurrent-attention

摘要

本文探讨了RAT+中的指数衰减记忆模块如何提升长上下文语言模型的查询感知稀疏推理方法，在针尖干草垛任务中，跨多种稀疏预算展示了一致的准确率提升。

高效推理对于长上下文语言模型至关重要，其中注意力计算和KV缓存访问占据了大部分成本。近期工作RAT+引入了一种递归增强的注意力骨干，在推理时支持灵活的扩张注意力。在本文中，我们研究了这种指数衰减记忆是否也能改进现有的查询感知稀疏推理方法。通过使用包括Quest、MoBA和SnapKV在内的代表性方法，我们展示了RAT+在八个针尖干草垛任务中，跨多种稀疏预算均一致地提升了准确率。我们分别在RAT+论文发布的检查点以及OLMo2-7B上验证了这些增益，后者我们使用添加的记忆模块在100亿tokens上继续预训练。最后，我们提出了两个假设来解释为什么这一记忆模块有利于查询感知的稀疏推理，并设计了有针对性的实验来支持它们。

查看原文

查看缓存全文

缓存时间: 2026/06/08 15:16

论文页面 - Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

来源：https://huggingface.co/papers/2605.28640

摘要

RAT+ 记忆模块通过提升各种稀疏预算下的长上下文语言模型准确率，增强了查询感知稀疏推理方法。

高效推理对长上下文语言模型至关重要，其中注意力计算和 KV 缓存访问占据了主要成本。近期工作 RAT+ 引入了一种循环增强注意力主干，使得推理时能够灵活使用膨胀注意力。本文研究这种指数衰减记忆是否也能改进现有的查询感知稀疏推理方法。我们使用 Quest、MoBA 和 SnapKV 等代表性方法，在八项大海捞针任务中展示了 RAT+ 在不同稀疏预算下相比标准注意力均能一致地提升准确率。我们基于 RAT+ 论文发布的标准检查点以及额外用记忆模块继续预训练了 100 亿 token 的 OLMo2-7B 验证了这些增益。最后，我们提出两个假设解释为何该记忆模块有利于查询感知稀疏推理，并设计了针对性实验加以支持。

查看 arXiv 页面 (https://arxiv.org/abs/2605.28640) 查看 PDF (https://arxiv.org/pdf/2605.28640) 项目页面 (https://huggingface.co/barpitf/ratplus) GitHub6 (https://github.com/wimh966/rat-plus) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28640)

在您的 agent 中获取此论文：

hf papers read 2605.28640

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。

引用此论文的 Space 0

无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.28640 以从此页链接。

包含此论文的收藏 0

无收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页链接。

利用指数衰减记忆增强注意力提升查询感知的KV稀疏性

论文页面 - Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 0

相似文章

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

内存

让每个 Token 都物尽其用：通过 KV 缓存淘汰提升长上下文性能

ReST-KV：基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法

EntmaxKV：面向Entmax注意力机制的支持感知解码

提交意见反馈