LazyAttention:通过延迟位置编码实现高效检索增强生成

arXiv cs.CL 论文

摘要

LazyAttention 提出了一种新颖的注意力机制,通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下,该方法与 Block-Attention 相比,首 token 生成时间缩短至原来的 1/1.37×,推理吞吐量提升 1.40×。

arXiv:2606.04302v1 公告类型:新论文 摘要:键值(KV)缓存通过复用已生成 token 的历史计算结果,加速大语言模型(LLM)的推理过程。在检索增强生成(RAG)和上下文学习(ICL)等长上下文应用场景中,其重要性尤为突出。然而,传统 KV 缓存将位置信息直接嵌入缓存中,限制了其可复用性。现有解决方案要么仅支持前缀复用,要么需要进行代价高昂的内存实体化以重新编码位置信息。我们提出 LazyAttention,一种新颖的注意力机制,通过将延迟位置编码核函数化,实现零拷贝、位置无关的 KV 复用。LazyAttention 在注意力核中动态调整位置编码,从而消除实体化瓶颈,使单份物理 KV 副本能够在任意位置服务多个逻辑请求。借助专为预填充和解码阶段定制的注意力核,我们的系统实现了显著的效率提升:在文档分布倾斜的场景下,与最先进的 Block-Attention 相比,首 token 生成时间(TTFT)缩短 1.37$\times$,推理吞吐量提升 1.40$\times$,同时保持相当的输出质量。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:13

# LazyAttention:基于延迟位置编码的高效检索增强生成

来源:https://arxiv.org/abs/2606.04302
查看 PDF (https://arxiv.org/pdf/2606.04302)

> **摘要:** 键值(KV)缓存通过复用已生成 token 的历史计算结果来加速大型语言模型(LLM)的推理过程,在检索增强生成(RAG)和上下文学习(ICL)等长上下文应用场景中尤为重要。然而,传统 KV 缓存将位置信息直接嵌入缓存中,限制了其可复用性。现有解决方案要么仅支持前缀复用,要么需要代价高昂的内存实体化来重新编码位置信息。我们提出 LazyAttention,一种新颖的注意力机制,通过对延迟位置编码进行核化处理,实现零拷贝、位置无关的 KV 复用。LazyAttention 在注意力核内动态调整位置编码,从而消除实体化瓶颈,使单份物理 KV 副本能够在任意位置服务于多个逻辑请求。借助专为预填充和解码阶段优化的注意力核,本系统实现了显著的效率提升:在文档分布偏斜的场景下,与最先进的 Block-Attention 相比,首 token 生成时间(TTFT)降低 1.37 倍,推理吞吐量提升 1.40 倍,同时保持相当的输出质量。

## 提交历史

作者:Haocheng Xia \[查看邮箱 (https://arxiv.org/show-email/dd48bd35/2606.04302)\] **\[v1\]** 2026 年 6 月 3 日(周三)00:12:22 UTC(103 KB)

相似文章

上下文优化下的检索增强生成:从梯度下降视角

arXiv cs.CL

本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。

SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力

arXiv cs.CL

SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。

ART:高效大语言模型解码中的注意力运行时终止

arXiv cs.CL

本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。

从自适应列表排序角度重新审视自适应检索增强生成的必要性

arXiv cs.CL

本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。