LazyAttention:通过延迟位置编码实现高效检索增强生成
摘要
LazyAttention 提出了一种新颖的注意力机制,通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下,该方法与 Block-Attention 相比,首 token 生成时间缩短至原来的 1/1.37×,推理吞吐量提升 1.40×。
查看缓存全文
缓存时间: 2026/06/05 02:13
# LazyAttention:基于延迟位置编码的高效检索增强生成 来源:https://arxiv.org/abs/2606.04302 查看 PDF (https://arxiv.org/pdf/2606.04302) > **摘要:** 键值(KV)缓存通过复用已生成 token 的历史计算结果来加速大型语言模型(LLM)的推理过程,在检索增强生成(RAG)和上下文学习(ICL)等长上下文应用场景中尤为重要。然而,传统 KV 缓存将位置信息直接嵌入缓存中,限制了其可复用性。现有解决方案要么仅支持前缀复用,要么需要代价高昂的内存实体化来重新编码位置信息。我们提出 LazyAttention,一种新颖的注意力机制,通过对延迟位置编码进行核化处理,实现零拷贝、位置无关的 KV 复用。LazyAttention 在注意力核内动态调整位置编码,从而消除实体化瓶颈,使单份物理 KV 副本能够在任意位置服务于多个逻辑请求。借助专为预填充和解码阶段优化的注意力核,本系统实现了显著的效率提升:在文档分布偏斜的场景下,与最先进的 Block-Attention 相比,首 token 生成时间(TTFT)降低 1.37 倍,推理吞吐量提升 1.40 倍,同时保持相当的输出质量。 ## 提交历史 作者:Haocheng Xia \[查看邮箱 (https://arxiv.org/show-email/dd48bd35/2606.04302)\] **\[v1\]** 2026 年 6 月 3 日(周三)00:12:22 UTC(103 KB)
相似文章
上下文优化下的检索增强生成:从梯度下降视角
本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。
CompactAttention: 通过块合并KV选择加速分块预填充
CompactAttention引入块合并KV选择机制,加速长上下文LLM的分块预填充,在LLaMA-3.1-8B模型128K上下文下实现最高2.72倍注意力加速,同时保持与稠密注意力相近的精度。
SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力
SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。
ART:高效大语言模型解码中的注意力运行时终止
本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。
从自适应列表排序角度重新审视自适应检索增强生成的必要性
本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。