LazyAttention：通过延迟位置编码实现高效检索增强生成

arXiv cs.CL 2026/06/04 04:00 论文

摘要

LazyAttention 提出了一种新颖的注意力机制，通过延迟位置编码来实现跨多个请求的零拷贝、位置无关的 KV 缓存复用。在文档分布倾斜的 RAG 场景下，该方法与 Block-Attention 相比，首 token 生成时间缩短至原来的 1/1.37×，推理吞吐量提升 1.40×。

arXiv:2606.04302v1 公告类型：新论文摘要：键值（KV）缓存通过复用已生成 token 的历史计算结果，加速大语言模型（LLM）的推理过程。在检索增强生成（RAG）和上下文学习（ICL）等长上下文应用场景中，其重要性尤为突出。然而，传统 KV 缓存将位置信息直接嵌入缓存中，限制了其可复用性。现有解决方案要么仅支持前缀复用，要么需要进行代价高昂的内存实体化以重新编码位置信息。我们提出 LazyAttention，一种新颖的注意力机制，通过将延迟位置编码核函数化，实现零拷贝、位置无关的 KV 复用。LazyAttention 在注意力核中动态调整位置编码，从而消除实体化瓶颈，使单份物理 KV 副本能够在任意位置服务多个逻辑请求。借助专为预填充和解码阶段定制的注意力核，我们的系统实现了显著的效率提升：在文档分布倾斜的场景下，与最先进的 Block-Attention 相比，首 token 生成时间（TTFT）缩短 1.37$\times$，推理吞吐量提升 1.40$\times$，同时保持相当的输出质量。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:13

# LazyAttention：基于延迟位置编码的高效检索增强生成

来源：https://arxiv.org/abs/2606.04302
查看 PDF (https://arxiv.org/pdf/2606.04302)

> **摘要：** 键值（KV）缓存通过复用已生成 token 的历史计算结果来加速大型语言模型（LLM）的推理过程，在检索增强生成（RAG）和上下文学习（ICL）等长上下文应用场景中尤为重要。然而，传统 KV 缓存将位置信息直接嵌入缓存中，限制了其可复用性。现有解决方案要么仅支持前缀复用，要么需要代价高昂的内存实体化来重新编码位置信息。我们提出 LazyAttention，一种新颖的注意力机制，通过对延迟位置编码进行核化处理，实现零拷贝、位置无关的 KV 复用。LazyAttention 在注意力核内动态调整位置编码，从而消除实体化瓶颈，使单份物理 KV 副本能够在任意位置服务于多个逻辑请求。借助专为预填充和解码阶段优化的注意力核，本系统实现了显著的效率提升：在文档分布偏斜的场景下，与最先进的 Block-Attention 相比，首 token 生成时间（TTFT）降低 1.37 倍，推理吞吐量提升 1.40 倍，同时保持相当的输出质量。

## 提交历史

作者：Haocheng Xia \[查看邮箱 (https://arxiv.org/show-email/dd48bd35/2606.04302)\] **\[v1\]** 2026 年 6 月 3 日（周三）00:12:22 UTC（103 KB）

LazyAttention：通过延迟位置编码实现高效检索增强生成

相似文章

上下文优化下的检索增强生成：从梯度下降视角

CompactAttention: 通过块合并KV选择加速分块预填充

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

动态线性注意力

Looped Latent Attention: Cross-Loop KV Compression for Looped Transformers

提交意见反馈