SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力
摘要
SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。
arXiv:2606.04511v1 公告类型:新论文
摘要:稀疏注意力机制可降低长上下文 LLM 推理的计算量和内存带宽需求。然而,两个关键挑战依然存在:(1)KV 缓存容量仍随序列长度线性增长,而卸载至 CPU 内存会引入 PCIe 传输瓶颈;(2)稀疏选择步骤本身保留了 $O(T^2)$ 复杂度,在长上下文场景下可能主导注意力计算开销。我们提出 SparDA,一种解耦稀疏注意力架构,在每层引入第四个投影——Forecast,与 Query、Key、Value 并列。Forecast 预测下一层所需的 KV 块,实现前瞻式选择,将 CPU 到 GPU 的预取操作与当前层执行重叠进行。由于 Forecast 与注意力查询解耦,我们的 GQA 实现中每个 GQA 组仅使用一个 Forecast 头,相比原始多头选择器降低了选择开销。SparDA 新增参数量不足 0.5%,仅通过匹配原始选择器的注意力分布来训练 Forecast 投影。在两个经过稀疏预训练的 8B 模型上,SparDA 达到或略微超越原有精度,相比稀疏注意力卸载基线实现了最高 1.25$\times$ 的预填充加速和 1.7$\times$ 的解码加速。通过支持单 GPU 上更大的可行批次大小,SparDA 进一步实现了比非卸载稀疏基线高达 5.3$\times$ 的解码吞吐量。源代码已开源,地址为 https://github.com/NVlabs/SparDA。
查看缓存全文
缓存时间: 2026/06/05 02:15
# SparDA:面向高效长上下文 LLM 推理的稀疏解耦注意力机制 来源:https://arxiv.org/abs/2606.04511 查看 PDF (https://arxiv.org/pdf/2606.04511) > **摘要:** 稀疏注意力机制可降低长上下文 LLM 推理的计算量与内存带宽需求。然而,目前仍面临两大关键挑战:(1)KV 缓存容量仍随序列长度线性增长,而将其卸载至 CPU 内存会引入 PCIe 传输瓶颈;(2)稀疏选择步骤本身仍具有 $O(T^2)$ 复杂度,在长上下文场景下可能主导注意力的整体开销。为此,我们提出 SparDA——一种解耦稀疏注意力架构,在 Query、Key 和 Value 之外,为每层引入第四个投影头,称为 Forecast(预测头)。Forecast 负责预测下一层所需的 KV 块,从而实现前瞻式选择,将 CPU 到 GPU 的预取操作与当前层的执行过程相互重叠。由于 Forecast 与注意力查询解耦,我们的 GQA 实现中每个 GQA 组仅需一个 Forecast 头,相较于原始多头选择器显著降低了选择开销。SparDA 新增参数量不足 0.5%,且仅通过匹配原始选择器的注意力分布来训练 Forecast 投影层。在两个经过稀疏预训练的 8B 模型上,SparDA 在精度上持平甚至略有提升,prefill 阶段最高实现 1.25 倍加速,decode 阶段最高实现 1.7 倍加速,均优于稀疏注意力卸载基线。通过支持在单张 GPU 上使用更大的可行批次大小,SparDA 的 decode 吞吐量最高可达非卸载稀疏基线的 5.3 倍。源代码已开放于 [此链接](https://github.com/NVlabs/SparDA)。 ## 提交历史 提交者:Yaosheng Fu \[[查看邮箱](https://arxiv.org/show-email/481e6733/2606.04511)\] **\[v1\]** 2026 年 6 月 3 日(周三)06:42:05 UTC(328 KB)
相似文章
浅层预填,深层解码:通过层非对称 KV 可见性实现高效的长上下文推理
本文介绍了 SPEED,一种层非对称 KV 可见性策略,通过仅在预填阶段的下层处理提示 token,同时在解码阶段保持全深度注意力,从而降低长上下文推理的成本。
EntmaxKV:面向Entmax注意力机制的支持感知解码
EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
BudgetDraft:面向稀疏KV投机解码的接受感知多视图训练
BudgetDraft提出了一种多视图训练方法,用于投机解码,将稀疏KV起草者与全KV验证者对齐,在中长上下文推理中实现了显著的加速。
推理时上下文稀疏性:幻象还是机遇?
本文认为,极端的上下文稀疏性是LLM推理的一个有原则且可行的基础,展示了当前模型能够容忍高达100倍的稀疏性而无质量损失,并且稀疏解码内核可以在现有硬件上将处理速度提升10倍。