SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力

arXiv cs.CL 论文

摘要

SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。

arXiv:2606.04511v1 公告类型:新论文 摘要:稀疏注意力机制可降低长上下文 LLM 推理的计算量和内存带宽需求。然而,两个关键挑战依然存在:(1)KV 缓存容量仍随序列长度线性增长,而卸载至 CPU 内存会引入 PCIe 传输瓶颈;(2)稀疏选择步骤本身保留了 $O(T^2)$ 复杂度,在长上下文场景下可能主导注意力计算开销。我们提出 SparDA,一种解耦稀疏注意力架构,在每层引入第四个投影——Forecast,与 Query、Key、Value 并列。Forecast 预测下一层所需的 KV 块,实现前瞻式选择,将 CPU 到 GPU 的预取操作与当前层执行重叠进行。由于 Forecast 与注意力查询解耦,我们的 GQA 实现中每个 GQA 组仅使用一个 Forecast 头,相比原始多头选择器降低了选择开销。SparDA 新增参数量不足 0.5%,仅通过匹配原始选择器的注意力分布来训练 Forecast 投影。在两个经过稀疏预训练的 8B 模型上,SparDA 达到或略微超越原有精度,相比稀疏注意力卸载基线实现了最高 1.25$\times$ 的预填充加速和 1.7$\times$ 的解码加速。通过支持单 GPU 上更大的可行批次大小,SparDA 进一步实现了比非卸载稀疏基线高达 5.3$\times$ 的解码吞吐量。源代码已开源,地址为 https://github.com/NVlabs/SparDA。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:15

# SparDA:面向高效长上下文 LLM 推理的稀疏解耦注意力机制

来源:https://arxiv.org/abs/2606.04511
查看 PDF (https://arxiv.org/pdf/2606.04511)

> **摘要:** 稀疏注意力机制可降低长上下文 LLM 推理的计算量与内存带宽需求。然而,目前仍面临两大关键挑战:(1)KV 缓存容量仍随序列长度线性增长,而将其卸载至 CPU 内存会引入 PCIe 传输瓶颈;(2)稀疏选择步骤本身仍具有 $O(T^2)$ 复杂度,在长上下文场景下可能主导注意力的整体开销。为此,我们提出 SparDA——一种解耦稀疏注意力架构,在 Query、Key 和 Value 之外,为每层引入第四个投影头,称为 Forecast(预测头)。Forecast 负责预测下一层所需的 KV 块,从而实现前瞻式选择,将 CPU 到 GPU 的预取操作与当前层的执行过程相互重叠。由于 Forecast 与注意力查询解耦,我们的 GQA 实现中每个 GQA 组仅需一个 Forecast 头,相较于原始多头选择器显著降低了选择开销。SparDA 新增参数量不足 0.5%,且仅通过匹配原始选择器的注意力分布来训练 Forecast 投影层。在两个经过稀疏预训练的 8B 模型上,SparDA 在精度上持平甚至略有提升,prefill 阶段最高实现 1.25 倍加速,decode 阶段最高实现 1.7 倍加速,均优于稀疏注意力卸载基线。通过支持在单张 GPU 上使用更大的可行批次大小,SparDA 的 decode 吞吐量最高可达非卸载稀疏基线的 5.3 倍。源代码已开放于 [此链接](https://github.com/NVlabs/SparDA)。

## 提交历史

提交者:Yaosheng Fu \[[查看邮箱](https://arxiv.org/show-email/481e6733/2606.04511)\]
**\[v1\]** 2026 年 6 月 3 日(周三)06:42:05 UTC(328 KB)

相似文章

EntmaxKV:面向Entmax注意力机制的支持感知解码

arXiv cs.LG

EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。

推理时上下文稀疏性:幻象还是机遇?

arXiv cs.AI

本文认为,极端的上下文稀疏性是LLM推理的一个有原则且可行的基础,展示了当前模型能够容忍高达100倍的稀疏性而无质量损失,并且稀疏解码内核可以在现有硬件上将处理速度提升10倍。