SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

arXiv cs.CL 2026/06/04 04:00 论文

sparse-attention long-context llm-inference kv-cache efficiency transformer

摘要

SparDA 提出了一种解耦稀疏注意力架构，通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求，从而实现从 CPU 到 GPU 的预取（lookahead prefetching），并降低选择开销。在基于稀疏预训练的 8B 模型上，其 prefill 速度最高可提升 1.25×，decode 速度最高可提升 1.7×，相比非 offload 基线，decode 吞吐量最高可提升 5.3×。

arXiv:2606.04511v1 公告类型：新论文摘要：稀疏注意力机制可降低长上下文 LLM 推理的计算量和内存带宽需求。然而，两个关键挑战依然存在：（1）KV 缓存容量仍随序列长度线性增长，而卸载至 CPU 内存会引入 PCIe 传输瓶颈；（2）稀疏选择步骤本身保留了 $O(T^2)$ 复杂度，在长上下文场景下可能主导注意力计算开销。我们提出 SparDA，一种解耦稀疏注意力架构，在每层引入第四个投影——Forecast，与 Query、Key、Value 并列。Forecast 预测下一层所需的 KV 块，实现前瞻式选择，将 CPU 到 GPU 的预取操作与当前层执行重叠进行。由于 Forecast 与注意力查询解耦，我们的 GQA 实现中每个 GQA 组仅使用一个 Forecast 头，相比原始多头选择器降低了选择开销。SparDA 新增参数量不足 0.5%，仅通过匹配原始选择器的注意力分布来训练 Forecast 投影。在两个经过稀疏预训练的 8B 模型上，SparDA 达到或略微超越原有精度，相比稀疏注意力卸载基线实现了最高 1.25$\times$ 的预填充加速和 1.7$\times$ 的解码加速。通过支持单 GPU 上更大的可行批次大小，SparDA 进一步实现了比非卸载稀疏基线高达 5.3$\times$ 的解码吞吐量。源代码已开源，地址为 https://github.com/NVlabs/SparDA。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:15

# SparDA：面向高效长上下文 LLM 推理的稀疏解耦注意力机制

来源：https://arxiv.org/abs/2606.04511
查看 PDF (https://arxiv.org/pdf/2606.04511)

> **摘要：** 稀疏注意力机制可降低长上下文 LLM 推理的计算量与内存带宽需求。然而，目前仍面临两大关键挑战：（1）KV 缓存容量仍随序列长度线性增长，而将其卸载至 CPU 内存会引入 PCIe 传输瓶颈；（2）稀疏选择步骤本身仍具有 $O(T^2)$ 复杂度，在长上下文场景下可能主导注意力的整体开销。为此，我们提出 SparDA——一种解耦稀疏注意力架构，在 Query、Key 和 Value 之外，为每层引入第四个投影头，称为 Forecast（预测头）。Forecast 负责预测下一层所需的 KV 块，从而实现前瞻式选择，将 CPU 到 GPU 的预取操作与当前层的执行过程相互重叠。由于 Forecast 与注意力查询解耦，我们的 GQA 实现中每个 GQA 组仅需一个 Forecast 头，相较于原始多头选择器显著降低了选择开销。SparDA 新增参数量不足 0.5%，且仅通过匹配原始选择器的注意力分布来训练 Forecast 投影层。在两个经过稀疏预训练的 8B 模型上，SparDA 在精度上持平甚至略有提升，prefill 阶段最高实现 1.25 倍加速，decode 阶段最高实现 1.7 倍加速，均优于稀疏注意力卸载基线。通过支持在单张 GPU 上使用更大的可行批次大小，SparDA 的 decode 吞吐量最高可达非卸载稀疏基线的 5.3 倍。源代码已开放于 [此链接](https://github.com/NVlabs/SparDA)。

## 提交历史

提交者：Yaosheng Fu \[[查看邮箱](https://arxiv.org/show-email/481e6733/2606.04511)\]
**\[v1\]** 2026 年 6 月 3 日（周三）06:42:05 UTC（328 KB）

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

相似文章

浅层预填，深层解码：通过层非对称 KV 可见性实现高效的长上下文推理

EntmaxKV：面向Entmax注意力机制的支持感知解码

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

BudgetDraft：面向稀疏KV投机解码的接受感知多视图训练

推理时上下文稀疏性：幻象还是机遇？

提交意见反馈