推理时上下文稀疏性：幻象还是机遇？

arXiv cs.AI 2026/05/26 04:00 论文

inference context-sparsity llm-efficiency attention sparse-attention large-language-models

摘要

本文认为，极端的上下文稀疏性是LLM推理的一个有原则且可行的基础，展示了当前模型能够容忍高达100倍的稀疏性而无质量损失，并且稀疏解码内核可以在现有硬件上将处理速度提升10倍。

arXiv:2605.24168v1 公告类型：新摘要：稀疏性长期以来一直是LLM效率的核心主题，但它在上下文处理中的作用仍未明确。随着LLM工作负载向更长的上下文和智能体交互转变，注意力的计算和内存瓶颈变得越来越关键，引发了一个问题：这些约束是否是根本性的？我们的立场是，这些约束是人为且不必要的，LLM推理的未来在于沿着上下文维度实现极端但有原则的稀疏性。这一立场得到了多条经验和理论证据的支持。首先，我们认为坚持密集注意力是不合理的，因为在长上下文中，一个查询实际上将O(N)个注意力信息投影到维度d << N的隐藏空间中，使得这个过程固有有损。其次，我们对LLM中的稀疏性进行了广泛研究，涵盖五个模型家族的20个模型、不同的上下文长度和不同的稀疏程度。我们通过经验展示了一个强劲的趋势：当前的LLM尽管没有针对上下文稀疏性进行训练，但在各种复杂度的任务（包括检索、多跳问答、数学推理和智能体编码）中，对推理时解码稀疏性表现出显著的稳健性。重要的是，我们还表明当前硬件已足以从这种稀疏性中实现显著收益。例如，在H100等硬件上，在50倍稀疏度下，我们的稀疏解码内核在大型上下文处理上比FlashInfer快了10倍。总体而言，这些结果将极端上下文稀疏性定位为LLM推理、训练和架构设计的一个有原则的基础，而非启发式方法：它既可行又有益，是未来系统的一个有吸引力的方向。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:05

# 推理时上下文稀疏性：幻觉还是机遇？来源：https://arxiv.org/html/2605.24168
Sahil Joshiα,∗Prithvi Dixitβ,∗Agniva ChowdhuryαAnshumali Shrivastavaα Joseph E\. GonzalezβIon StoicaβKumar Krishna Agrawalβ,†Aditya Desaiγ,† α莱斯大学β加州大学伯克利分校γ印度理工学院孟买分校

###### 摘要

稀疏性一直是 LLM 效率的核心主题，但其在上下文处理中的作用仍未解决。随着 LLM 工作负载转向更长的上下文和智能体交互，注意力的计算和内存瓶颈变得越来越关键，这引发了一个问题：这些约束是否是根本性的？我们的立场是，这些约束是人为且不必要的，LLM 推理的未来在于沿着上下文维度实现极端但有原则的稀疏性。这一立场得到多项经验和理论证据的支持。首先，我们认为坚持密集注意力是不合理的，因为在长上下文中，一个查询有效地将 O(N) 的注意力信息投影到维度为 d≪N 的隐藏空间中，使得该过程本质上有损。其次，我们对 LLM 中的稀疏性进行了广泛研究，涵盖 5 个模型家族的 20 个模型，不同的上下文长度和不同的稀疏级别。我们经验性地展示了一个强烈趋势：当前的 LLM，尽管没有针对上下文稀疏性进行训练，但在不同复杂度的任务（包括检索、多跳 QA、数学推理和智能体编码）上，对推理时解码稀疏性表现出显著的鲁棒性。例如，Qwen3.5-27B 在 RULER-HARD 和 AIME2025 等基准测试中，可以容忍高达 100 倍的稀疏性而质量无损，并且在 LOFT 和 SWE 基准测试中，可以容忍高达 50 倍的稀疏性，性能仅略有下降。这些结果表明，向完全稀疏性过渡可能是可能的，而不会造成有意义的能力损失。重要的是，我们还表明，当前的硬件已经足以从这种稀疏性中获得实质性的收益。例如，在 H100 等硬件上，在 50 倍稀疏级别下，我们的稀疏解码内核相对于 FlashInfer 将大上下文处理速度提升了高达 10 倍。总的来说，这些结果将极端上下文稀疏性定位为不仅是启发式的，而且是 LLM 推理、训练和架构设计的有原则基础：它既可行又有益，是未来系统的一个有说服力的方向。
代码：https://github.com/skylight-org/sparse-attention-hub
项目页面：https://sky-light.eecs.berkeley.edu/
1 同等贡献。
2 共同领导：[email protected]，[email protected]。

## 1 引言

参见说明（a）不同解码模式下推理时注意力 I/O。参见说明（b）Qwen3.5-27B 在不同工作负载上的表现。图 1：推理时 50× 上下文稀疏性在结构上对带宽友好（a），并且在单个模型（b）上的不同工作负载中保持近乎密集的质量。（a）三种解码模式共享一个 HBM 频段，但以不同方式读取它。*密集*：每一步都读取完整的 KV 缓存（O(N·d) 字节）；*稀疏*：通过一个轻量级索引器路由，该索引器选择 k 行（O(k·d) 字节，k≪N）；*线性*（门控 DeltaNet）读取一个固定大小的循环状态 S（O(d²) 字节，相对于 N 为常数）。这三种模式在 H100/B200 上都受限于内存带宽；区别在于每一步的流量是否随上下文长度扩展。（b）Qwen3.5-27B 在四个工作负载上的表现，按复杂度递增顺序排列，参数为 (T, D, C) – 轮次、每轮解码 Token 数、每轮输入上下文（§3）。配置：RULER-HARD-32K (T=1, D<1K, C=32K)；LOFT-128K (T=1, D<1K, C=128K)；AIME-2025 (T=1, D≈25K, C<1K)；SWE-Bench Django (T≈67, D∼1K 每轮，C 增长到 >100K)。在检索 (RULER, LOFT)、推理 (AIME) 和智能体编码 (SWE-Bench S₃ 子集，n=58，附录 B) 上，稀疏性在 50× 时与密集结果的差距 ≤2 个点。H100/B200 上的内核级加速将在 §4 和表 1 中介绍。

LLM 推理中的稀疏性长期以来一直是研究人员的目标。致力于稀疏化 Transformer 的 FFN 组件的工作 [5, 10, 32, 39] 已基本收敛到专家混合（MoE），这已成为前沿实验室的事实上的架构 [2, 27, 40, 46, 54]。相比之下，对于注意力机制，或者更广泛地说，上下文处理器，尚未出现类似共识。对注意力稀疏性的研究可以追溯到几年前，并在 LLM 时代重新出现，主要集中在已训练模型中的涌现稀疏性 [1, 6, 8, 9, 14, 20, 24, 30, 31, 42, 48, 55, 56, 57]。然而，这种稀疏性很少在最先进的推理引擎中被采用，凸显了对其实际价值理解的局限性。通过在后训练阶段采用稀疏注意力，这方面的工作有了一定的整合 [28, 54]。然而，展示的收益主要局限于非常大的模型领域，这引发了对其普遍适用性的质疑。与此同时，另一种形式的稀疏性通过轻量级上下文处理器的发展而出现，例如线性注意力 [7, 21, 22, 34, 53] 和 SSM [12, 23, 50, 52]。虽然这些方法已被一定程度采用，但现代架构仍然保留着完整的缩放点积注意力（SDPA）层，这凸显了纯 SSM 模型表达能力的局限性。这就引出了一个根本问题：预填充阶段的二次计算瓶颈和解码阶段的线性内存瓶颈是否是一致的固有约束，并将一直存在？随着 LLM 工作负载向更长的上下文和生成内容转变，这个问题变得越来越重要。新兴用例，如智能体工具使用、代码生成、检索增强生成、多文档推理、长形式对话和仓库级软件理解，都在推动这一趋势 [13, 15, 17, 18, 26, 35, 36, 37, 38, 45, 49]。具体来说，一份 50 页的 PDF 可能包含大约 33K 个 Token。一个旨在根据公司或法律文档生成回复的 LLM 可能需要在单个上下文窗口中处理数十万甚至数百万个 Token。与此同时，对最先进模型的期望不断提高，每一代模型都在推动更大、更持久的上下文处理。最近的例子进一步凸显了这一转变。据报道，像 openclaw [41] 这样的系统的系统提示词长度可达 160K 个 Token¹，这说明了实践中上下文大小是如何迅速扩展的。重要的是，这些工作负载不仅涉及更长的提示词，而且通常还需要在扩展的历史记录上进行长形式生成。在智能体场景中，这一挑战被进一步放大，其中模型迭代地生成输出，整合新信息，并反复以不断增长的智能体间交互轨迹为条件。因此，这个问题变得至关重要：在上下文维度上，LLM 推理的未来是什么？我们采取以下立场：LLM 推理的未来在于沿着上下文维度实现极端稀疏性。我们的立场主要基于我们在推理时稀疏性方面的大规模经验发现，以及我们展示的相对于 FlashInfer 的显著加速，即使在争论中高度不规则的稀疏模式下也是如此。

#### 新一代模型中已存在稀疏性：
在第 3 节中，我们经验性地观察到，稀疏性已在现代架构中涌现。正如第 3 节所示，更大和更新的模型在广泛的任务中对激进的上下文稀疏化表现出显著的鲁棒性。这适用于相对简单的基准测试，如 RULER 的挑战性子集 RULER-HARD [16] 和 LOFT [25]，以及更复杂的推理任务，如 AIME [33] 和现实世界的智能体工作负载，如 SWE [19] (50+ 智能体轮次)。据我们所知，这是第一项在智能体工作负载上研究推理时稀疏性的工作。当然，在训练期间引入稀疏性是理想的，但推理时稀疏性的涌现增强了模型在高度稀疏区域内有效运行的可能性，并为设计明确针对稀疏性的训练过程提供了更大的信心。我们在五个模型家族上进行了经验评估，包括 Llama3 [11]、Qwen2.5 [47]、Qwen3.5 [44]、Gemma3 [43] 和 Ministral3 [29]，涵盖四个任务：RULER-HARD (32K)、LOFT (32K 和 128K)、AIME (65K 生成长度) 和 SWE (50+ 智能体轮次)。我们的结果表明，推理时稀疏性的有效性随着模型规模的扩大和混合架构的使用而提高。特别地，来自较新一代家族的大型模型，如 Qwen3.5、Gemma3 和 Ministral3，即使在 50× 稀疏度下也能保持与密集执行相当的质量。对于较小的标准模型，观察到的退化可以通过随机索引选择 [8] 在很大程度上得到缓解。值得注意的是，这些收益纯粹在推理时实现，这表明在训练期间纳入稀疏性可以带来更大的好处。

#### 稀疏性可用于系统增益：
稀疏性与硬件的对齐对于充分实现其收益至关重要。因此，评估稀疏性是否真的缓解了底层瓶颈至关重要。一个普遍的观点是，效率提升需要块结构稀疏性 [58]；没有它，稀疏性不太可能转化为实际的加速。我们提出了反对这一观点的论据。值得注意的是，DeepSeek Attention [28] 在预填充阶段展示了 Token 级稀疏性带来的训练和推理时加速。这证明了 Token 级稀疏性确实可以转化为实际的效率提升，而无需对模型施加过多结构。我们将其进一步扩展到解码阶段。对于解码，我们提供了内核，可以在每 Token、每查询和每头的稀疏性（即高度不规则的稀疏模式）下加速推理。即使在分组查询注意力（其中查询头的数量可能比键值头的数量大一个因子，通常为 4）下，这些增益依然存在。这是因为 KV 缓存的向量维度提供了足够的连续内存，使得这种稀疏性在现代硬件上有效。特别是，我们优化的稀疏注意力内核，构建在带分页 KV 缓存后端的 FlashInfer 之上，在 50× 稀疏度和大批量大小下实现了高达 10× 的内核加速。

#### 不存在真正的密集注意力：
除了经验上的强有力结果之外，我们的立场和研究根植于这样的想法：密集注意力与长上下文是不兼容的。我们展示了一个简单的结果：真正的密集注意力在实践中并不存在：全注意力最终受限于隐藏维度，导致其崩溃而无法区分不同的注意力分布。虽然该结果本身很直观，但其意义重大。它表明完全稀疏性不仅仅是一种实用的近似，而首先是一个更优越的目标。总体而言，本文论证了社区应该积极探索沿上下文维度的极端稀疏性，而不需要妥协（例如部分保留全注意力层）。稀疏性在多个轴上的经验涌现显示了强大的潜力，第 3 节中的解码时稀疏内核分析，结合最近 DeepSeek 模型的结果，展示了可以解锁的显著效率提升。

## 2 为什么密集注意力不适合长上下文

我们首先考察注意力层在上下文长度增长时是否能保持真正密集，并表明它们不能。

### 2.1 密集注意力通过隐藏维度崩溃。

虽然稀疏注意力和 SSM 有其自身的缺点，但全密集注意力也有其自身的瓶颈：它为每个上下文 Token 分配一个权重，但该层仅向前传递一个固定维度的隐藏向量。

**定理 1.** 设 V∈ℝ^{N×d} 为任意值矩阵，并设密集注意力输出为 o=V⊤a，其中 a=(a₁, ... a_N) 是 N 个上下文 Token 上的注意力分布。如果 dim(N(T)∩H)≥(N-d)+(N-1)-N=N-d-1>0，其中最后一个不等式使用 d

推理时上下文稀疏性：幻象还是机遇？

相似文章

利用适度非结构化稀疏权重矩阵加速大语言模型的GPU推理

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

分层稀疏注意力机制的正确实现：迈向无限上下文建模

持续LLM升级循环：一种用于从稠密到稀疏LLM的预测器门控按组稀疏训练方案

MiniMax 稀疏注意力

提交意见反馈