CompactAttention: 通过块合并KV选择加速分块预填充

Hugging Face Daily Papers 论文

摘要

CompactAttention引入块合并KV选择机制,加速长上下文LLM的分块预填充,在LLaMA-3.1-8B模型128K上下文下实现最高2.72倍注意力加速,同时保持与稠密注意力相近的精度。

分块预填充已成为长上下文大语言模型广泛采用的服务策略,但在这种模式下高效计算注意力仍然具有挑战性。现有的稀疏注意力方法主要针对单次预填充设计,无法高效迁移到分块预填充:当查询长度受块大小限制时,块稀疏核会降低效率;而细粒度模式搜索在每个块上对累积的KV缓存重复执行时成本高昂。QUOKA 是一种直接针对分块预填充的最新方法,避免了稀疏核的开销,但依赖于查询子采样的令牌级KV选择,这可能会遗漏特定于查询的KV条目,并引入显式的KV复制开销。为了解决这些局限,我们提出 CompactAttention,一种基于块合并KV选择的分块预填充注意力机制。CompactAttention将二维块稀疏掩码视为KV选择信号,而非直接的稀疏核执行计划,并通过Q块合并和组内合并将其转换为GQA感知的每组KV块表。这种构造产生最小块表,在分页执行约束下保留输入掩码选择的所有KV块,使得所选KV块能够原地访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试中保持了接近稠密注意力的精度,同时在分块预填充下于128K上下文长度实现高达2.72倍的注意力加速。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - CompactAttention:利用块联合KV选择加速分块预填充

来源:https://huggingface.co/papers/2605.16839

摘要

CompactAttention通过使用块联合KV选择(Block-Union KV Selection)来最小化KV块表,并实现无需显式压缩的原位访问,从而提升分块预填充注意力机制的效率。

分块预填充(https://huggingface.co/papers?q=Chunked%20prefill)已成为长上下文大语言模型广泛采用的服务策略,但在该模式下高效计算注意力仍然充满挑战。现有的稀疏注意力(https://huggingface.co/papers?q=sparse%20attention)方法主要针对一次性预填充设计,无法高效迁移到分块预填充(https://huggingface.co/papers?q=chunked%20prefill)场景:块稀疏内核(https://huggingface.co/papers?q=block-sparse%20kernels)在查询长度受限于块大小时效率下降,而细粒度模式搜索在每次分块时对累积的KV缓存重复执行则成本高昂。QUOKA作为直接针对分块预填充(https://huggingface.co/papers?q=chunked%20prefill)的最新方法,避免了稀疏内核的开销,但依赖于查询子采样的词元级KV选择(https://huggingface.co/papers?q=KV%20selection),这可能会遗漏查询特定的KV条目并引入显式的KV复制开销。为解决这些局限,我们提出了CompactAttention,一种基于块联合KV选择(Block-Union KV Selection,https://huggingface.co/papers?q=Block-Union%20KV%20Selection)的分块预填充注意力机制。CompactAttention将二维块稀疏掩码视为KV选择信号而非直接的稀疏内核执行计划,并通过Q块联合与组内联合将其转换为GQA感知(https://huggingface.co/papers?q=GQA-aware)的每组分块KV表。这种构造产生了最小的块表,在分页执行(https://huggingface.co/papers?q=paged%20execution)约束下保留了输入掩码选中的所有KV块,使得所选KV块能够原位访问而无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试(https://huggingface.co/papers?q=RULER%20benchmark)中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速(https://huggingface.co/papers?q=attention%20speedup)。

查看arXiv页面(https://arxiv.org/abs/2605.16839)查看PDF(https://arxiv.org/pdf/2605.16839)GitHub1(https://github.com/jiwonsong-dev/CompactAttention)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.16839)

在您的智能体中获取此论文:

hf papers read 2605\.16839

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型关联此论文

请在一份模型README.md中引用arxiv.org/abs/2605.16839,以从本页面链接到它。

引用该论文的数据集0

没有数据集关联此论文

请在一份数据集README.md中引用arxiv.org/abs/2605.16839,以从本页面链接到它。

引用该论文的Spaces0

没有Space关联此论文

请在一份Space README.md中引用arxiv.org/abs/2605.16839,以从本页面链接到它。

包含该论文的收藏集0

没有收藏集合包含此论文

请将这篇论文添加到收藏集(https://huggingface.co/new-collection)中以从本页面链接到它。

相似文章

Lighthouse Attention(11分钟阅读)

TLDR AI

Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。

内存

Reddit r/artificial

解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。