CompactAttention: 通过块合并KV选择加速分块预填充
摘要
CompactAttention引入块合并KV选择机制,加速长上下文LLM的分块预填充,在LLaMA-3.1-8B模型128K上下文下实现最高2.72倍注意力加速,同时保持与稠密注意力相近的精度。
查看缓存全文
缓存时间: 2026/05/19 06:30
论文页面 - CompactAttention:利用块联合KV选择加速分块预填充
来源:https://huggingface.co/papers/2605.16839
摘要
CompactAttention通过使用块联合KV选择(Block-Union KV Selection)来最小化KV块表,并实现无需显式压缩的原位访问,从而提升分块预填充注意力机制的效率。
分块预填充(https://huggingface.co/papers?q=Chunked%20prefill)已成为长上下文大语言模型广泛采用的服务策略,但在该模式下高效计算注意力仍然充满挑战。现有的稀疏注意力(https://huggingface.co/papers?q=sparse%20attention)方法主要针对一次性预填充设计,无法高效迁移到分块预填充(https://huggingface.co/papers?q=chunked%20prefill)场景:块稀疏内核(https://huggingface.co/papers?q=block-sparse%20kernels)在查询长度受限于块大小时效率下降,而细粒度模式搜索在每次分块时对累积的KV缓存重复执行则成本高昂。QUOKA作为直接针对分块预填充(https://huggingface.co/papers?q=chunked%20prefill)的最新方法,避免了稀疏内核的开销,但依赖于查询子采样的词元级KV选择(https://huggingface.co/papers?q=KV%20selection),这可能会遗漏查询特定的KV条目并引入显式的KV复制开销。为解决这些局限,我们提出了CompactAttention,一种基于块联合KV选择(Block-Union KV Selection,https://huggingface.co/papers?q=Block-Union%20KV%20Selection)的分块预填充注意力机制。CompactAttention将二维块稀疏掩码视为KV选择信号而非直接的稀疏内核执行计划,并通过Q块联合与组内联合将其转换为GQA感知(https://huggingface.co/papers?q=GQA-aware)的每组分块KV表。这种构造产生了最小的块表,在分页执行(https://huggingface.co/papers?q=paged%20execution)约束下保留了输入掩码选中的所有KV块,使得所选KV块能够原位访问而无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试(https://huggingface.co/papers?q=RULER%20benchmark)中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速(https://huggingface.co/papers?q=attention%20speedup)。
查看arXiv页面(https://arxiv.org/abs/2605.16839)查看PDF(https://arxiv.org/pdf/2605.16839)GitHub1(https://github.com/jiwonsong-dev/CompactAttention)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.16839)
在您的智能体中获取此论文:
hf papers read 2605\.16839
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型关联此论文
请在一份模型README.md中引用arxiv.org/abs/2605.16839,以从本页面链接到它。
引用该论文的数据集0
没有数据集关联此论文
请在一份数据集README.md中引用arxiv.org/abs/2605.16839,以从本页面链接到它。
引用该论文的Spaces0
没有Space关联此论文
请在一份Space README.md中引用arxiv.org/abs/2605.16839,以从本页面链接到它。
包含该论文的收藏集0
没有收藏集合包含此论文
请将这篇论文添加到收藏集(https://huggingface.co/new-collection)中以从本页面链接到它。
相似文章
UniPrefill:基于块级动态稀疏化的通用长上下文预填充加速
UniPrefill 是一项在研究论文中提出的新型预填充加速框架,通过块级动态稀疏化实现大语言模型(LLMs)的通用长上下文处理。该框架与 vLLM 集成,可在多种模型架构中将首次 Token 生成时间(TTFT)加速最高达 2.1 倍。
DualKV: 针对大规模生成和长上下文的共享提示Flash Attention,用于高效RL训练
介绍DualKV,一种FlashAttention内核变体,可消除RL后训练(GRPO/DAPO)中冗余的提示词元计算,在30B MoE模型上实现高达3.82倍的加速。
Lighthouse Attention(11分钟阅读)
Lighthouse Attention是一种基于选择的分层注意力机制,通过在前向+反向传播中实现约17倍的速度提升(在512K上下文下),并在98K上下文中实现1.4–1.7倍的端到端加速,从而加速长上下文预训练。该机制使用Llama-3 530M模型在50B token上进行了验证。
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
内存
解释了为什么由于KV缓存随上下文长度和并发用户数扩展,LLM推理越来越受内存带宽限制,以及像vLLM和PagedAttention这样的系统如何提高内存利用率。