GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力
摘要
GQLA 提出了对多头潜在注意力(MLA)的极小修改,在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径,从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性,通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。
查看缓存全文
缓存时间: 2026/05/18 06:38
# 组查询潜在注意力:面向硬件自适应的大语言模型解码 来源:https://arxiv.org/html/2605.15250 ###### 摘要 多头潜在注意力(MLA)——DeepSeek-V2/V3 中使用的注意力机制——将键和值联合压缩为一个低秩潜在变量,并几乎完美地匹配了 H100 的屋顶线(roofline)。然而,其训练后的权重仅暴露出一条解码路径——一种吸收式的 MQA 形式——这使得高效推理被绑定到 H100 级别的计算-带宽比率上,丧失了沿头轴方向的张量并行能力,并且在面向商品化推理 GPU(如受出口限制的 H20)上无法获得多令牌预测(MTP)的增益。我们提出**组查询潜在注意力(Group-Query Latent Attention, GQLA)**,它是对 MLA 的最小化修改,其训练后的权重在同一组参数上暴露出了**两条**代数等价的解码路径:一条与 MLA 相同的 MQA 吸收路径,以及一条具有每组扩展缓存的 GQA 路径。运行时可以根据目标硬件选择路径——无需重新训练,无需自定义内核——因此单组 GQLA 权重既能锁定 H100 的屋顶线(MQA-吸收,$s_q=1$),也能锁定 H20 的屋顶线(GQA + MTP,$s_q=2$),同时在 GQA 路径上支持高达 8 路无冗余张量并行。为避免从头预训练,我们将 TransMLA 扩展为 **TransGQLA**,它可将预训练的 GQA 检查点转换为 GQLA 模型;在 LLaMA-3-8B 上,它在 MQA-吸收路径上将每令牌 KV 缓存压缩至 GQA 基线的 **28.125%**,同时在每组分路线上结构化地保留了 GQA 级别的通信量。 GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding Fanxu Meng Institute for Artificial Intelligence, Peking University [email protected] 、分组查询注意力(GQA)、多查询注意力(MQA)、多头潜在注意力(MLA)以及我们提出的组查询潜在注意力(GQLA)。MLA 的联合低秩潜在压缩产生了最小的 KV 缓存,但将解码锁定在单一的 MQA 吸收路径上。GQLA 继承了潜在压缩,并在同一训练权重上额外暴露出一条 GQA 解码路径,因此运行时可以选择最适合目标硬件的路径(第 3.1 节)。) ## 1. 引言 现代大语言模型(LLM)的自回归解码从根本上受到键-值(KV)缓存通信量的瓶颈限制:每个生成的令牌都必须从片外存储器读取整个历史缓存的键和值(Pope 等人,2023;Zadouri 等人,2025)。因此,一系列工作致力于缩小 KV 缓存:多查询注意力(MQA;Shazeer,2019)在所有查询头之间共享一个 KV 头;分组查询注意力(GQA;Ainslie 等人,2023)在每个组内共享一个 KV 头;最近提出的多头潜在注意力(MLA;Liu 等人,2024a)将键和值联合压缩为一个低秩潜在变量,在 DeepSeek-V2/V3 中达到了最先进的 KV 缓存缩减效果(Liu 等人,2024a,b)。 MLA 的一个核心设计特点是,其训练后的权重允许两条代数等价的执行路径:在训练和预填充阶段,潜在变量被扩展回每个头的键和值,注意力以类似 MHA 的形式(计算友好)计算;而在解码阶段,上投影被吸收到查询和输出投影中,使得注意力直接针对潜在变量以类似 MQA 的形式(内存友好)运行。在 NVIDIA H100 上,其 BF16 屋顶线(Williams 等人,2009)在约 295 FLOPs/byte 处达到峰值,采用标准配置($h_q, d_h, r_{kv}, d_h^R$ = (128, 128, 512, 64))的 MQA 吸收路径加上单令牌解码,其算术强度约为 242 FLOPs/byte,刚好低于屋顶线。然而,这种完美的 H100 适配却是 MLA 暴露出的唯一工作点。 ##### MLA 的三个耦合的硬件缺陷。 由于 MLA 结构上被锁定在 MQA 吸收路径: - • **硬件耦合。** 工作点被锚定在 H100 的计算-带宽比率上。受出口限制的 H20 保留了带宽,但计算能力下降了约 7 倍,使其屋顶线降至约 37 FLOPs/byte;此时 MLA 远高于屋顶线,解码变为计算受限(第 4.2 节)。 - • **不利于张量并行。** 吸收形式将每个查询头汇聚到一个共享的潜在 KV 上,因此张量并行必须在每个设备上复制该潜在变量。 - • **不利于 MTP。** 多令牌预测(MTP;Gloeckle 等人,2024;Liu 等人,2024b)使每个额外查询令牌的算术强度翻倍,将 MLA 推至 H100 屋顶线之上,并且在已经计算受限的 H20 上完全没有吞吐量提升。 ##### 组查询潜在注意力(GQLA)。 我们提出 MLA 的一个最小变体(图 1 右侧;图 2),它保留了联合低秩潜在压缩,但将上投影按 $g$ 组进行索引,而不是在所有 $h_q$ 个查询头上复制。训练后的权重然后允许两条代数等价的解码路径,每条路径配一个自然的缓存内容: - • **MQA 吸收路径**(与 MLA 共享):缓存保存潜在变量 $\mathbf{c}^{KV}$ 和共享的 RoPE 键,每令牌 $r_{kv} + d_h^R$ 个元素;所有 $h_q$ 个头直接针对潜在变量进行注意力计算。 - • **GQA 路径**(仅 GQLA 可用):缓存保存按组扩展的 $K_C, V$ 以及共享的 RoPE 键,每令牌 $2g d_h + d_h^R$ 个元素;解码运行标准的 GQA,无需每步潜在扩展。 使用推荐配置 $h_q=128, g=8$ 加上一个 MTP 头,同一组训练权重可以锁定两个屋顶线:H100 + MQA 吸收($s_q=1$)继承了 MLA 在 H100 上的最佳位置,而 H20 + GQA($s_q=2$)落在 H20 的屋顶线上,并且 MTP 恢复了接近理想的吞吐量增益。GQA 路径还支持沿组轴方向高达 8 路无冗余张量并行。路径切换无需重新训练和自定义内核:MQA 吸收重用 MLA 的吸收内核,GQA 重用标准的 GQA 内核。 ##### TransGQLA 与稀疏 GQLA。 为避免从头预训练,我们将 TransMLA(Meng 等人,2026)扩展为 **TransGQLA**,它通过一个针对头合并步骤的特定修改,将预训练的 GQA 检查点转换为 GQLA 模型,该修改使上投影按组而不是按查询头进行索引。我们还描述了一种稀疏注意力扩展:由于 GQLA 在 GQA 路径上的每 KV 头查询比率 $h_q/g = 16$ 与 Tensor Core MMA 瓦片匹配,稀疏 GQLA 在 H20 级别的硬件上保留了 GQA 路径,而稀疏 MLA(Liu 等人,2025)在结构上被锁定在每设备的稀疏 MQA 吸收路径上。 ##### 贡献。 - • 我们识别了 MLA 纯 MQA 吸收设计的三个耦合的硬件缺陷:与 H100 的硬件耦合、丧失沿头轴的张量并行能力、以及在商品化推理 GPU 上无法获得 MTP 增益。 - • 我们引入了 **GQLA**(第 3.1 节),其训练后的权重在同一参数上暴露两条代数等价的解码路径;推荐的 $(h_q, g) = (128, 8)$ 加上一个 MTP 头,在部署时无需重新训练或自定义内核即可同时消除所有三个缺陷。 - • 我们引入了 **TransGQLA**(第 3.2 节),这是对 TransMLA 流水线的一行修改,可将预训练的 GQA 检查点转换为 GQLA 模型,同时保留张量并行,并将设计扩展到细粒度稀疏注意力(第 3.3 节)。 - • 我们给出了屋顶线分析(第 4 节),验证了同一组 GQLA 权重可以锁定 H100 和 H20 的屋顶线,并在 LLaMA-3-8B 上对 TransGQLA 进行了实证验证(第 5 节)。 ## 2. 相关工作 ##### 通过注意力设计减少 KV 缓存。 架构性 KV 缓存缩减的主要家族是通过权衡查询/KV 头的数量:MQA(Shazeer,2019)将所有查询头折叠到单个 KV 头上,GQA(Ainslie 等人,2023)通过每共享一个 KV 头进行插值,而 MLA(Liu 等人,2024a)则通过将键和值联合压缩为一个低秩潜在变量并结合解耦的 RoPE 路径,将这一想法推得更远。系统级别的技术如 FlashAttention(Dao 等人,2022)、分页式 KV 缓存和量化 KV 存储是互补的:它们减少了每字节的成本,但并未改变每令牌缓存足迹的渐进大小。GQLA 停留在架构家族内,继承了 MLA 的潜在压缩,同时重新获得了 MLA 所抛弃的 GQA 执行路径。 ##### 屋顶线驱动的注意力设计。 Zadouri 等人(2025)提出了 H100 上潜在注意力的硬件感知屋顶线研究,并刻画了控制算术强度的设计选择。Pope 等人(2023)和 Gholami 等人(2024)更广泛地论证,随着计算增速快于 HBM 带宽,LLM 推理越来越受到带宽限制。我们的分析(第 4 节)遵循相同的方法,并将其扩展到受出口限制的 H20,以推动硬件自适应路径选择。 ##### 转换预训练的 MHA/GQA 模型。 从头训练新的注意力架构成本高昂,因此近年来一些论文致力于转换现有检查点。TransMLA(Meng 等人,2026)通过两步将 GQA 模型转换为 MLA 模型:首先进行精确的头合并重构,然后进行低秩压缩(RoRoPE/FreqFold/平衡)。MHA2MLA(Ji 等人,2025)在不同的参数化下追求类似的目标。TransGQLA(第 3.2 节)几乎逐字重用 TransMLA 流水线,但在头合并步骤中进行了有针对性的修改,从而保留了 GQA 执行路径和张量并行。 ##### 稀疏与长上下文注意力。 DeepSeek 稀疏注意力(DSA;Liu 等人,2025)将 MLA 扩展为针对长上下文推理的令牌相关的 top-$k$ 选择过去键/值。如第 3.3 节所示,稀疏 MLA 由于 MMA 瓦片约束而结构上被锁定在吸收的 MQA 路径上,而稀疏 GQLA 自然支持两条路径。HISA(Xu 等人,2026)是正交的:它用层次化评分替换 DSA 风格的索引器以加速 top-$k$ 选择本身,并与 GQLA 组合——HISA 加速了“top-$k$ 前”的索引器,而 GQLA 加速了“top-$k$ 后”的注意力。  GQLA 的 GQA 路径。  GQLA 的 MQA 吸收路径。 图 2:GQLA 在单组训练权重上的两条代数等价的解码路径。**左**:GQA 路径从潜在变量实例化 $g$ 个键/值组并运行标准的 GQA 注意力;配合按组扩展的缓存,这是 H20 部署的工作点。**右**:MQA 吸收路径将 $W^{UK}, W^{UV}$ 吸收到查询和输出投影中,使得所有 $h_q$ 个查询头直接针对潜在变量进行注意力计算;配合紧凑的潜在缓存,这是 H100 部署的工作点。两条路径产生数值上相同的输出(第 4.2 节);部署时的选择由目标硬件决定。 ## 3. 方法 ### 3.1 组查询潜在注意力 ##### 架构。 令 $\mathbf{x}_t \in \mathbb{R}^D$ 表示第 $t$ 个令牌的嵌入。一个下投影 $W^{DKV} \in \mathbb{R}^{r_{kv} \times D}$ 将其压缩为低秩潜在变量 $\mathbf{c}_t^{KV}$;上投影 $W^{UK}, W^{UV} \in \mathbb{R}^{g d \times r_{kv}}$ 将潜在变量扩展为每头维度为 $d$ 的 $g$ 个键/值组,与具有 $g$ 组的 GQA 模型的 KV 缓存足迹相匹配。查询类似地通过 $W^{DQ} \in \mathbb{R}^{r_q \times D}$ 和 $W^{UQ} \in \mathbb{R}^{h d \times r_q}$ 分解为 $h$ 个头。位置信息遵循 MLA 的解耦 RoPE 策略:每个头的查询路径 $\mathbf{q}_{t,i}^R \in \mathbb{R}^{d^R}$ 来自 $W^{QR} \in \mathbb{R}^{h d^R \times r_q}$,一个共享的键路径 $\mathbf{k}_t^R \in \mathbb{R}^{d^R}$ 来自 $W^{KR} \in \mathbb{R}^{d^R \times D}$。查询和键的表示如下: $$ \begin{aligned} \mathbf{c}_t^Q &= W^{DQ} \mathbf{x}_t, \\ \mathbf{q}_t^C &= [\mathbf{q}_{t,1}^C; \dots; \mathbf{q}_{t,h}^C] = W^{UQ} \mathbf{c}_t^Q, \\ \mathbf{q}_t^R &= [\mathbf{q}_{t,1}^R; \dots; \mathbf{q}_{t,h}^R] = \text{RoPE}_t (W^{QR} \mathbf{c}_t^Q), \\ \mathbf{q}_{t,i} &= [\mathbf{q}_{t,i}^C; \mathbf{q}_{t,i}^R], \\ \mathbf{c}_t^{KV} &= W^{DKV} \mathbf{x}_t, \\ \mathbf{k}_t^C &= [\mathbf{k}_{t,1}^C; \dots; \mathbf{k}_{t,g}^C] = W^{UK} \mathbf{c}_t^{KV}, \\ \mathbf{k}_t^R &= \text{RoPE}_t (W^{KR} \mathbf{x}_t), \\ \mathbf{k}_{t,i} &= [\mathbf{k}_{t,i}^C; \mathbf{k}_t^R]. \end{aligned} $$ (1) ##### 两条等价的解码路径。 GQLA 在同一组训练权重上暴露两条代数等价的解码路径,它们仅在如何消耗潜在变量 $\mathbf{c}_t^{KV}$ 上有所不同。GQA 路径(式 (2))从潜在变量实例化 $g$ 个键/值组,并对每令牌 $2g d_h + d_h^R$ 个元素的按组扩展缓存运行普通的 GQA 注意力。MQA 吸收路径(式 (3))将 $W^{UK}, W^{UV}$ 吸收到查询和输出投影中,使得潜在变量本身充当单个共享的键和值,针对每令牌 $r_{kv} + d_h^R$ 个元素的紧凑潜在缓存(共享的 RoPE 键跨组存储一次)进行注意力计算。两路径之间的切换仅需在部署时一次性压缩/扩展 KV 缓存,绝不在运行时进行。 ##### GQA 路径 $$ \begin{aligned} \mathbf{v}_t^C &= \dots \end{aligned} $$
相似文章
GQA-{\mu}P: 群组查询注意力的最大参数化更新
本文将最大更新参数化(μP)框架扩展到群组查询注意力(GQA),推导出跨模型架构的超参数迁移的缩放定律。它引入了用于特征学习的谱范数条件,并解决了GQA中低秩权重矩阵的问题。
ART:高效大语言模型解码中的注意力运行时终止
本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力
SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。
LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。