GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

arXiv cs.LG 2026/05/18 04:00 论文

摘要

GQLA 提出了对多头潜在注意力（MLA）的极小修改，在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径，从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性，通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。

arXiv:2605.15250v1 Announce Type: new 摘要：多头潜在注意力（MLA）是 DeepSeek-V2/V3 使用的注意力机制，它将键和值联合压缩为低秩潜在表示，几乎完美匹配 H100 的屋顶线。然而，其训练权重仅暴露一条解码路径——一种吸收后的 MQA 形式——这使得高效推理依赖于 H100 级的计算带宽比，丧失了沿头维度的张量并行性，并且在出口受限的 H20 等商用推理 GPU 上无法获得多令牌预测（MTP）收益。我们提出分组查询潜在注意力（GQLA），这是对 MLA 的最小修改，其训练权重在相同参数上暴露两条代数等价的解码路径：一条与 MLA 相同的 MQA 吸收路径，以及一条具有每组扩展缓存的 GQA 路径。运行时选择匹配目标硬件的路径——无需重新训练，无需自定义内核——因此一套 GQLA 权重即可同时确定 H100（MQA 吸收，s_q=1）和 H20（GQA + MTP，s_q=2）的屋顶线，同时在 GQA 路径上支持高达 8 路零冗余张量并行性。为免从头预训练，我们将 TransMLA 扩展为 TransGQLA，可将预训练的 GQA 检查点转换为 GQLA 模型；在 LLaMA-3-8B 上，它在 MQA 吸收路径上将每令牌 KV 缓存压缩至 GQA 基线的 28.125%，同时在每组路径上结构保留 GQA 级别的流量。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:38

# 组查询潜在注意力：面向硬件自适应的大语言模型解码
来源：https://arxiv.org/html/2605.15250

###### 摘要

多头潜在注意力（MLA）——DeepSeek-V2/V3 中使用的注意力机制——将键和值联合压缩为一个低秩潜在变量，并几乎完美地匹配了 H100 的屋顶线（roofline）。然而，其训练后的权重仅暴露出一条解码路径——一种吸收式的 MQA 形式——这使得高效推理被绑定到 H100 级别的计算-带宽比率上，丧失了沿头轴方向的张量并行能力，并且在面向商品化推理 GPU（如受出口限制的 H20）上无法获得多令牌预测（MTP）的增益。我们提出**组查询潜在注意力（Group-Query Latent Attention, GQLA）**，它是对 MLA 的最小化修改，其训练后的权重在同一组参数上暴露出了**两条**代数等价的解码路径：一条与 MLA 相同的 MQA 吸收路径，以及一条具有每组扩展缓存的 GQA 路径。运行时可以根据目标硬件选择路径——无需重新训练，无需自定义内核——因此单组 GQLA 权重既能锁定 H100 的屋顶线（MQA-吸收，$s_q=1$），也能锁定 H20 的屋顶线（GQA + MTP，$s_q=2$），同时在 GQA 路径上支持高达 8 路无冗余张量并行。为避免从头预训练，我们将 TransMLA 扩展为 **TransGQLA**，它可将预训练的 GQA 检查点转换为 GQLA 模型；在 LLaMA-3-8B 上，它在 MQA-吸收路径上将每令牌 KV 缓存压缩至 GQA 基线的 **28.125%**，同时在每组分路线上结构化地保留了 GQA 级别的通信量。

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Fanxu Meng
Institute for Artificial Intelligence, Peking University
[email protected]

![参见标题](Figure 1: 多头注意力（MHA）、分组查询注意力（GQA）、多查询注意力（MQA）、多头潜在注意力（MLA）以及我们提出的组查询潜在注意力（GQLA）。MLA 的联合低秩潜在压缩产生了最小的 KV 缓存，但将解码锁定在单一的 MQA 吸收路径上。GQLA 继承了潜在压缩，并在同一训练权重上额外暴露出一条 GQA 解码路径，因此运行时可以选择最适合目标硬件的路径（第 3.1 节）。)

## 1. 引言

现代大语言模型（LLM）的自回归解码从根本上受到键-值（KV）缓存通信量的瓶颈限制：每个生成的令牌都必须从片外存储器读取整个历史缓存的键和值（Pope 等人，2023；Zadouri 等人，2025）。因此，一系列工作致力于缩小 KV 缓存：多查询注意力（MQA；Shazeer，2019）在所有查询头之间共享一个 KV 头；分组查询注意力（GQA；Ainslie 等人，2023）在每个组内共享一个 KV 头；最近提出的多头潜在注意力（MLA；Liu 等人，2024a）将键和值联合压缩为一个低秩潜在变量，在 DeepSeek-V2/V3 中达到了最先进的 KV 缓存缩减效果（Liu 等人，2024a，b）。

MLA 的一个核心设计特点是，其训练后的权重允许两条代数等价的执行路径：在训练和预填充阶段，潜在变量被扩展回每个头的键和值，注意力以类似 MHA 的形式（计算友好）计算；而在解码阶段，上投影被吸收到查询和输出投影中，使得注意力直接针对潜在变量以类似 MQA 的形式（内存友好）运行。在 NVIDIA H100 上，其 BF16 屋顶线（Williams 等人，2009）在约 295 FLOPs/byte 处达到峰值，采用标准配置（$h_q, d_h, r_{kv}, d_h^R$ = (128, 128, 512, 64)）的 MQA 吸收路径加上单令牌解码，其算术强度约为 242 FLOPs/byte，刚好低于屋顶线。然而，这种完美的 H100 适配却是 MLA 暴露出的唯一工作点。

##### MLA 的三个耦合的硬件缺陷。

由于 MLA 结构上被锁定在 MQA 吸收路径：

- • **硬件耦合。** 工作点被锚定在 H100 的计算-带宽比率上。受出口限制的 H20 保留了带宽，但计算能力下降了约 7 倍，使其屋顶线降至约 37 FLOPs/byte；此时 MLA 远高于屋顶线，解码变为计算受限（第 4.2 节）。
- • **不利于张量并行。** 吸收形式将每个查询头汇聚到一个共享的潜在 KV 上，因此张量并行必须在每个设备上复制该潜在变量。
- • **不利于 MTP。** 多令牌预测（MTP；Gloeckle 等人，2024；Liu 等人，2024b）使每个额外查询令牌的算术强度翻倍，将 MLA 推至 H100 屋顶线之上，并且在已经计算受限的 H20 上完全没有吞吐量提升。

##### 组查询潜在注意力（GQLA）。

我们提出 MLA 的一个最小变体（图 1 右侧；图 2），它保留了联合低秩潜在压缩，但将上投影按 $g$ 组进行索引，而不是在所有 $h_q$ 个查询头上复制。训练后的权重然后允许两条代数等价的解码路径，每条路径配一个自然的缓存内容：

- • **MQA 吸收路径**（与 MLA 共享）：缓存保存潜在变量 $\mathbf{c}^{KV}$ 和共享的 RoPE 键，每令牌 $r_{kv} + d_h^R$ 个元素；所有 $h_q$ 个头直接针对潜在变量进行注意力计算。
- • **GQA 路径**（仅 GQLA 可用）：缓存保存按组扩展的 $K_C, V$ 以及共享的 RoPE 键，每令牌 $2g d_h + d_h^R$ 个元素；解码运行标准的 GQA，无需每步潜在扩展。

使用推荐配置 $h_q=128, g=8$ 加上一个 MTP 头，同一组训练权重可以锁定两个屋顶线：H100 + MQA 吸收（$s_q=1$）继承了 MLA 在 H100 上的最佳位置，而 H20 + GQA（$s_q=2$）落在 H20 的屋顶线上，并且 MTP 恢复了接近理想的吞吐量增益。GQA 路径还支持沿组轴方向高达 8 路无冗余张量并行。路径切换无需重新训练和自定义内核：MQA 吸收重用 MLA 的吸收内核，GQA 重用标准的 GQA 内核。

##### TransGQLA 与稀疏 GQLA。

为避免从头预训练，我们将 TransMLA（Meng 等人，2026）扩展为 **TransGQLA**，它通过一个针对头合并步骤的特定修改，将预训练的 GQA 检查点转换为 GQLA 模型，该修改使上投影按组而不是按查询头进行索引。我们还描述了一种稀疏注意力扩展：由于 GQLA 在 GQA 路径上的每 KV 头查询比率 $h_q/g = 16$ 与 Tensor Core MMA 瓦片匹配，稀疏 GQLA 在 H20 级别的硬件上保留了 GQA 路径，而稀疏 MLA（Liu 等人，2025）在结构上被锁定在每设备的稀疏 MQA 吸收路径上。

##### 贡献。

- • 我们识别了 MLA 纯 MQA 吸收设计的三个耦合的硬件缺陷：与 H100 的硬件耦合、丧失沿头轴的张量并行能力、以及在商品化推理 GPU 上无法获得 MTP 增益。
- • 我们引入了 **GQLA**（第 3.1 节），其训练后的权重在同一参数上暴露两条代数等价的解码路径；推荐的 $(h_q, g) = (128, 8)$ 加上一个 MTP 头，在部署时无需重新训练或自定义内核即可同时消除所有三个缺陷。
- • 我们引入了 **TransGQLA**（第 3.2 节），这是对 TransMLA 流水线的一行修改，可将预训练的 GQA 检查点转换为 GQLA 模型，同时保留张量并行，并将设计扩展到细粒度稀疏注意力（第 3.3 节）。
- • 我们给出了屋顶线分析（第 4 节），验证了同一组 GQLA 权重可以锁定 H100 和 H20 的屋顶线，并在 LLaMA-3-8B 上对 TransGQLA 进行了实证验证（第 5 节）。

## 2. 相关工作

##### 通过注意力设计减少 KV 缓存。

架构性 KV 缓存缩减的主要家族是通过权衡查询/KV 头的数量：MQA（Shazeer，2019）将所有查询头折叠到单个 KV 头上，GQA（Ainslie 等人，2023）通过每共享一个 KV 头进行插值，而 MLA（Liu 等人，2024a）则通过将键和值联合压缩为一个低秩潜在变量并结合解耦的 RoPE 路径，将这一想法推得更远。系统级别的技术如 FlashAttention（Dao 等人，2022）、分页式 KV 缓存和量化 KV 存储是互补的：它们减少了每字节的成本，但并未改变每令牌缓存足迹的渐进大小。GQLA 停留在架构家族内，继承了 MLA 的潜在压缩，同时重新获得了 MLA 所抛弃的 GQA 执行路径。

##### 屋顶线驱动的注意力设计。

Zadouri 等人（2025）提出了 H100 上潜在注意力的硬件感知屋顶线研究，并刻画了控制算术强度的设计选择。Pope 等人（2023）和 Gholami 等人（2024）更广泛地论证，随着计算增速快于 HBM 带宽，LLM 推理越来越受到带宽限制。我们的分析（第 4 节）遵循相同的方法，并将其扩展到受出口限制的 H20，以推动硬件自适应路径选择。

##### 转换预训练的 MHA/GQA 模型。

从头训练新的注意力架构成本高昂，因此近年来一些论文致力于转换现有检查点。TransMLA（Meng 等人，2026）通过两步将 GQA 模型转换为 MLA 模型：首先进行精确的头合并重构，然后进行低秩压缩（RoRoPE/FreqFold/平衡）。MHA2MLA（Ji 等人，2025）在不同的参数化下追求类似的目标。TransGQLA（第 3.2 节）几乎逐字重用 TransMLA 流水线，但在头合并步骤中进行了有针对性的修改，从而保留了 GQA 执行路径和张量并行。

##### 稀疏与长上下文注意力。

DeepSeek 稀疏注意力（DSA；Liu 等人，2025）将 MLA 扩展为针对长上下文推理的令牌相关的 top-$k$ 选择过去键/值。如第 3.3 节所示，稀疏 MLA 由于 MMA 瓦片约束而结构上被锁定在吸收的 MQA 路径上，而稀疏 GQLA 自然支持两条路径。HISA（Xu 等人，2026）是正交的：它用层次化评分替换 DSA 风格的索引器以加速 top-$k$ 选择本身，并与 GQLA 组合——HISA 加速了“top-$k$ 前”的索引器，而 GQLA 加速了“top-$k$ 后”的注意力。

![参见标题](a) GQLA 的 GQA 路径。
![参见标题](b) GQLA 的 MQA 吸收路径。

图 2：GQLA 在单组训练权重上的两条代数等价的解码路径。**左**：GQA 路径从潜在变量实例化 $g$ 个键/值组并运行标准的 GQA 注意力；配合按组扩展的缓存，这是 H20 部署的工作点。**右**：MQA 吸收路径将 $W^{UK}, W^{UV}$ 吸收到查询和输出投影中，使得所有 $h_q$ 个查询头直接针对潜在变量进行注意力计算；配合紧凑的潜在缓存，这是 H100 部署的工作点。两条路径产生数值上相同的输出（第 4.2 节）；部署时的选择由目标硬件决定。

## 3. 方法

### 3.1 组查询潜在注意力

##### 架构。

令 $\mathbf{x}_t \in \mathbb{R}^D$ 表示第 $t$ 个令牌的嵌入。一个下投影 $W^{DKV} \in \mathbb{R}^{r_{kv} \times D}$ 将其压缩为低秩潜在变量 $\mathbf{c}_t^{KV}$；上投影 $W^{UK}, W^{UV} \in \mathbb{R}^{g d \times r_{kv}}$ 将潜在变量扩展为每头维度为 $d$ 的 $g$ 个键/值组，与具有 $g$ 组的 GQA 模型的 KV 缓存足迹相匹配。查询类似地通过 $W^{DQ} \in \mathbb{R}^{r_q \times D}$ 和 $W^{UQ} \in \mathbb{R}^{h d \times r_q}$ 分解为 $h$ 个头。位置信息遵循 MLA 的解耦 RoPE 策略：每个头的查询路径 $\mathbf{q}_{t,i}^R \in \mathbb{R}^{d^R}$ 来自 $W^{QR} \in \mathbb{R}^{h d^R \times r_q}$，一个共享的键路径 $\mathbf{k}_t^R \in \mathbb{R}^{d^R}$ 来自 $W^{KR} \in \mathbb{R}^{d^R \times D}$。查询和键的表示如下：

$$
\begin{aligned}
\mathbf{c}_t^Q &= W^{DQ} \mathbf{x}_t, \\
\mathbf{q}_t^C &= [\mathbf{q}_{t,1}^C; \dots; \mathbf{q}_{t,h}^C] = W^{UQ} \mathbf{c}_t^Q, \\
\mathbf{q}_t^R &= [\mathbf{q}_{t,1}^R; \dots; \mathbf{q}_{t,h}^R] = \text{RoPE}_t (W^{QR} \mathbf{c}_t^Q), \\
\mathbf{q}_{t,i} &= [\mathbf{q}_{t,i}^C; \mathbf{q}_{t,i}^R], \\
\mathbf{c}_t^{KV} &= W^{DKV} \mathbf{x}_t, \\
\mathbf{k}_t^C &= [\mathbf{k}_{t,1}^C; \dots; \mathbf{k}_{t,g}^C] = W^{UK} \mathbf{c}_t^{KV}, \\
\mathbf{k}_t^R &= \text{RoPE}_t (W^{KR} \mathbf{x}_t), \\
\mathbf{k}_{t,i} &= [\mathbf{k}_{t,i}^C; \mathbf{k}_t^R].
\end{aligned}
$$

(1)

##### 两条等价的解码路径。

GQLA 在同一组训练权重上暴露两条代数等价的解码路径，它们仅在如何消耗潜在变量 $\mathbf{c}_t^{KV}$ 上有所不同。GQA 路径（式 (2)）从潜在变量实例化 $g$ 个键/值组，并对每令牌 $2g d_h + d_h^R$ 个元素的按组扩展缓存运行普通的 GQA 注意力。MQA 吸收路径（式 (3)）将 $W^{UK}, W^{UV}$ 吸收到查询和输出投影中，使得潜在变量本身充当单个共享的键和值，针对每令牌 $r_{kv} + d_h^R$ 个元素的紧凑潜在缓存（共享的 RoPE 键跨组存储一次）进行注意力计算。两路径之间的切换仅需在部署时一次性压缩/扩展 KV 缓存，绝不在运行时进行。

##### GQA 路径

$$
\begin{aligned}
\mathbf{v}_t^C &= \dots
\end{aligned}
$$

GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

相似文章

GQA-{\mu}P: 群组查询注意力的最大参数化更新

ART：高效大语言模型解码中的注意力运行时终止

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

提交意见反馈