Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers 2026/06/18 00:00 论文

mixture-of-experts grouped-query-attention transformer efficiency attention query-heads routing

摘要

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率，每个token有选择地激活查询头，同时保持键值缓存优势，在2.5亿参数规模下，以一半的查询头计算量达到与基线相同的准确率。

自注意力是Transformer性能的核心，并且在长上下文长度下通常是Transformer中最昂贵的部分，因为其成对token交互的计算量随序列长度呈二次方增长。标准密集注意力也对每个token应用相同的注意力头集合，无论token的难度或信息内容如何。这种统一的激活会浪费计算资源，尤其当序列变长且注意力成本快速增加时。我们提出了Grouped Query Experts (GQE)，即分组查询注意力（GQA）之上的混合专家层。在每个GQA分组内，一个路由器为每个token选择k个查询头专家，而所有键值（KV）头保持密集且不变。因此，GQE保留了GQA的KV缓存优势，并且只减少活跃查询头的计算量。在固定的300亿token预算和2.5亿参数规模下，GQE在下游任务准确率上与全激活的GQA基线持平，同时每个token只激活一半的查询头。

查看原文

查看缓存全文

缓存时间: 2026/06/23 13:43

论文页面 - 分组查询专家：GQA自注意力中的混合专家机制

来源：https://huggingface.co/papers/2606.20945

摘要

分组查询专家（GQE）通过根据令牌内容选择性激活查询头，同时保持分组查询注意力的键值缓存优势，从而提升了Transformer的效率。

自注意力（https://huggingface.co/papers?q=Self-attention）是Transformer（https://huggingface.co/papers?q=Transformer）性能的核心，在长上下文长度下往往成为Transformer（https://huggingface.co/papers?q=Transformer）最昂贵的部分，因为其成对令牌交互（https://huggingface.co/papers?q=token%20interactions）的计算量随序列长度呈二次方增长。标准密集注意力还会对每个令牌应用相同的注意力头（https://huggingface.co/papers?q=attention%20heads），而不考虑令牌的难度或信息含量。这种均匀激活会浪费计算资源，尤其在序列变长、注意力成本（https://huggingface.co/papers?q=attention%20cost）迅速增加时更为明显。我们提出了分组查询专家（GQE），这是一种在分组查询注意力（https://huggingface.co/papers?q=grouped-query%20attention）（GQA）之上构建的混合专家（https://huggingface.co/papers?q=mixture-of-experts）层。在每个GQA分组内，路由器（https://huggingface.co/papers?q=router）为每个令牌选择k个查询头专家（https://huggingface.co/papers?q=query-head%20experts），而所有键值（KV）头保持密集且不变。因此，GQE保留了GQA的KV缓存优势，仅减少活跃的查询头计算量。在250M参数规模下，以固定300亿令牌预算训练，GQE在下游准确率上与全活跃的GQA基线持平，同时每个令牌只激活一半的查询头。

查看arXiv页面（https://arxiv.org/abs/2606.20945）查看PDF（https://arxiv.org/pdf/2606.20945）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.20945）

在您的智能体中获取此论文：

hf papers read 2606\.20945

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。

引用此论文的Space应用0

没有Space应用关联此论文

在Space应用的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将本论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接。

Grouped Query Experts: GQA自注意力上的混合专家模型

论文页面 - 分组查询专家：GQA自注意力中的混合专家机制

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space应用0

包含此论文的收藏集0

相似文章

GQA-{\mu}P: 群组查询注意力的最大参数化更新

GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

Transformer 中的专家混合模型 (MoEs)

@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块……

@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

提交意见反馈