Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers 论文

摘要

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。

自注意力是Transformer性能的核心,并且在长上下文长度下通常是Transformer中最昂贵的部分,因为其成对token交互的计算量随序列长度呈二次方增长。标准密集注意力也对每个token应用相同的注意力头集合,无论token的难度或信息内容如何。这种统一的激活会浪费计算资源,尤其当序列变长且注意力成本快速增加时。我们提出了Grouped Query Experts (GQE),即分组查询注意力(GQA)之上的混合专家层。在每个GQA分组内,一个路由器为每个token选择k个查询头专家,而所有键值(KV)头保持密集且不变。因此,GQE保留了GQA的KV缓存优势,并且只减少活跃查询头的计算量。在固定的300亿token预算和2.5亿参数规模下,GQE在下游任务准确率上与全激活的GQA基线持平,同时每个token只激活一半的查询头。
查看原文
查看缓存全文

缓存时间: 2026/06/23 13:43

论文页面 - 分组查询专家:GQA自注意力中的混合专家机制

来源:https://huggingface.co/papers/2606.20945

摘要

分组查询专家(GQE)通过根据令牌内容选择性激活查询头,同时保持分组查询注意力的键值缓存优势,从而提升了Transformer的效率。

自注意力(https://huggingface.co/papers?q=Self-attention)是Transformer(https://huggingface.co/papers?q=Transformer)性能的核心,在长上下文长度下往往成为Transformer(https://huggingface.co/papers?q=Transformer)最昂贵的部分,因为其成对令牌交互(https://huggingface.co/papers?q=token%20interactions)的计算量随序列长度呈二次方增长。标准密集注意力还会对每个令牌应用相同的注意力头(https://huggingface.co/papers?q=attention%20heads),而不考虑令牌的难度或信息含量。这种均匀激活会浪费计算资源,尤其在序列变长、注意力成本(https://huggingface.co/papers?q=attention%20cost)迅速增加时更为明显。我们提出了分组查询专家(GQE),这是一种在分组查询注意力(https://huggingface.co/papers?q=grouped-query%20attention)(GQA)之上构建的混合专家(https://huggingface.co/papers?q=mixture-of-experts)层。在每个GQA分组内,路由器(https://huggingface.co/papers?q=router)为每个令牌选择k个查询头专家(https://huggingface.co/papers?q=query-head%20experts),而所有键值(KV)头保持密集且不变。因此,GQE保留了GQA的KV缓存优势,仅减少活跃的查询头计算量。在250M参数规模下,以固定300亿令牌预算训练,GQE在下游准确率上与全活跃的GQA基线持平,同时每个令牌只激活一半的查询头。

查看arXiv页面(https://arxiv.org/abs/2606.20945)查看PDF(https://arxiv.org/pdf/2606.20945)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20945)

在您的智能体中获取此论文:

hf papers read 2606\.20945

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。

引用此论文的Space应用0

没有Space应用关联此论文

在Space应用的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将本论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

GQA-{\mu}P: 群组查询注意力的最大参数化更新

arXiv cs.LG

本文将最大更新参数化(μP)框架扩展到群组查询注意力(GQA),推导出跨模型架构的超参数迁移的缩放定律。它引入了用于特征学习的谱范数条件,并解决了GQA中低秩权重矩阵的问题。

GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力

arXiv cs.LG

GQLA 提出了对多头潜在注意力(MLA)的极小修改,在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径,从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性,通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。