Grouped Query Experts: GQA自注意力上的混合专家模型
摘要
Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。
查看缓存全文
缓存时间: 2026/06/23 13:43
论文页面 - 分组查询专家:GQA自注意力中的混合专家机制
来源:https://huggingface.co/papers/2606.20945
摘要
分组查询专家(GQE)通过根据令牌内容选择性激活查询头,同时保持分组查询注意力的键值缓存优势,从而提升了Transformer的效率。
自注意力(https://huggingface.co/papers?q=Self-attention)是Transformer(https://huggingface.co/papers?q=Transformer)性能的核心,在长上下文长度下往往成为Transformer(https://huggingface.co/papers?q=Transformer)最昂贵的部分,因为其成对令牌交互(https://huggingface.co/papers?q=token%20interactions)的计算量随序列长度呈二次方增长。标准密集注意力还会对每个令牌应用相同的注意力头(https://huggingface.co/papers?q=attention%20heads),而不考虑令牌的难度或信息含量。这种均匀激活会浪费计算资源,尤其在序列变长、注意力成本(https://huggingface.co/papers?q=attention%20cost)迅速增加时更为明显。我们提出了分组查询专家(GQE),这是一种在分组查询注意力(https://huggingface.co/papers?q=grouped-query%20attention)(GQA)之上构建的混合专家(https://huggingface.co/papers?q=mixture-of-experts)层。在每个GQA分组内,路由器(https://huggingface.co/papers?q=router)为每个令牌选择k个查询头专家(https://huggingface.co/papers?q=query-head%20experts),而所有键值(KV)头保持密集且不变。因此,GQE保留了GQA的KV缓存优势,仅减少活跃的查询头计算量。在250M参数规模下,以固定300亿令牌预算训练,GQE在下游准确率上与全活跃的GQA基线持平,同时每个令牌只激活一半的查询头。
查看arXiv页面(https://arxiv.org/abs/2606.20945)查看PDF(https://arxiv.org/pdf/2606.20945)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.20945)
在您的智能体中获取此论文:
hf papers read 2606\.20945
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。
引用此论文的Space应用0
没有Space应用关联此论文
在Space应用的README.md中引用arxiv.org/abs/2606.20945即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将本论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
GQA-{\mu}P: 群组查询注意力的最大参数化更新
本文将最大更新参数化(μP)框架扩展到群组查询注意力(GQA),推导出跨模型架构的超参数迁移的缩放定律。它引入了用于特征学习的谱范数条件,并解决了GQA中低秩权重矩阵的问题。
GQLA: 面向硬件自适应大语言模型解码的分组查询潜在注意力
GQLA 提出了对多头潜在注意力(MLA)的极小修改,在相同训练权重上同时暴露 MQA 吸收路径和 GQA 路径,从而无需重新训练即可实现硬件自适应解码。该方法压缩 KV 缓存并支持张量并行性,通过将 LLaMA-3-8B 从 GQA 转换为 GQLA 得到验证。
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。
@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支,用于为每组选择 top k 个 KV 块……
Minimax 的这篇论文介绍了 MiniMax Sparse Attention,它向 GQA 添加了一个微小的索引分支,用于为每组选择 top-k KV 块,从而实现 GPU 原生的稀疏性,并在一个 109B 多模态 MoE 上实现了指数级的加速。
@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…
一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。