@rohanpaul_ai: 这篇论文通过让每个token只使用它需要的查询头,使长上下文注意力更便宜、更快。Rea…

X AI KOLs Following 论文

摘要

该论文引入了Grouped Query Experts,通过在分组查询注意力基础上将每个token路由到少数几个查询头专家,改进了长上下文注意力,在匹配准确率的同时实现了1.7-1.8倍的预填充速度提升。

这篇论文通过让每个token只使用它需要的查询头,使长上下文注意力更便宜、更快。 当上下文长度变大时,预填充速度达到了约1.7到1.8倍。 标准注意力机制让每个token都经过所有注意力头,即使某些头对该token没有用处。 该论文提出的方法称为Grouped Query Experts,它保留了分组查询注意力中的正常键值缓存,但将每个token路由到少数几个查询头专家。 Grouped Query Experts 建立在分组查询注意力之上,后者是许多长上下文模型已经用来降低键值缓存成本的技巧。 这就像给模型提供许多可能的注意力模式,同时让每个token只为其看似有用的小集合付费。 作者在300亿个token上训练了2.5亿参数模型,并将该方法与标准分组查询注意力基线进行了比较。 最佳版本匹配了基线的平均准确率,56.04对比55.86,同时只使用了16个查询注意力计算中的9个。 这表明,在分组查询注意力内部可以将注意力稀疏化而不损害质量,但前提是路由器获得强烈的学习信号,并且有一个共享头始终保持开启。 ---- 链接 – arxiv. org/abs/2606.20945 标题: "Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention"
查看原文
查看缓存全文

缓存时间: 2026/06/28 12:00

这篇论文通过让每个词元仅使用其需要的查询头,使长上下文注意力更廉价、更快速。

当上下文长度变大时,预填充速度提升了约1.7至1.8倍。

标准注意力机制让每个词元都经过所有注意力头,即使某些头对该词元没有用处。

论文提出的思路称为“分组查询专家”(Grouped Query Experts),它保留了分组查询注意力中的常规键值缓存,但将每个词元仅路由到少数几个查询头专家。

分组查询专家建立在分组查询注意力之上,后者已是许多长上下文模型用来降低键值缓存成本的技巧。

这相当于为模型提供多种可能的注意力模式,同时让每个词元仅为其看似有用的一小组模式付费。

作者在300亿词元上训练了2.5亿参数的模型,并将该方法与常规的分组查询注意力基线进行比较。

最优版本在平均准确率上匹配基线(56.04对比55.86),同时仅使用16个查询注意力计算中的9个。

这表明在分组查询注意力内部可以稀疏化注意力而不损害质量,但前提是路由器获得强烈的学习信号,且一个共享头始终保持开启。


链接 – arxiv.org/abs/2606.20945

标题: “Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention”

相似文章

Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。