@rohanpaul_ai: 这篇论文通过让每个token只使用它需要的查询头，使长上下文注意力更便宜、更快。Rea…

X AI KOLs Following 2026/06/27 23:13 论文

long-context attention grouped-query-experts mixture-of-experts efficiency sparse-attention language-models

摘要

该论文引入了Grouped Query Experts，通过在分组查询注意力基础上将每个token路由到少数几个查询头专家，改进了长上下文注意力，在匹配准确率的同时实现了1.7-1.8倍的预填充速度提升。

这篇论文通过让每个token只使用它需要的查询头，使长上下文注意力更便宜、更快。当上下文长度变大时，预填充速度达到了约1.7到1.8倍。标准注意力机制让每个token都经过所有注意力头，即使某些头对该token没有用处。该论文提出的方法称为Grouped Query Experts，它保留了分组查询注意力中的正常键值缓存，但将每个token路由到少数几个查询头专家。 Grouped Query Experts 建立在分组查询注意力之上，后者是许多长上下文模型已经用来降低键值缓存成本的技巧。这就像给模型提供许多可能的注意力模式，同时让每个token只为其看似有用的小集合付费。作者在300亿个token上训练了2.5亿参数模型，并将该方法与标准分组查询注意力基线进行了比较。最佳版本匹配了基线的平均准确率，56.04对比55.86，同时只使用了16个查询注意力计算中的9个。这表明，在分组查询注意力内部可以将注意力稀疏化而不损害质量，但前提是路由器获得强烈的学习信号，并且有一个共享头始终保持开启。 ---- 链接 – arxiv. org/abs/2606.20945 标题: "Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention"

查看原文

查看缓存全文

缓存时间: 2026/06/28 12:00

这篇论文通过让每个词元仅使用其需要的查询头，使长上下文注意力更廉价、更快速。

当上下文长度变大时，预填充速度提升了约1.7至1.8倍。

标准注意力机制让每个词元都经过所有注意力头，即使某些头对该词元没有用处。

论文提出的思路称为“分组查询专家”（Grouped Query Experts），它保留了分组查询注意力中的常规键值缓存，但将每个词元仅路由到少数几个查询头专家。

分组查询专家建立在分组查询注意力之上，后者已是许多长上下文模型用来降低键值缓存成本的技巧。

这相当于为模型提供多种可能的注意力模式，同时让每个词元仅为其看似有用的一小组模式付费。

作者在300亿词元上训练了2.5亿参数的模型，并将该方法与常规的分组查询注意力基线进行比较。

最优版本在平均准确率上匹配基线（56.04对比55.86），同时仅使用16个查询注意力计算中的9个。

这表明在分组查询注意力内部可以稀疏化注意力而不损害质量，但前提是路由器获得强烈的学习信号，且一个共享头始终保持开启。

链接 – arxiv.org/abs/2606.20945

标题： “Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention”

相似文章

Grouped Query Experts: GQA自注意力上的混合专家模型

Hugging Face Daily Papers

Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率，每个token有选择地激活查询头，同时保持键值缓存优势，在2.5亿参数规模下，以一半的查询头计算量达到与基线相同的准确率。

@rohanpaul_ai：新阿里与南京大学论文声称百万token预填充速度可提升9.36倍（与FlashAttention-2相比）……

X AI KOLs Timeline

来自阿里巴巴和南京大学的新论文介绍了RTPurbo，这是一种通过仅在必要处选择性应用完整注意力机制（无需重新训练模型）将百万token预填充速度相比FlashAttention-2提升最多9.36倍的方法。

Attention Expansion: Enhancing Keyphrase Extraction from Long Documents with Attention-Augmented Contextualized Embeddings

arXiv cs.CL

本文提出了一种注意力扩展机制，通过使用上下文外信息增强PLM token表示，提升长文档的关键词提取性能，在不需全文档注意力或昂贵LLM推理的情况下，持续优于最先进模型。

@NousResearch: 今天我们发布Lighthouse Attention，一种基于选择的分层注意力机制，用于长上下文预训练，实现…

X AI KOLs Following

NousResearch发布Lighthouse Attention，一种基于选择的分层注意力机制，在98K上下文下实现1.4-1.7倍实际时间加速，在单个B200上的512K上下文下，其前向/后向传播比标准注意力快约17倍，并在530M参数的Llama-3模型上跨50B tokens进行了验证。

Subquadratic AI 推出 SubQ-1.1-Small，一款采用 Smart Sparse Attention 的新模型

Reddit r/singularity

Subquadratic AI 推出 SubQ-1.1-Small，该模型利用 Smart Sparse Attention 在长达 1200 万 token 的上下文中实现近乎完美的长上下文检索，注意力计算量减少高达 1000 倍。它兼顾了长上下文优化与强大的通用推理能力，在 NIAH 和 RULER 等基准测试中优于基线模型。