@rohanpaul_ai: 这篇论文通过让每个token只使用它需要的查询头,使长上下文注意力更便宜、更快。Rea…
摘要
该论文引入了Grouped Query Experts,通过在分组查询注意力基础上将每个token路由到少数几个查询头专家,改进了长上下文注意力,在匹配准确率的同时实现了1.7-1.8倍的预填充速度提升。
查看缓存全文
缓存时间: 2026/06/28 12:00
这篇论文通过让每个词元仅使用其需要的查询头,使长上下文注意力更廉价、更快速。
当上下文长度变大时,预填充速度提升了约1.7至1.8倍。
标准注意力机制让每个词元都经过所有注意力头,即使某些头对该词元没有用处。
论文提出的思路称为“分组查询专家”(Grouped Query Experts),它保留了分组查询注意力中的常规键值缓存,但将每个词元仅路由到少数几个查询头专家。
分组查询专家建立在分组查询注意力之上,后者已是许多长上下文模型用来降低键值缓存成本的技巧。
这相当于为模型提供多种可能的注意力模式,同时让每个词元仅为其看似有用的一小组模式付费。
作者在300亿词元上训练了2.5亿参数的模型,并将该方法与常规的分组查询注意力基线进行比较。
最优版本在平均准确率上匹配基线(56.04对比55.86),同时仅使用16个查询注意力计算中的9个。
这表明在分组查询注意力内部可以稀疏化注意力而不损害质量,但前提是路由器获得强烈的学习信号,且一个共享头始终保持开启。
链接 – arxiv.org/abs/2606.20945
标题: “Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention”
相似文章
Grouped Query Experts: GQA自注意力上的混合专家模型
Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。
@rohanpaul_ai:新阿里与南京大学论文声称百万token预填充速度可提升9.36倍(与FlashAttention-2相比)……
来自阿里巴巴和南京大学的新论文介绍了RTPurbo,这是一种通过仅在必要处选择性应用完整注意力机制(无需重新训练模型)将百万token预填充速度相比FlashAttention-2提升最多9.36倍的方法。
Attention Expansion: Enhancing Keyphrase Extraction from Long Documents with Attention-Augmented Contextualized Embeddings
本文提出了一种注意力扩展机制,通过使用上下文外信息增强PLM token表示,提升长文档的关键词提取性能,在不需全文档注意力或昂贵LLM推理的情况下,持续优于最先进模型。
@NousResearch: 今天我们发布Lighthouse Attention,一种基于选择的分层注意力机制,用于长上下文预训练,实现…
NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。
Subquadratic AI 推出 SubQ-1.1-Small,一款采用 Smart Sparse Attention 的新模型
Subquadratic AI 推出 SubQ-1.1-Small,该模型利用 Smart Sparse Attention 在长达 1200 万 token 的上下文中实现近乎完美的长上下文检索,注意力计算量减少高达 1000 倍。它兼顾了长上下文优化与强大的通用推理能力,在 NIAH 和 RULER 等基准测试中优于基线模型。