@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支,用于为每组选择 top k 个 KV 块……

X AI KOLs Timeline 论文

摘要

Minimax 的这篇论文介绍了 MiniMax Sparse Attention,它向 GQA 添加了一个微小的索引分支,用于为每组选择 top-k KV 块,从而实现 GPU 原生的稀疏性,并在一个 109B 多模态 MoE 上实现了指数级的加速。

"MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支,用于为每组选择 top k 个 KV 块,然后仅对这些块执行精确的 softmax,从而使稀疏性成为 GPU 原生,并提供了无指数计算的 TopK 和 KV 外稀疏内核。 在一个 109B 多模态 MoE 上,它保持了密集 GQA 的质量,同时将 1M 上下文注意力计算量减少了 28.4 倍,预填充速度提升 14.2 倍,解码速度提升 7.6 倍。
查看原文
查看缓存全文

缓存时间: 2026/06/14 07:39

“MiniMax Sparse Attention”

这篇来自 MiniMax 的论文在 GQA 中引入了一个微型索引分支,该分支为每组选取 Top K 个 KV 块,然后仅对这些块执行精确的 softmax,从而使得稀疏性对 GPU 原生,同时实现了免 exp 的 TopK 和 KV 外部稀疏核。

在 109B 多模态 MoE 上,该方法保持了稠密 GQA 的质量,同时将 1M 上下文注意力计算量减少了 28.4 倍,预填充速度提升 14.2 倍,解码速度提升 7.6 倍。

相似文章

MiniMax 稀疏注意力

Hugging Face Daily Papers

MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。

GQA-{\mu}P: 群组查询注意力的最大参数化更新

arXiv cs.LG

本文将最大更新参数化(μP)框架扩展到群组查询注意力(GQA),推导出跨模型架构的超参数迁移的缩放定律。它引入了用于特征学习的谱范数条件,并解决了GQA中低秩权重矩阵的问题。

EntmaxKV:面向Entmax注意力机制的支持感知解码

arXiv cs.LG

EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。