@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块……

X AI KOLs Timeline 2026/06/13 16:43 论文

sparse-attention gqa minimax efficiency long-context multimodal moe

摘要

Minimax 的这篇论文介绍了 MiniMax Sparse Attention，它向 GQA 添加了一个微小的索引分支，用于为每组选择 top-k KV 块，从而实现 GPU 原生的稀疏性，并在一个 109B 多模态 MoE 上实现了指数级的加速。

"MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块，然后仅对这些块执行精确的 softmax，从而使稀疏性成为 GPU 原生，并提供了无指数计算的 TopK 和 KV 外稀疏内核。在一个 109B 多模态 MoE 上，它保持了密集 GQA 的质量，同时将 1M 上下文注意力计算量减少了 28.4 倍，预填充速度提升 14.2 倍，解码速度提升 7.6 倍。

查看原文

查看缓存全文

缓存时间: 2026/06/14 07:39

“MiniMax Sparse Attention”

这篇来自 MiniMax 的论文在 GQA 中引入了一个微型索引分支，该分支为每组选取 Top K 个 KV 块，然后仅对这些块执行精确的 softmax，从而使得稀疏性对 GPU 原生，同时实现了免 exp 的 TopK 和 KV 外部稀疏核。

在 109B 多模态 MoE 上，该方法保持了稠密 GQA 的质量，同时将 1M 上下文注意力计算量减少了 28.4 倍，预填充速度提升 14.2 倍，解码速度提升 7.6 倍。

@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块……

相似文章

MiniMax 稀疏注意力

@rohanpaul_ai: 相当惊人，MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍，预填充速度提升14.2倍，以及…

MiniMax Sparse Attention：百万令牌上下文（GitHub 仓库）

GQA-{\mu}P: 群组查询注意力的最大参数化更新

EntmaxKV：面向Entmax注意力机制的支持感知解码

提交意见反馈