@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支,用于为每组选择 top k 个 KV 块……
摘要
Minimax 的这篇论文介绍了 MiniMax Sparse Attention,它向 GQA 添加了一个微小的索引分支,用于为每组选择 top-k KV 块,从而实现 GPU 原生的稀疏性,并在一个 109B 多模态 MoE 上实现了指数级的加速。
查看缓存全文
缓存时间: 2026/06/14 07:39
“MiniMax Sparse Attention”
这篇来自 MiniMax 的论文在 GQA 中引入了一个微型索引分支,该分支为每组选取 Top K 个 KV 块,然后仅对这些块执行精确的 softmax,从而使得稀疏性对 GPU 原生,同时实现了免 exp 的 TopK 和 KV 外部稀疏核。
在 109B 多模态 MoE 上,该方法保持了稠密 GQA 的质量,同时将 1M 上下文注意力计算量减少了 28.4 倍,预填充速度提升 14.2 倍,解码速度提升 7.6 倍。
相似文章
MiniMax 稀疏注意力
MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。
@rohanpaul_ai: 相当惊人,MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍,预填充速度提升14.2倍,以及…
MiniMax Sparse Attention (MSA) 通过增加一个路由分支,选择性选择键值块进行注意力计算,在100万token时实现了注意力计算量最高减少28.4倍,在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码,同时匹配全注意力基准性能。
MiniMax Sparse Attention:百万令牌上下文(GitHub 仓库)
MiniMaxAI 发布了 MSA,这是一个面向 NVIDIA SM100 GPU 优化的密集和稀疏注意力内核库,能够通过 FlashAttention 和稀疏 top-k 注意力高效处理百万令牌上下文。
GQA-{\mu}P: 群组查询注意力的最大参数化更新
本文将最大更新参数化(μP)框架扩展到群组查询注意力(GQA),推导出跨模型架构的超参数迁移的缩放定律。它引入了用于特征学习的谱范数条件,并解决了GQA中低秩权重矩阵的问题。
EntmaxKV:面向Entmax注意力机制的支持感知解码
EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。