@rohanpaul_ai: 相当惊人，MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍，预填充速度提升14.2倍，以及…

X AI KOLs Following 2026/06/15 20:39 论文

sparse-attention long-context efficient-transformer minimax attention-mechanism inference-speed

摘要

MiniMax Sparse Attention (MSA) 通过增加一个路由分支，选择性选择键值块进行注意力计算，在100万token时实现了注意力计算量最高减少28.4倍，在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码，同时匹配全注意力基准性能。

相当惊人，MiniMax Sparse Attention 在100万token时将注意力计算量减少了28.4倍，在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码。同时基本匹配了完整版本的基准性能。当注意力不再将每个token视为同等值得回访时，这种情况就会发生。诀窍不是放弃softmax注意力，而是在它变得昂贵之前让其具有选择性。 MSA在普通的Grouped Query Attention旁边增加了一个小型路由分支，让每个查询组选择它应该检查的键值块，而主分支仅在该选定集合内执行精确的注意力计算。模型不再需要将每个新想法与整个过去进行比较，而只与其学习到的索引器预测值得比较的部分进行比较。长上下文本身不是内存特性；它是一个在严苛延迟约束下的检索问题，模型必须在使用时决定哪些值得带宽。 MiniMax Sparse Attention 之所以引人注目，是因为它将决策过程移入架构中，并根据模型自身的注意力模式来训练选择器。 ---- Link – arxiv. org/abs/2606.13392 Title: "MiniMax Sparse Attention"

查看原文

查看缓存全文

缓存时间: 2026/06/15 21:06

相当惊人，MiniMax 稀疏注意力在100万token时将注意力计算量降低了28.4倍，在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码。

同时在大多数基准测试中与完整版本性能相当。

当注意力不再将每个token视为同等值得回顾时，这种情况就可能发生。

诀窍不是放弃softmax注意力，而是在其变得昂贵之前使其具有选择性。

MSA在普通的分组查询注意力旁增加了一个小型路由分支，让每个查询组选择它应该检查的键值块，而主分支仅在该选定集合内执行精确注意力。

模型不再需要将每个新想法与整个过去进行比较，只与其学习到的索引器预测值得比较的部分进行比较。

长上下文本身并不是一个记忆特性；它是一个在严苛延迟约束下的检索问题，模型必须在使用时决定什么值得占用带宽。

MiniMax 稀疏注意力令人信服，因为它将该决策移入架构中，并根据模型自身的注意力模式训练选择器。

链接 – arxiv. org/abs/2606.13392

标题：“MiniMax Sparse Attention”

@rohanpaul_ai: 相当惊人，MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍，预填充速度提升14.2倍，以及…

相似文章

MiniMax 稀疏注意力

MiniMax Sparse Attention：百万令牌上下文（GitHub 仓库）

MiniMax 预告即将推出的 M3 模型：全新稀疏注意力机制，长上下文响应速度提升 15.6 倍（12 分钟阅读）

@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支，用于为每组选择 top k 个 KV 块……

MiniMaxAI/MiniMax-M3

提交意见反馈