@rohanpaul_ai: 相当惊人,MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍,预填充速度提升14.2倍,以及…

X AI KOLs Following 论文

摘要

MiniMax Sparse Attention (MSA) 通过增加一个路由分支,选择性选择键值块进行注意力计算,在100万token时实现了注意力计算量最高减少28.4倍,在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码,同时匹配全注意力基准性能。

相当惊人,MiniMax Sparse Attention 在100万token时将注意力计算量减少了28.4倍,在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码。 同时基本匹配了完整版本的基准性能。 当注意力不再将每个token视为同等值得回访时,这种情况就会发生。 诀窍不是放弃softmax注意力,而是在它变得昂贵之前让其具有选择性。 MSA在普通的Grouped Query Attention旁边增加了一个小型路由分支,让每个查询组选择它应该检查的键值块,而主分支仅在该选定集合内执行精确的注意力计算。 模型不再需要将每个新想法与整个过去进行比较,而只与其学习到的索引器预测值得比较的部分进行比较。 长上下文本身不是内存特性;它是一个在严苛延迟约束下的检索问题,模型必须在使用时决定哪些值得带宽。 MiniMax Sparse Attention 之所以引人注目,是因为它将决策过程移入架构中,并根据模型自身的注意力模式来训练选择器。 ---- Link – arxiv. org/abs/2606.13392 Title: "MiniMax Sparse Attention"
查看原文
查看缓存全文

缓存时间: 2026/06/15 21:06

相当惊人,MiniMax 稀疏注意力在100万token时将注意力计算量降低了28.4倍,在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码。

同时在大多数基准测试中与完整版本性能相当。

当注意力不再将每个token视为同等值得回顾时,这种情况就可能发生。

诀窍不是放弃softmax注意力,而是在其变得昂贵之前使其具有选择性。

MSA在普通的分组查询注意力旁增加了一个小型路由分支,让每个查询组选择它应该检查的键值块,而主分支仅在该选定集合内执行精确注意力。

模型不再需要将每个新想法与整个过去进行比较,只与其学习到的索引器预测值得比较的部分进行比较。

长上下文本身并不是一个记忆特性;它是一个在严苛延迟约束下的检索问题,模型必须在使用时决定什么值得占用带宽。

MiniMax 稀疏注意力令人信服,因为它将该决策移入架构中,并根据模型自身的注意力模式训练选择器。


链接 – arxiv. org/abs/2606.13392

标题:“MiniMax Sparse Attention”

相似文章

MiniMax 稀疏注意力

Hugging Face Daily Papers

MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。

MiniMaxAI/MiniMax-M3

Hugging Face Models Trending

MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。