@rohanpaul_ai: 相当惊人,MiniMax Sparse Attention 在100万token时将注意力计算量减少28.4倍,预填充速度提升14.2倍,以及…
摘要
MiniMax Sparse Attention (MSA) 通过增加一个路由分支,选择性选择键值块进行注意力计算,在100万token时实现了注意力计算量最高减少28.4倍,在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码,同时匹配全注意力基准性能。
查看缓存全文
缓存时间: 2026/06/15 21:06
相当惊人,MiniMax 稀疏注意力在100万token时将注意力计算量降低了28.4倍,在H800 GPU上实现了14.2倍更快的预填充和7.6倍更快的解码。
同时在大多数基准测试中与完整版本性能相当。
当注意力不再将每个token视为同等值得回顾时,这种情况就可能发生。
诀窍不是放弃softmax注意力,而是在其变得昂贵之前使其具有选择性。
MSA在普通的分组查询注意力旁增加了一个小型路由分支,让每个查询组选择它应该检查的键值块,而主分支仅在该选定集合内执行精确注意力。
模型不再需要将每个新想法与整个过去进行比较,只与其学习到的索引器预测值得比较的部分进行比较。
长上下文本身并不是一个记忆特性;它是一个在严苛延迟约束下的检索问题,模型必须在使用时决定什么值得占用带宽。
MiniMax 稀疏注意力令人信服,因为它将该决策移入架构中,并根据模型自身的注意力模式训练选择器。
链接 – arxiv. org/abs/2606.13392
标题:“MiniMax Sparse Attention”
相似文章
MiniMax 稀疏注意力
MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。
MiniMax Sparse Attention:百万令牌上下文(GitHub 仓库)
MiniMaxAI 发布了 MSA,这是一个面向 NVIDIA SM100 GPU 优化的密集和稀疏注意力内核库,能够通过 FlashAttention 和稀疏 top-k 注意力高效处理百万令牌上下文。
MiniMax 预告即将推出的 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍(12 分钟阅读)
MiniMax 发布了关于其 M2 系列的详细技术报告,并预告了即将推出的 M3 模型。该模型采用一种新颖的稀疏注意力机制,在百万 token 上下文中实现高达 15.6 倍的解码速度提升。
@askalphaxiv: "MiniMax Sparse Attention" Minimax 的这篇论文向 GQA 添加了一个微小的索引分支,用于为每组选择 top k 个 KV 块……
Minimax 的这篇论文介绍了 MiniMax Sparse Attention,它向 GQA 添加了一个微小的索引分支,用于为每组选择 top-k KV 块,从而实现 GPU 原生的稀疏性,并在一个 109B 多模态 MoE 上实现了指数级的加速。
MiniMaxAI/MiniMax-M3
MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。