MiniMax 稀疏注意力
摘要
MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。
查看缓存全文
缓存时间: 2026/06/12 06:50
论文页面 - MiniMax Sparse Attention
来源:https://huggingface.co/papers/2606.13392 作者:
,
,
,
,
,
,
,
,
摘要
MiniMax Sparse Attention 通过块级稀疏性和优化的 GPU 执行,在大语言模型中实现了超长上下文的高效处理,在保持性能的同时取得了显著加速。
超长上下文能力对于前沿大语言模型正变得不可或缺:智能体工作流、仓库级代码推理以及持久记忆都需要模型联合关注数十万到数百万个 token,然而 softmax 注意力的二次方复杂度使其在部署规模下难以实现。我们引入了 MiniMaxSparse Attention(https://huggingface.co/papers?q=Sparse%20Attention)(MSA),这是一种基于分组查询注意力(https://huggingface.co/papers?q=Grouped%20Query%20Attention)(GQA)构建的块级稀疏注意力(https://huggingface.co/papers?q=blockwise%20sparse%20attention)。一个轻量级的索引分支对键值块进行打分,并独立为每个 GQA 组选择 Top-k 子集,从而在保持高效块级执行的同时实现组特定的稀疏检索;主分支则仅对选中的块执行精确的块稀疏注意力(https://huggingface.co/papers?q=sparse%20attention)。MSA 设计遵循简洁与可扩展原则,刻意精简,使其能够轻松地在多种 GPU 上高效部署。为了将稀疏性转化为实际加速,我们与 MSA 协同设计了 GPU 执行路径,该路径使用无指数 Top-k 选择(https://huggingface.co/papers?q=Top-k%20selection)和 KV 外稀疏注意力(https://huggingface.co/papers?q=sparse%20attention),以改善块粒度访问下的张量核心利用率(https://huggingface.co/papers?q=tensor-core%20utilization)。在一个 109B 参数的原生多模态训练模型上,MSA 的性能与 GQA 相当,同时将 1M 上下文下的每 token 注意力计算量减少了 28.4 倍。结合我们协同设计的内核,MSA 在 H800 上实现了 14.2 倍的预填充(https://huggingface.co/papers?q=prefill)和 7.6 倍的解码(https://huggingface.co/papers?q=decoding)端到端加速。我们的推理内核可在 https://github.com/MiniMax-AI/MSA 获取。一个由 MSA 驱动的生产级原生多模态模型已在 https://huggingface.co/MiniMaxAI/MiniMax-M3 公开发布。
查看 arXiv 页面 (https://arxiv.org/abs/2606.13392)查看 PDF (https://arxiv.org/pdf/2606.13392)GitHub145 (https://github.com/MiniMax-AI/MSA)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13392)
在您的智能体中获取本论文:
hf papers read 2606.13392
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。
引用本论文的数据集0
没有数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。
引用本论文的 Spaces0
没有 Space 链接本论文
请在 Space README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。
包含本论文的收藏集0
没有包含本论文的收藏集
请将本论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。
相似文章
MiniMax 预告即将推出的 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍(12 分钟阅读)
MiniMax 发布了关于其 M2 系列的详细技术报告,并预告了即将推出的 M3 模型。该模型采用一种新颖的稀疏注意力机制,在百万 token 上下文中实现高达 15.6 倍的解码速度提升。
MiniMaxAI/MiniMax-M3
MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。
MiniMax M3(2分钟阅读)
MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。
EntmaxKV:面向Entmax注意力机制的支持感知解码
EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。
SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力
SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。