MiniMax 稀疏注意力

Hugging Face Daily Papers 2026/06/11 00:00 论文

摘要

MiniMax 稀疏注意力引入了一种分块稀疏注意力机制，针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下，每个token的注意力计算减少28.4倍，在H800 GPU上预填充阶段实际速度提升14.2倍，解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。

超长上下文能力正成为前沿大语言模型不可或缺的特性：智能体工作流、仓库级别的代码推理、持久记忆等场景，都要求模型能共同关注数十万到数百万个token，然而softmax注意力的二次方成本使得这在部署规模上难以实现。我们提出了MiniMax稀疏注意力（MSA），这是一种基于分组查询注意力（GQA）构建的分块稀疏注意力。轻量级的索引分支对键值块进行评分，并独立为每个GQA组选择Top-k子集，从而实现组特定的稀疏检索，同时保持高效的块级执行；主分支随后仅对选中的块执行精确的块稀疏注意力。MSA围绕简洁和可扩展的原则设计，刻意精简，使其易于在各种GPU上高效部署。为了将稀疏性转化为实际加速，我们与MSA共同设计了一条GPU执行路径，该路径使用无指数Top-k选择和KV外稀疏注意力，以提高块粒度访问下的张量核心利用率。在具有原生多模态训练的109B参数模型上，MSA的性能与GQA持平，同时在1M上下文长度下将每个token的注意力计算减少28.4倍。配合我们共同设计的内核，MSA在H800上实现了14.2倍的预填充和7.6倍的解码实际速度提升。我们的推理内核可在以下地址获取：https://github.com/MiniMax-AI/MSA。由MSA驱动的生产级原生多模态模型已在以下地址公开发布：https://huggingface.co/MiniMaxAI/MiniMax-M3。

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:50

论文页面 - MiniMax Sparse Attention

来源：https://huggingface.co/papers/2606.13392 作者：

摘要

MiniMax Sparse Attention 通过块级稀疏性和优化的 GPU 执行，在大语言模型中实现了超长上下文的高效处理，在保持性能的同时取得了显著加速。

超长上下文能力对于前沿大语言模型正变得不可或缺：智能体工作流、仓库级代码推理以及持久记忆都需要模型联合关注数十万到数百万个 token，然而 softmax 注意力的二次方复杂度使其在部署规模下难以实现。我们引入了 MiniMaxSparse Attention（https://huggingface.co/papers?q=Sparse%20Attention）（MSA），这是一种基于分组查询注意力（https://huggingface.co/papers?q=Grouped%20Query%20Attention）（GQA）构建的块级稀疏注意力（https://huggingface.co/papers?q=blockwise%20sparse%20attention）。一个轻量级的索引分支对键值块进行打分，并独立为每个 GQA 组选择 Top-k 子集，从而在保持高效块级执行的同时实现组特定的稀疏检索；主分支则仅对选中的块执行精确的块稀疏注意力（https://huggingface.co/papers?q=sparse%20attention）。MSA 设计遵循简洁与可扩展原则，刻意精简，使其能够轻松地在多种 GPU 上高效部署。为了将稀疏性转化为实际加速，我们与 MSA 协同设计了 GPU 执行路径，该路径使用无指数 Top-k 选择（https://huggingface.co/papers?q=Top-k%20selection）和 KV 外稀疏注意力（https://huggingface.co/papers?q=sparse%20attention），以改善块粒度访问下的张量核心利用率（https://huggingface.co/papers?q=tensor-core%20utilization）。在一个 109B 参数的原生多模态训练模型上，MSA 的性能与 GQA 相当，同时将 1M 上下文下的每 token 注意力计算量减少了 28.4 倍。结合我们协同设计的内核，MSA 在 H800 上实现了 14.2 倍的预填充（https://huggingface.co/papers?q=prefill）和 7.6 倍的解码（https://huggingface.co/papers?q=decoding）端到端加速。我们的推理内核可在 https://github.com/MiniMax-AI/MSA 获取。一个由 MSA 驱动的生产级原生多模态模型已在 https://huggingface.co/MiniMaxAI/MiniMax-M3 公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13392)查看 PDF (https://arxiv.org/pdf/2606.13392)GitHub145 (https://github.com/MiniMax-AI/MSA)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13392)

在您的智能体中获取本论文：

hf papers read 2606.13392

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。

引用本论文的数据集0

没有数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。

引用本论文的 Spaces0

没有 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。

包含本论文的收藏集0

没有包含本论文的收藏集

请将本论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

MiniMax 稀疏注意力

论文页面 - MiniMax Sparse Attention

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏集0

相似文章

MiniMax 预告即将推出的 M3 模型：全新稀疏注意力机制，长上下文响应速度提升 15.6 倍（12 分钟阅读）

MiniMaxAI/MiniMax-M3

MiniMax M3（2分钟阅读）

EntmaxKV：面向Entmax注意力机制的支持感知解码

SparDA：用于高效长上下文 LLM 推理的稀疏解耦注意力

提交意见反馈