MiniMax 稀疏注意力

Hugging Face Daily Papers 论文

摘要

MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。

超长上下文能力正成为前沿大语言模型不可或缺的特性:智能体工作流、仓库级别的代码推理、持久记忆等场景,都要求模型能共同关注数十万到数百万个token,然而softmax注意力的二次方成本使得这在部署规模上难以实现。我们提出了MiniMax稀疏注意力(MSA),这是一种基于分组查询注意力(GQA)构建的分块稀疏注意力。轻量级的索引分支对键值块进行评分,并独立为每个GQA组选择Top-k子集,从而实现组特定的稀疏检索,同时保持高效的块级执行;主分支随后仅对选中的块执行精确的块稀疏注意力。MSA围绕简洁和可扩展的原则设计,刻意精简,使其易于在各种GPU上高效部署。为了将稀疏性转化为实际加速,我们与MSA共同设计了一条GPU执行路径,该路径使用无指数Top-k选择和KV外稀疏注意力,以提高块粒度访问下的张量核心利用率。在具有原生多模态训练的109B参数模型上,MSA的性能与GQA持平,同时在1M上下文长度下将每个token的注意力计算减少28.4倍。配合我们共同设计的内核,MSA在H800上实现了14.2倍的预填充和7.6倍的解码实际速度提升。我们的推理内核可在以下地址获取:https://github.com/MiniMax-AI/MSA。由MSA驱动的生产级原生多模态模型已在以下地址公开发布:https://huggingface.co/MiniMaxAI/MiniMax-M3。
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:50

论文页面 - MiniMax Sparse Attention

来源:https://huggingface.co/papers/2606.13392 作者:

,

,

,

,

,

,

,

,

摘要

MiniMax Sparse Attention 通过块级稀疏性和优化的 GPU 执行,在大语言模型中实现了超长上下文的高效处理,在保持性能的同时取得了显著加速。

超长上下文能力对于前沿大语言模型正变得不可或缺:智能体工作流、仓库级代码推理以及持久记忆都需要模型联合关注数十万到数百万个 token,然而 softmax 注意力的二次方复杂度使其在部署规模下难以实现。我们引入了 MiniMaxSparse Attention(https://huggingface.co/papers?q=Sparse%20Attention)(MSA),这是一种基于分组查询注意力(https://huggingface.co/papers?q=Grouped%20Query%20Attention)(GQA)构建的块级稀疏注意力(https://huggingface.co/papers?q=blockwise%20sparse%20attention)。一个轻量级的索引分支对键值块进行打分,并独立为每个 GQA 组选择 Top-k 子集,从而在保持高效块级执行的同时实现组特定的稀疏检索;主分支则仅对选中的块执行精确的块稀疏注意力(https://huggingface.co/papers?q=sparse%20attention)。MSA 设计遵循简洁与可扩展原则,刻意精简,使其能够轻松地在多种 GPU 上高效部署。为了将稀疏性转化为实际加速,我们与 MSA 协同设计了 GPU 执行路径,该路径使用无指数 Top-k 选择(https://huggingface.co/papers?q=Top-k%20selection)和 KV 外稀疏注意力(https://huggingface.co/papers?q=sparse%20attention),以改善块粒度访问下的张量核心利用率(https://huggingface.co/papers?q=tensor-core%20utilization)。在一个 109B 参数的原生多模态训练模型上,MSA 的性能与 GQA 相当,同时将 1M 上下文下的每 token 注意力计算量减少了 28.4 倍。结合我们协同设计的内核,MSA 在 H800 上实现了 14.2 倍的预填充(https://huggingface.co/papers?q=prefill)和 7.6 倍的解码(https://huggingface.co/papers?q=decoding)端到端加速。我们的推理内核可在 https://github.com/MiniMax-AI/MSA 获取。一个由 MSA 驱动的生产级原生多模态模型已在 https://huggingface.co/MiniMaxAI/MiniMax-M3 公开发布。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13392)查看 PDF (https://arxiv.org/pdf/2606.13392)GitHub145 (https://github.com/MiniMax-AI/MSA)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13392)

在您的智能体中获取本论文:

hf papers read 2606.13392

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。

引用本论文的数据集0

没有数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。

引用本论文的 Spaces0

没有 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2606.13392 以将其链接到此页面。

包含本论文的收藏集0

没有包含本论文的收藏集

请将本论文添加到收藏集 (https://huggingface.co/new-collection) 以将其链接到此页面。

相似文章

MiniMaxAI/MiniMax-M3

Hugging Face Models Trending

MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。

MiniMax M3(2分钟阅读)

TLDR AI

MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。

EntmaxKV:面向Entmax注意力机制的支持感知解码

arXiv cs.LG

EntmaxKV提出了一种面向entmax注意力的支持感知稀疏解码框架,通过利用加载页面之前的稀疏性来减少KV缓存内存流量,在长上下文基准测试中实现了显著的加速,同时保持输出质量。

SparDA:用于高效长上下文 LLM 推理的稀疏解耦注意力

arXiv cs.CL

SparDA 提出了一种解耦稀疏注意力架构,通过添加轻量级"Forecast"投影来预测未来的 KV 缓存需求,从而实现从 CPU 到 GPU 的预取(lookahead prefetching),并降低选择开销。在基于稀疏预训练的 8B 模型上,其 prefill 速度最高可提升 1.25×,decode 速度最高可提升 1.7×,相比非 offload 基线,decode 吞吐量最高可提升 5.3×。