MiniMaxAI/MiniMax-M3
摘要
MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。
查看缓存全文
缓存时间: 2026/06/12 14:52
MiniMaxAI/MiniMax-M3 · Hugging Face
来源:https://huggingface.co/MiniMaxAI/MiniMax-M3 MiniMax
MiniMax Agent (https://agent.minimax.io/)API (https://platform.minimax.io/docs/guides/text-generation)MiniMax 官网 (https://www.minimax.io/)微信 (https://platform.minimaxi.com/docs/faq/contact-us)Discord (https://discord.com/invite/DPC4AHFCBw)Hugging Face (https://huggingface.co/MiniMaxAI)GitHub (https://github.com/MiniMax-AI/MiniMax-M3)arXiv 论文 (https://arxiv.org/abs/2606.13392)许可协议 (https://huggingface.co/MiniMaxAI/MiniMax-M3/blob/main/LICENSE)
MiniMax-M3 是一款原生多模态模型,支持 100 万上下文。该模型约有 428B 参数,激活参数约为 23B。
核心亮点:
- **原生多模态:**M3 从训练之初就采用混合模态训练方式,实现了文本、图像和视频之间更深层的语义融合。
- **通过稀疏注意力实现上下文扩展:**M3 引入了 MiniMax 稀疏注意力(MSA),以提升长上下文处理效率。与 M2 相比,M3 在 100 万上下文场景下,预填充速度提升 9 倍,解码速度提升 15 倍,每个词元的计算量降至原来的 1/20。
- **编码与协作能力:**M3 在各类长周期智能体基准测试中均达到前沿水平,在编码和协作方面表现尤为突出。
MiniMax 稀疏注意力(MSA)
M3 由 MiniMax 稀疏注意力(MSA) (https://github.com/MiniMax-AI/MSA) 驱动,这是一种专为百万词元上下文设计的高性能稀疏注意力算子。与 GQA 相比,MSA 在保证模型质量的同时,大幅减少了注意力计算量和内存占用。
GQA 与 MSA 效率对比
📄 阅读技术报告:arXiv:2606.13392 (https://arxiv.org/abs/2606.13392) · Hugging Face Papers (https://huggingface.co/papers/2606.13392)
如何使用
- MiniMax Agent (https://agent.minimax.io/)
- MiniMax API (https://platform.minimax.io/)
M3 支持两种推理模式:
- 思考——适用于复杂推理、智能体任务及长周期协作。
- 非思考——适用于对延迟敏感的场景,如聊天和代码补全。
本地部署
下载模型:
hf download MiniMaxAI/MiniMax-M3 --local-dir MiniMax-M3
我们推荐使用以下推理框架(按字母顺序排列)来部署该模型:
- SGLang (https://docs.sglang.io/)——请参阅 SGLang cookbook (https://docs.sglang.io/cookbook/autoregressive/MiniMax/MiniMax-M3) 。
- vLLM (https://github.com/vllm-project/vllm)——请参阅 vLLM recipes (https://recipes.vllm.ai/MiniMaxAI/MiniMax-M3) 。
- Transformers (https://github.com/huggingface/transformers)——请参阅 Transformers 文档 (https://huggingface.co/docs/transformers/model_doc/minimax_m3_vl) 。
推理参数
为获得最佳性能,我们推荐以下参数设置:temperature=1.0,top_p=0.95,top_k=40。
联系我们
请通过 [email protected] 与我们联系。
相似文章
MiniMax M3(2分钟阅读)
MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。
MiniMax 预告即将推出的 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍(12 分钟阅读)
MiniMax 发布了关于其 M2 系列的详细技术报告,并预告了即将推出的 M3 模型。该模型采用一种新颖的稀疏注意力机制,在百万 token 上下文中实现高达 15.6 倍的解码速度提升。
MiniMax 承诺在发布百万上下文模型后公开 M3 权重(2 分钟阅读)
MiniMax 通过 API 发布了 M3,这是一款拥有 100 万 token 上下文窗口并支持原生多模态输入的模型。该公司承诺在 10 天内发布开源权重和技术报告。
MiniMaxAI/MiniMax-M2.7
MiniMaxAI发布了MiniMax-M2.7,这是一个开放权重模型,具备自我进化能力、先进的智能体团队支持,并在软件工程基准测试中表现出色(SWE-Pro上56.22%,MLE Bench Lite上66.6%奖牌率),在生产事故恢复和专业工作任务中有显著应用。
MiniMax 稀疏注意力
MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。