MiniMax 预告即将推出的 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍(12 分钟阅读)
摘要
MiniMax 发布了关于其 M2 系列的详细技术报告,并预告了即将推出的 M3 模型。该模型采用一种新颖的稀疏注意力机制,在百万 token 上下文中实现高达 15.6 倍的解码速度提升。
MiniMax 发布了一份关于其热门 M2 系列语言模型开发过程的全新技术深度报告。该报告揭示了多项工程创新和巧妙方法,并预告了 MiniMax 即将推出的模型系列中采用的一种新型稀疏注意力方法,该方法在长上下文场景下可将解码速度提升高达 15.6 倍。MiniMax 即将推出的 M3 模型将使超长上下文 AI 代理的部署在经济上变得可行。
查看缓存全文
缓存时间: 2026/05/29 18:31
# MiniMax 预告 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍
来源:https://venturebeat.com/technology/minimax-teases-upcoming-m3-model-with-new-sparse-attention-mechanism-and-15-6x-response-speed-boost
在全球众多争夺市场份额和关注度的中国 AI 公司及实验室中,MiniMax (https://www.minimax.io/) 因其致力于通过多种模态(包括文本、代码和视频,经由其 Hailuo (https://hailuoai.video/) 模型系列)提供前沿智能而脱颖而出——并且通常采用对企业和开发友好的宽松标准开源许可证。
如今,MiniMax 再次引发全球 AI 重度用户和开发者的关注。它发布了关于其广受欢迎的 M2 系列语言模型(包括 M2 (https://venturebeat.com/ai/minimax-m2-is-the-new-king-of-open-source-llms-especially-for-agentic-tool)、M2.5 (https://venturebeat.com/technology/minimaxs-new-open-m2-5-and-m2-5-lightning-near-state-of-the-art-while) 和 M2.7 (https://venturebeat.com/technology/new-minimax-m2-7-proprietary-ai-model-is-self-evolving-and-can-perform-30-50))制作过程的深入技术报告 (https://huggingface.co/papers/2605.26494),详细阐述了其众多工程创新和巧妙方法。与此同时,该公司及其领导层还预告了其即将推出的 MiniMax M3 系列模型 (https://x.com/SkylerMiao7/status/2059285750458544561) 采用的一种全新的稀疏注意力方法。该方法声称,通过采用自定义的次二次计算框架,可在长上下文(百万个 token)下实现高达 15.6 倍的解码(或 LLM 响应)速度提升。此举使得 MiniMax 将 M3 设计为使超长上下文 AI 智能体的部署在经济上变得可行。
这份 M2 报告对于任何使用 AI 模型的企业,特别是那些希望自行微调和训练模型的企业来说,都值得关注。毕竟,MiniMax 的 M2 系列模型在发布时,常在全球开源 AI 性能基准测试中名列前茅。
尽管该头衔已被其他几家中国实验室(包括 DeepSeek 和小米)所超越 (https://artificialanalysis.ai/models/open-source),但 MiniMax 的新报告提供了一个可供全球企业用于提升 AI 模型和智能体性能的蓝图。
正如 Hugging Face 的 Adina Yakup 在 X 平台上所观察到的 (https://x.com/AdinaYakup/status/2059567862134485043),“除了基准测试之外,他们在 MoE 效率和面向智能体的设计方面也做了非常扎实的工作。期待看到 M3 的下一步发展!”
## **注意力困境**
M2 系列的核心技术架构依赖于稀疏混合专家模型 (MoE) 解码器专用的 Transformer 布局,许多其他最先进的 LLM 也采用这种布局。
其基础骨干网络拥有 2299 亿总参数,但通过仅激活每个 token 98 亿参数(分布在 256 个细粒度专家中),保持了显著精简的运行足迹。
然而,为了优化路由并避免标准的负载均衡问题,MiniMax 实现了 Sigmoid 门控机制,并配以可学习的、特定于专家的偏置项,从而大幅减少了对限制性辅助损失的依赖。
M2 论文中记录的最具决定性的工程决策,是严格在所有 62 层中采用带有分组查询注意力 (GQA) 的全多头注意力机制。
在大型语言模型中,“二次扩展”指的是一种计算成本高昂的现实情况,即标准的全注意力机制,其中序列中的每个 token 都必须在数学上与所有其他 token 建立连接。用现实世界的比喻来说,这就像参加一个社交活动,被迫与房间里的每个人进行深入交谈,同时还要监控所有其他正在进行的对话。
虽然这种方法能产生极其全面的上下文,但所需的处理能力和内存会随输入长度的平方爆炸式增长,当模型试图处理数十万字时,会形成严重的硬件瓶颈。
## **次二次扩展的问题**
“次二次”扩展引入了旨在绕过这种指数级计算负载的架构捷径。与映射所有可能的连接不同,次二次方法(例如滑动窗口注意力或压缩线性注意力)可能仅分析局部邻近词的窗口,或生成更广泛文本的压缩摘要。
这些高效方法大幅降低了硬件成本,并允许模型以高速处理海量文档,但它们历来会在准确性方面带来严重的权衡,经常导致 AI 忽略“大局”或丢失远距离上下文。
这个数学困境定义了从 MiniMax 的 M2 到其即将推出的 M3 系列的架构演变。在 M2 开发期间,研究人员严格测试了次二次捷径,但发现它们削弱了模型的“多跳推理”能力——即连接长文档中分散线索的能力——迫使团队为了维持前沿智能水平而承受全二次注意力的巨大计算成本。
事实上,他们在预训练期间积极地测试了高效的注意力替代方案,但又故意将其舍弃。他们广泛尝试了混合设置,将全注意力与像 Lightning Attention 这样的次二次架构或混合滑动窗口注意力 (SWA) 配置交织在一起。
实验结果是决定性的:在更大规模上,线性和窗口化的注意力变体表现出严重的推理缺陷。
在超过 32K 上下文窗口的评估中,SWA 变体的表现显著差于全注意力,在 RULER 128K 复杂词语提取任务上的得分从基线的 90.0 下降到 72.0。
次二次配置在训练过程中被证明易于受到内存限制的约束,缺乏原生的前缀缓存支持,并且无法与用于推测解码的多 token 预测 (MTP) 模块顺利对齐。全注意力被认为对于保持多跳推理能力是必要的。
然而,认识到物理硬件的限制无法无限期地维持二次扩展,MiniMax 正在围绕一个新颖的次二次框架设计 M3 系列,以最终实现高速处理和不妥协的推理能力。
## **MiniMax 稀疏注意力 (MSA) 与即将到来的次二次扩展**
即将推出的 MiniMax-M3 打破了其前身的高计算负载限制。正如 MiniMax 工程团队在“Something BIG is coming”旗帜下所披露的那样,M3 引入了“MiniMax 稀疏注意力”(MSA)。
与 DeepSeek 的多头潜注意力 (MLA) 不同——后者将键和值压缩到低维潜空间——MSA 在标准的 GQA 骨干网络上运行,但利用块级选择来处理真实的、未压缩的键-值对。
AI 训练基础设施和平台实验室 Prime Intellect 的 Elie Bakouch 在 X 上发帖 (https://x.com/eliebakouch/status/2059321928205156568) 指出,主要变化是“像 CSA 一样的块级选择,但注意力是在真实的 KV 上进行的,而不是在[压缩空间]中。”
这解决了 M2 论文中指出的精度损失和前缀缓存障碍。通过动态过滤和选择块级序列,MSA 实现了架构上的飞跃:早期的硬件性能分析显示,在 100 万个 token 的序列长度下,与采用全注意力的 M2 架构相比,预填充延迟加速了 9.7 倍,解码阶段加速了高达 15.6 倍。
要理解“解码阶段”的速度提升为何如此重要,有助于分解 AI 实际读写信息的过程。当你与 AI 交互时,处理过程分两个不同的步骤:预填充和解码。
当你向 AI 输入一个提示——无论是一个短句还是一份 1000 页的文档——它都会一次性并行处理整段文本,这被称为“预填充”。它基本上是一次性“读取”输入,以建立初始理解并确定上下文。
为了生成响应,AI 必须进入“解码阶段”。为了预测响应的第一个词,它查看提示。为了预测第二个词,它必须查看提示*加上*第一个词。为了预测第一百个词,它必须重新计算提示*以及*它刚刚写下的前 99 个词的上下文。因此,随着响应的进行,生成实际上变得更困难,结尾处需要全面回顾所有先前的部分。
对于非专业人士来说,可以想象阅读一份冗长的法律案情摘要(预填充),然后被迫撰写一份总结报告,在写每一个新词之前,都必须快速重读整个案情摘要以及你已经写下的所有内容,以确保你的下一个词有意义(解码)。
因为 AI 必须持续且重复地回顾过去才能生成向前迈出的每一步,所以解码阶段是生成文本中最严重的计算瓶颈。这就是为什么 AI 模型通常逐字输出答案,以及为什么随着对话变长,它们的速度会显著减慢的原因。
因此,当文章提到新架构在 100 万个 token 序列长度的解码阶段实现了 15.6 倍的巨大加速时,这意味着该模型找到了一种结构性的捷径,可以逐个 token 地生成其答案,速度提升了近 16 倍。它直接解决了通常在处理海量信息时会导致 AI 聊天机器人卡顿或停顿的那个瓶颈问题。
## **MiniMax M 系列的演变与 'Forge' 的创建**
在产品层面,MiniMax 始终如一地将其模型从简单的文本生成界面演变为自主工作者。
M2 系列开创了一种“交错思考”协议,其中模型在单个轨迹内交替进行自然语言规划轨迹和显式工具调用。M2 不是在执行轮次之间丢弃中间的思维链块,而是将完整的思考历史直接附加到对话上下文中。这种规划持久性防止了状态漂移,允许模型从容地从运行时错误中恢复,并根据环境反馈修正其策略。
为了训练这些长周期工作流,MiniMax 构建了“Forge”,一个可扩展的、面向智能体的原生强化学习系统。Forge 将执行解耦为三个独立模块——智能体端、中间件抽象层(网关服务器和数据池)以及训练/推理引擎。
正如 MiniMax 工程师 Olive Song 在 ThursdAI 播客 (https://thursdai.news/guests/olive_jy_song) 上所解释的,“我们意识到的是,像这样的小模型,如果我们用大量的环境和智能体对其进行强化学习训练,潜力巨大……但这并不是一件容易的事。”他补充说,这种环境训练正是团队投入大部分开发时间的地方。为了吸收多步智能体环境中常见的极端轨迹长度变化,Forge 实现了两个至关重要的工程解决方案:
1. **窗口 FIFO 调度:** 一种训练调度器,它将滑动窗口映射到生成队列上。它允许贪婪地、高吞吐量地获取窗口内已完成的任务,以防止集群空闲时间,同时严格执行 FIFO 边界以保持分布稳定性并避免梯度振荡。
2. **前缀树合并:** 一种将批量训练重构为树计算的优化。共享相同对话前缀的完成结果在前向传播中仅在分支之前计算一次。这消除了冗余计算,在零近似误差的情况下,实现了高达 40 倍的训练加速。
这种强化学习基础设施直接催生了 M2.7 检查点,将该系列推向“自我进化”。在自动化智能体框架内运行,M2.7 充当独立的机器学习工程师。该模型剖析自己正在进行的训练运行、诊断异常、读取日志,并自动修改自己的代码库和配置。
据 MiniMax 称,M2.7 成功处理了自身 30% 到 50% 的开发工作流。
在 OpenAI 严格的 MLE Bench Lite 套件上(该套件测试自主 ML 研究能力),M2.7 在独立的 24 小时试验中达到了 66.6% 的奖牌率,与谷歌的闭源权重模型 Gemini 3.1 Pro 实际上打成平手。
从 M2 到 M2.5 的持续节奏——后者在 MiniMax 总部据说完成了 30% 的内部任务和 80% 的新提交代码——凸显了更广阔的愿景。
正如 MiniMax 团队在该部署阶段所指出,“我们相信 M2.5 为经济中智能体的开发和运行提供了几乎无限的可能性。”
随着技术报告巩固了 M2 世代的成功以及 MSA 技术博客即将发布,MiniMax 正在发出信号:AI 的下一个前沿明确地是将微小的激活足迹转化为最大的真实世界智能。
相似文章
MiniMax M3(2分钟阅读)
MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。
MiniMax 承诺在发布百万上下文模型后公开 M3 权重(2 分钟阅读)
MiniMax 通过 API 发布了 M3,这是一款拥有 100 万 token 上下文窗口并支持原生多模态输入的模型。该公司承诺在 10 天内发布开源权重和技术报告。
@sdrzn: MiniMax的新m3模型在terminal-bench 2.1上得分与opus 4.7相同,计算/成本仅为前一代模…
MiniMax新推出的m3模型在terminal-bench 2.1上取得了与Opus 4.7相同的分数,但计算量和成本仅为原来的二十分之一,这归功于其全新的MiniMax Sparse Attention架构。
MiniMax-M2系列:迷你激活释放最大现实智能
MiniMax-M2系列引入了混合专家语言模型,在极少的激活参数下(总参数量2299亿,每token仅激活98亿)在代理任务上实现了高性能。该系列利用代理驱动的数据管道、名为Forge的可扩展强化学习系统,以及一个向自我进化迈出初步步骤的检查点。
@Modular:我们的内核团队整周都在深入研究 MiniMax M3。百万token上下文和原生多模态让它的服务模式变得困难……
Modular 的内核团队正在优化对 MiniMax M3 的百万token上下文和原生多模态的服务,开放权重即将发布,可立即在 Modular 上部署。