MiniMax M3 - 编码与智能体前沿,百万级上下文,多模态
摘要
MiniMax 发布了 M3,这是一个开源权重模型,具备前沿编码能力、智能体能力、百万级上下文和原生多模态能力,在编码和智能体任务上取得了顶级基准成绩,并支持自主任务分解和长上下文。
暂无内容
查看缓存全文
缓存时间: 2026/06/01 01:37
# MiniMax M3 - 编码与智能体前沿,百万上下文,多模态
来源:https://www.minimax.io/models/text/m3
编码与智能体前沿。百万上下文的MSA。原生多模态。
首个同时具备三大前沿能力的开源权重模型。
### 性能基准
M3在编码和智能体基准测试中达到顶级水平,具备自主任务分解、工具调用和多步推理能力,为AI编码助手和自动化工作流提供了可靠基础。
基于专有的MiniMax稀疏注意力(MSA)架构,M3 API支持最高100万个token的上下文窗口,并保证至少51.2万个token。百万上下文是长程智能体任务、长程编码和长视频理解的基础设施。
原生多模态模型。整个数据管道已重建,将预训练数据扩展到100万亿以上,从第零步开始进行多模态训练,实现了文本与视觉语义空间的深度对齐。多模态是原生核心能力,而非肤浅的附加功能。
在BrowseComp上,M3得分为83.5,超越Opus 4.7(79.3),展现了强大的自主浏览和信息检索能力。
直到现在,只有少数闭源模型能够同时实现前沿编码能力、百万token上下文和多模态。M3是首个将完整前沿能力带入开源世界的模型。
论文复现:12小时自主ICLR论文复现
### 论文复现:12小时自主ICLR论文复现
我们要求M3独立复现一篇ICLR 2025杰出论文——《LLM微调的学习动态》。M3连续运行近12小时,独立生成18次提交和23张实验图表,成功复现了核心实验。多模态能力解析了论文中的图表和公式,长上下文将论文、代码和实验日志整合到一个窗口中,编码和智能体能力驱动了长周期执行。
### CUDA内核优化:147次迭代,9.4倍加速
FP8 GEMM是LLM推理中计算量最大、优化难度最高的操作之一。我们让M3在NVIDIA Hopper GPU上优化该内核,仅提供任务描述和一个不可执行的Triton框架。约24小时内,M3完成了147次基准提交和1959次工具调用,将硬件峰值利用率从7.6%提升至71.3%——实现了9.4倍加速,全程无需人工干预。
CUDA内核优化:147次迭代,9.4倍加速
PostTrainBench:M3自行训练模型
### PostTrainBench:M3自行训练模型
我们向M3提供了四个仅预训练的基座模型,要求其在12小时内自主完成完整流程——数据合成、训练、评估和迭代——使这些模型具备数学推理、代码生成和知识问答能力。整个过程无需人工干预。M3得分为37.1,排名总榜第三,仅次于Opus 4.7(42.4)和GPT-5.5(39.3),大幅领先其他所有模型。
开发者工具
## 赋能开发者选择
出色的工具脚手架泛化能力
#### 01 / 访问方式
### 快速API集成
API版本:M3,结果相同但速度更快。完全自动缓存支持,无需配置。
#### 02 / 访问方式
### 用于AI编码工具
01 /
订阅Token方案
价格不变,性能显著提升。Token方案用户现在自动受益于M3增强的编码和推理能力。
了解更多 (https://platform.minimax.io/subscribe/token-plan)
02 /
开放平台集成
支持标准M3,最高100万token的上下文窗口。
了解更多 (https://platform.minimax.io/docs/guides/text-generation)
03 /
MiniMax Code集成
基于M3的通用Agent平台现已全面开放。无需任何开发即可体验编码智能体、多模态理解等旗舰能力。
了解更多 (https://code.minimax.io/)
04 /
开源与本地部署
我们致力于回馈社区。M3即将在HuggingFace和GitHub上完全开源,支持私有集群部署和微调。
了解更多 (https://huggingface.co/MiniMaxAI)
相似文章
@HuggingPapers:NVIDIA 刚刚在 Hugging Face 上发布了 NVFP4 量化的 DiffusionGemma——一个 26B MoE 多模态模型,通过并行扩散生成文本…
NVIDIA 在 Hugging Face 上发布了一个名为 DiffusionGemma 的 26B MoE 多模态模型,采用 NVFP4 量化,在 Hopper 硬件上达到每秒超过 1100 个 token 的速度。
@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
qwopus 与 qwen3.6 27b 相比有多实用
用户询问社区关于 qwopus 与 qwen3.6 27b 实用性的看法,特别是在代理编码任务中的表现,报告了意见不一且个人测试中差异极小。
@noctus91: 我最近从 Qwen 3.5 9B 切换到了 @liquidai 的 LFM2.5-8B-A1B,它迅速成为我在 H… 中的默认本地模型
一位用户分享了从 Qwen 3.5 9B 切换到 Liquid AI 新推出的 LFM2.5-8B-A1B 模型的积极体验,称赞其在代理任务上的速度和可靠性,同时指出编码仍然是其弱项。该模型是一个 8B MoE 架构,具有 1.5B 活跃参数和 128K 上下文,针对设备和服务器端使用进行了优化。
VLMs 是否像工程师一样推理?一个基准与分阶段评估
本文介绍了 EngVQA,一个用于评估视觉语言模型工程推理能力的多模态基准,以及一个 8 阶段自动评估框架,能够对推理失败进行细粒度分析。它揭示了当前 VLMs 在工程推理能力上的重大局限性。