产品经理实测 M3 的百万级别上下文在真实 Q3 简报中的表现:哪里稳定,哪里失效
摘要
一位产品经理分享了在真实 Q3 战略简报上对 Minimax M3 的 1M 上下文窗口的实操测试,指出在约 20 万 token 以内来源归因很准确,但超过后综合能力下降。
我是一名产品经理,不是研究员。我的工作是从 12-18 个来源中整合出一份战略文档,同时不遗漏任何注意事项。ChatGPT Pro 曾经两次坑过我——它悄悄遗漏了一整段限定条件。所以当我看到 Minimax M3 的百万级上下文(带 MSA)时,我直接拿我实际的 Q3 简报去测试。以下是实战记录:
1. 设置:14 个来源(PDF、财报电话会议记录、两份分析师报告),大约 34 万 token,要求生成一份保留来源映射的综合战略。
2. 来源归因在整个窗口内保持清晰。它能告诉我“这个结论来自 Gartner 报告,而不是竞争对手的财报电话会议”,无需我重新提示。这与我在 ChatGPT 上的工作流完全不同。
3. 问题:综合能力在大约 20 万 token 之后变得过于自信。低于这个阈值,限定条件保留得很好;超过这个阈值,模型开始调和矛盾而不是指出矛盾。这恰恰是我之前踩过的坑。我能发现它,只是因为我有来源映射在旁边对照。
我想知道,其他人在长上下文综合任务中是否也有类似发现?M3 的简介声称 BrowseComp 83.5 分以及 12 小时内完成 ICLR 复现(含 18 次提交和 23 张图表),显然这些是不同类型的工作负载。我很好奇:‘MSA’在窗口上限附近是否有已知的行为特点?还是说我的提示词本身就是瓶颈?
相似文章
MiniMax 预告即将推出的 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍(12 分钟阅读)
MiniMax 发布了关于其 M2 系列的详细技术报告,并预告了即将推出的 M3 模型。该模型采用一种新颖的稀疏注意力机制,在百万 token 上下文中实现高达 15.6 倍的解码速度提升。
MiniMax 承诺在发布百万上下文模型后公开 M3 权重(2 分钟阅读)
MiniMax 通过 API 发布了 M3,这是一款拥有 100 万 token 上下文窗口并支持原生多模态输入的模型。该公司承诺在 10 天内发布开源权重和技术报告。
MiniMax M3(2分钟阅读)
MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。
MiniMaxAI/MiniMax-M3
MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。
@no_stp_on_snek: 长上下文实验的小更新:我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M 上下文长度。
作者报告成功在单个 MI300X 上使用 Qwen2.5-32B 和 FAISS 运行 MRCR v2,实现 1M 上下文长度,并以低成本获得有竞争力的分数。