产品经理实测 M3 的百万级别上下文在真实 Q3 简报中的表现：哪里稳定，哪里失效

Reddit r/AI_Agents 2026/06/17 06:44 模型

long-context minimax-m3 msa pm-experience synthesis source-attribution

摘要

一位产品经理分享了在真实 Q3 战略简报上对 Minimax M3 的 1M 上下文窗口的实操测试，指出在约 20 万 token 以内来源归因很准确，但超过后综合能力下降。

我是一名产品经理，不是研究员。我的工作是从 12-18 个来源中整合出一份战略文档，同时不遗漏任何注意事项。ChatGPT Pro 曾经两次坑过我——它悄悄遗漏了一整段限定条件。所以当我看到 Minimax M3 的百万级上下文（带 MSA）时，我直接拿我实际的 Q3 简报去测试。以下是实战记录： 1. 设置：14 个来源（PDF、财报电话会议记录、两份分析师报告），大约 34 万 token，要求生成一份保留来源映射的综合战略。 2. 来源归因在整个窗口内保持清晰。它能告诉我“这个结论来自 Gartner 报告，而不是竞争对手的财报电话会议”，无需我重新提示。这与我在 ChatGPT 上的工作流完全不同。 3. 问题：综合能力在大约 20 万 token 之后变得过于自信。低于这个阈值，限定条件保留得很好；超过这个阈值，模型开始调和矛盾而不是指出矛盾。这恰恰是我之前踩过的坑。我能发现它，只是因为我有来源映射在旁边对照。我想知道，其他人在长上下文综合任务中是否也有类似发现？M3 的简介声称 BrowseComp 83.5 分以及 12 小时内完成 ICLR 复现（含 18 次提交和 23 张图表），显然这些是不同类型的工作负载。我很好奇：‘MSA’在窗口上限附近是否有已知的行为特点？还是说我的提示词本身就是瓶颈？

查看原文

产品经理实测 M3 的百万级别上下文在真实 Q3 简报中的表现：哪里稳定，哪里失效

相似文章

MiniMax 预告即将推出的 M3 模型：全新稀疏注意力机制，长上下文响应速度提升 15.6 倍（12 分钟阅读）

MiniMax 承诺在发布百万上下文模型后公开 M3 权重（2 分钟阅读）

MiniMax M3（2分钟阅读）

MiniMaxAI/MiniMax-M3

@no_stp_on_snek: 长上下文实验的小更新：我在单个 MI300X droplet 上使用开源栈成功将 MRCR v2 运行到 1M 上下文长度。

提交意见反馈