产品经理实测 M3 的百万级别上下文在真实 Q3 简报中的表现:哪里稳定,哪里失效

Reddit r/AI_Agents 模型

摘要

一位产品经理分享了在真实 Q3 战略简报上对 Minimax M3 的 1M 上下文窗口的实操测试,指出在约 20 万 token 以内来源归因很准确,但超过后综合能力下降。

我是一名产品经理,不是研究员。我的工作是从 12-18 个来源中整合出一份战略文档,同时不遗漏任何注意事项。ChatGPT Pro 曾经两次坑过我——它悄悄遗漏了一整段限定条件。所以当我看到 Minimax M3 的百万级上下文(带 MSA)时,我直接拿我实际的 Q3 简报去测试。以下是实战记录: 1. 设置:14 个来源(PDF、财报电话会议记录、两份分析师报告),大约 34 万 token,要求生成一份保留来源映射的综合战略。 2. 来源归因在整个窗口内保持清晰。它能告诉我“这个结论来自 Gartner 报告,而不是竞争对手的财报电话会议”,无需我重新提示。这与我在 ChatGPT 上的工作流完全不同。 3. 问题:综合能力在大约 20 万 token 之后变得过于自信。低于这个阈值,限定条件保留得很好;超过这个阈值,模型开始调和矛盾而不是指出矛盾。这恰恰是我之前踩过的坑。我能发现它,只是因为我有来源映射在旁边对照。 我想知道,其他人在长上下文综合任务中是否也有类似发现?M3 的简介声称 BrowseComp 83.5 分以及 12 小时内完成 ICLR 复现(含 18 次提交和 23 张图表),显然这些是不同类型的工作负载。我很好奇:‘MSA’在窗口上限附近是否有已知的行为特点?还是说我的提示词本身就是瓶颈?
查看原文

相似文章

MiniMax M3(2分钟阅读)

TLDR AI

MiniMax 推出了 M3,这是首个结合编程、智能体与多模态能力的开源权重模型,通过稀疏注意力机制支持高达 100 万 token 的上下文。

MiniMaxAI/MiniMax-M3

Hugging Face Models Trending

MiniMax 发布 M3,一款原生多模态模型,拥有100万上下文和约4280亿参数,采用 MiniMax Sparse Attention (MSA) 实现高效长上下文处理,达到前沿级别的编码和智能体性能。