Step 3.7 Flash 开放权重今日发布，而智能体可靠性数据确实引人注目

Reddit r/artificial 2026/05/29 14:19 模型

open-weights step-3-7-flash agent-reliability sparse-moe toolathlon tau2-bench

摘要

Step 3.7 Flash 是一款开放权重的 198B 稀疏 MoE 模型，声称在 tau2-bench 上所有难度级别均达到 98% 的智能体可靠性，原始能力中等但多步一致性强劲。

今天阅读了这一发布内容。有些数据令人震惊。tau2-bench 在所有难度级别上的得分均为 98%。这一点最吸引我，因为通常这类发布会在简单难度上展示高分，而在高难度上平平无奇。而这款模型...声称能保持这一水准。对于多步智能体工作而言，这比大多数基准测试都更为重要。一个在六步链的第四步就出现漂移的模型，无论其 SWE 分数如何，都是调试的噩梦。原始能力中等，Toolathlon 为 49.5，GDPval 为 45.8。所以这显然是一个可靠性策略，而非前沿能力策略。根据你的使用场景，这可能是优点也可能是障碍。 * 198B 稀疏 MoE * 11B 激活参数 * 400 TPS * 256K 上下文 * Apache 2.0 许可 * 可在 M4 Max 和 DGX Spark 上本地运行有没有人实际用智能体评估测试过这个模型，还是我只是在看发布文档？

查看原文

Step 3.7 Flash 开放权重今日发布，而智能体可靠性数据确实引人注目

相似文章

StepFun 3.7 Flash

stepfun-ai/Step-3.7-Flash

StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%

@StepFun_ai: 对Step 3.7 Flash及智能体效率新前沿的深刻见解，来自@FrankYouChill

Step 3.7 Flash

提交意见反馈