Step 3.7 Flash 开放权重今日发布,而智能体可靠性数据确实引人注目
摘要
Step 3.7 Flash 是一款开放权重的 198B 稀疏 MoE 模型,声称在 tau2-bench 上所有难度级别均达到 98% 的智能体可靠性,原始能力中等但多步一致性强劲。
今天阅读了这一发布内容。有些数据令人震惊。tau2-bench 在所有难度级别上的得分均为 98%。这一点最吸引我,因为通常这类发布会在简单难度上展示高分,而在高难度上平平无奇。而这款模型...声称能保持这一水准。对于多步智能体工作而言,这比大多数基准测试都更为重要。一个在六步链的第四步就出现漂移的模型,无论其 SWE 分数如何,都是调试的噩梦。原始能力中等,Toolathlon 为 49.5,GDPval 为 45.8。所以这显然是一个可靠性策略,而非前沿能力策略。根据你的使用场景,这可能是优点也可能是障碍。
* 198B 稀疏 MoE
* 11B 激活参数
* 400 TPS
* 256K 上下文
* Apache 2.0 许可
* 可在 M4 Max 和 DGX Spark 上本地运行
有没有人实际用智能体评估测试过这个模型,还是我只是在看发布文档?
相似文章
StepFun 3.7 Flash
StepFun 发布了 Step 3.7 Flash,这是一个高效的多模态模型,针对真实世界的智能体任务进行了优化,具有改进的编码基准(SWE-Bench Pro、Terminal-Bench)并兼容多种智能体框架。
stepfun-ai/Step-3.7-Flash
Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型,每个token有11B活跃参数,支持256k上下文和三种推理级别,专为高吞吐量的代理工作流设计。
StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%
StepFun的Step 3.7 Flash是一款198B稀疏MoE模型,活跃参数11B,在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略,将昂贵的前沿模型调用保留给关键决策点。
@StepFun_ai: 对Step 3.7 Flash及智能体效率新前沿的深刻见解,来自@FrankYouChill
StepFun_ai 强调了关于Step 3.7 Flash模型及其对智能体效率影响的深刻见解。
Step 3.7 Flash
Step 3.7 Flash 是一款快速代理模型,旨在实时观察并采取行动。