Step 3.7 Flash 开放权重今日发布,而智能体可靠性数据确实引人注目

Reddit r/artificial 模型

摘要

Step 3.7 Flash 是一款开放权重的 198B 稀疏 MoE 模型,声称在 tau2-bench 上所有难度级别均达到 98% 的智能体可靠性,原始能力中等但多步一致性强劲。

今天阅读了这一发布内容。有些数据令人震惊。tau2-bench 在所有难度级别上的得分均为 98%。这一点最吸引我,因为通常这类发布会在简单难度上展示高分,而在高难度上平平无奇。而这款模型...声称能保持这一水准。对于多步智能体工作而言,这比大多数基准测试都更为重要。一个在六步链的第四步就出现漂移的模型,无论其 SWE 分数如何,都是调试的噩梦。原始能力中等,Toolathlon 为 49.5,GDPval 为 45.8。所以这显然是一个可靠性策略,而非前沿能力策略。根据你的使用场景,这可能是优点也可能是障碍。 * 198B 稀疏 MoE * 11B 激活参数 * 400 TPS * 256K 上下文 * Apache 2.0 许可 * 可在 M4 Max 和 DGX Spark 上本地运行 有没有人实际用智能体评估测试过这个模型,还是我只是在看发布文档?
查看原文

相似文章

StepFun 3.7 Flash

Reddit r/LocalLLaMA

StepFun 发布了 Step 3.7 Flash,这是一个高效的多模态模型,针对真实世界的智能体任务进行了优化,具有改进的编码基准(SWE-Bench Pro、Terminal-Bench)并兼容多种智能体框架。

stepfun-ai/Step-3.7-Flash

Hugging Face Models Trending

Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型,每个token有11B活跃参数,支持256k上下文和三种推理级别,专为高吞吐量的代理工作流设计。

Step 3.7 Flash

Product Hunt

Step 3.7 Flash 是一款快速代理模型,旨在实时观察并采取行动。