StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%
摘要
StepFun的Step 3.7 Flash是一款198B稀疏MoE模型,活跃参数11B,在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略,将昂贵的前沿模型调用保留给关键决策点。
暂无内容
查看缓存全文
缓存时间: 2026/05/30 17:22
# StepFun 称 Step 3.7 Flash 以九分之一成本达到 Claude Opus 4.6 编码性能的 97% - Firethering
来源: https://firethering.com/stepfun-step-3-7-flash-agentic-coding-cost-efficiency/
\- 广告 \-
0.19 美元对比 1.76 美元。这是在 SWE-Bench Verified 上启用 Advisor 模式运行 Step 3.7 Flash 与 Claude Opus 4.6 的每任务成本。Flash 模型得分为 76.3%,而 Opus 4.6 为 78.7%。相差两个百分点。成本却只有九分之一。
对于任何大规模构建智能编码工作流的人来说,这个算术改变了关于哪个模型真正适合生产环境的决策。前沿性能的降价已有一段时间,但这是一个具体的、经过基准测试的声明,并附有具体的成本数字。
## **总参数 198B,活跃参数 11B**
Step 3.7 Flash 是一个 198B 参数的稀疏 MoE 模型,在推理时每个 token 实际激活 11B 参数。
只有相关的专家模块会对给定的输入激活,这意味着每个 token 的计算成本更接近一个 11B 的稠密模型,而不是 198B 的模型。结果是最多每秒 400 token 的吞吐量,对于具有这种能力轮廓的模型来说,这确实很快。
视觉方面在语言骨干之上增加了一个 1.8B 参数的编码器,使其具备原生图像理解能力,而无需像一些更大模型那样付出完整的多模态代价。它可以处理 UI 线框图、图表、密集文档和自然场景,然后通过编写代码或直接调用工具对其所见做出反应。
上下文窗口为 256k token,提供三种可选推理级别(低、中、高),因此你可以根据任务实际需求,在每次请求中调整速度和成本权衡。
## **让那个成本数字成为可能的技巧**
Advisor 模式正是那个 0.19 美元数字背后的具体机制。
长时间智能代理运行的基本问题是大部分工作都是常规性的。工具调用、读取结果、在简单步骤上迭代。你不需要前沿模型来做这些。但偶尔,代理会遇到一个真正困难的决策点,一个可能使整个轨迹偏离的计划步骤,或者从反复失败中恢复需要真正的判断力。这正是小模型力所不能及的地方。
Advisor 模式让 Step 3.7 Flash 掌控整个运行过程。它调用工具、读取结果并从头到尾迭代。但在其自身判断力不足的特定转折点,它会咨询一个更大的 advisor 模型,然后根据该指导继续执行。昂贵的模型仅在真正需要的地方使用。
StepFun 将其描述为 Anthropic 曾写过的“执行者-顾问”策略的实现。小模型在运行的大部分过程中保持低成本。顾问成本被分摊到多个步骤中,而不是为每个 token 支付。结果是在 SWE-Bench Verified 上以大约每个任务九分之一的成本,达到 Opus 4.6 性能的 97%。
## **它在基准测试中的领先之处**
Step 3.7 Flash 基准测试 来源: Step 3.7 Flash HF
ClawEval-1.1 是首先要关注的。Step 3.7 Flash 得分 67.1,以显著优势领跑整个基准测试。下一个最接近的竞争对手为 59.8。ClawEval 测试多轮编排中的对抗性陷阱抵抗力和指令遵循能力,这正是你在跨长工作流自主运行代理时所需要的那种可靠性。
多模态数字也很强劲。带搜索工具的 SimpleVQA 达到 79.2,在该类别中排名第一,领先于 GPT 5.5 的 79.1 和 GLM 5V Turbo 的 78.2。带 Python 工具的 V* 达到 95.3,与 Kimi K2.6 的 96.9 和 Gemini 3 Flash 的 96.3 具有竞争力。这些是 Flash 级别的结果,在视觉任务上匹配 Pro 级别的模型。
搜索基准测试也讲述类似的故事。BrowseComp 为 75.8%,DeepSearchQA F1 为 92.8%,与运行总参数 1T、活跃参数 32B 的 Kimi K2.6 相当。ResearchRubrics 为 71.7%,领先于 GPT 5.5 的 61.5%,接近 Claude Opus 4.7 的 73.9%。
跨框架的编码结果也值得注意。在 StepFun 内部的 Step-SWE-Bench 上,涉及六个代理框架(包括 Claude Code、KiloCode、OpenClaw 和 RooCode),Step 3.7 Flash 平均为 67.08%,而 Step 3.5 Flash 为 56.5%。跨框架的一致性同样重要。在一个框架上表现良好而在另一个框架上崩溃的模型,对于生产环境来说并不可靠。
除非另有说明,所有基准测试数字均来自 StepFun 自己的评估。自我报告的结果需要注意这一点。
## **前沿模型仍然胜出的领域**
Terminal-Bench 2.1 是最明显的差距。Step 3.7 Flash 得分 59.5,而 GPT 5.5 为 82.7,Gemini 3.5 Flash 为 76.2。这不是一场接近的比赛。对于严重依赖终端交互和复杂命令执行的工作流,目前该模型并非合适的选择。
GDPval 测试覆盖 44 个专业职业的表现,Step 3.7 Flash 为 45.8%,而 GPT 5.5 和 Claude Opus 4.7 均为 63%。这在通用专业任务覆盖方面存在显著差距。
带工具的 HLE 为 47.2%,落后于 Claude Opus 4.7 的 54.7% 和 GPT 5.5 的 52.2%。对于使用工具的最难推理任务,前沿模型仍然具有明显优势。
SWE-Bench Verified 为 76.5% 具有竞争力,但 Claude Opus 4.7 为 87.6%,在精度比吞吐量更重要的复杂软件工程任务中,这是一个真实的差异。
Step 3.7 Flash 是一个专家型模型,在特定的智能代理任务上表现出色,特别是工具编排、视觉理解和搜索密集型工作流,而不是在所有维度上胜出的模型。成本效益的故事在那些特定用例上最为有力。
##### **你可能喜欢:** ZAYA1-8B 以不到 1B 活跃参数在数学上匹配 DeepSeek-R1。(https://firethering.com/zaya1-8b-open-source-math-coding-model/)
## **这适合谁以及如何运行**
如果你正在构建工具编排可靠性以及每任务成本比原始基准测试上限更重要的智能代理工作流,那么 Step 3.7 Flash 值得认真评估。ClawEval 的领先地位和 Advisor 模式的成本轮廓都是真正差异化的。
如果你需要顶级的 Terminal-Bench 性能或最大的通用专业覆盖率,差距足够显著,因此前沿模型仍然是更好的选择。
该模型可通过 StepFun 的 API 在全球的 platform.stepfun.ai 以及中国的 platform.stepfun.com 获得,也可通过 OpenRouter 和 NVIDIA NIM 获得。本地部署需要至少 128GB 统一内存,可在 Mac Studio、NVIDIA DGX Station 或 AMD Ryzen AI Max+ 395 系统上运行。支持标准推理后端,包括 vLLM、SGLang 和 llama.cpp。许可证为 Apache 2.0。
相似文章
StepFun 3.7 Flash
StepFun 发布了 Step 3.7 Flash,这是一个高效的多模态模型,针对真实世界的智能体任务进行了优化,具有改进的编码基准(SWE-Bench Pro、Terminal-Bench)并兼容多种智能体框架。
Stepfun 3.7 Flash 表现非常出色
Stepfun 3.7 Flash 是一款紧凑型视觉模型,在美学方面接近 GLM 5.1,在 3D 世界理解方面达到其 80% 的水平,同时仅使用 25% 的参数,因此内存效率极高。
stepfun-ai/Step-3.7-Flash
Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型,每个token有11B活跃参数,支持256k上下文和三种推理级别,专为高吞吐量的代理工作流设计。
StepFun 3.7 Flash - M5 Max 上的速度基准测试
StepFun 3.7 Flash 模型在 M5 Max 上通过 llama.cpp 运行的基准测试结果,展示了不同上下文长度下的提示处理和令牌生成速度。
@AdinaYakup: Step-3.7-Flash 来自@StepFun_ai的新VL模型 198B/11B活跃参数 - MoE 256K上下文 3推理等级 高达400 tokens/秒
StepFun 发布了 Step-3.7-Flash,这是一个新的视觉语言 MoE 大模型,拥有 198B 参数(11B 激活),256K 上下文,推理速度高达 400 tokens/秒。