标签
StepFun的Step 3.7 Flash是一款198B稀疏MoE模型,活跃参数11B,在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略,将昂贵的前沿模型调用保留给关键决策点。
Step 3.7 Flash 是一款开放权重的 198B 稀疏 MoE 模型,声称在 tau2-bench 上所有难度级别均达到 98% 的智能体可靠性,原始能力中等但多步一致性强劲。
Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型,每个token有11B活跃参数,支持256k上下文和三种推理级别,专为高吞吐量的代理工作流设计。
DECO是一种稀疏MoE架构,仅激活20%的专家并配合3倍加速内核,即可达到与稠密Transformer相当的性能。该架构采用了基于ReLU的路由机制、可学习缩放因子以及NormSiLU激活函数。
Nucleus-Image 是一个开源的文本到图像扩散变换器,拥有 170 亿参数,分布在 64 个路由专家中,每次前向传播仅激活约 20 亿参数。其性能匹配或超越 Qwen-Image 和 Imagen4 等领先模型,同时保持高效率,已发布完整模型权重、训练代码和数据集。