sparse-moe

标签

Cards List
#sparse-moe

StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%

Reddit r/ArtificialInteligence · 2026-05-30 缓存

StepFun的Step 3.7 Flash是一款198B稀疏MoE模型,活跃参数11B,在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略,将昂贵的前沿模型调用保留给关键决策点。

0 人收藏 0 人点赞
#sparse-moe

Step 3.7 Flash 开放权重今日发布,而智能体可靠性数据确实引人注目

Reddit r/artificial · 2026-05-29

Step 3.7 Flash 是一款开放权重的 198B 稀疏 MoE 模型,声称在 tau2-bench 上所有难度级别均达到 98% 的智能体可靠性,原始能力中等但多步一致性强劲。

0 人收藏 0 人点赞
#sparse-moe

stepfun-ai/Step-3.7-Flash

Hugging Face Models Trending · 2026-05-23 缓存

Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型,每个token有11B活跃参数,支持256k上下文和三种推理级别,专为高吞吐量的代理工作流设计。

0 人收藏 0 人点赞
#sparse-moe

DECO:端侧设备上媲美稠密性能的稀疏混合专家模型

Hugging Face Daily Papers · 2026-05-11 缓存

DECO是一种稀疏MoE架构,仅激活20%的专家并配合3倍加速内核,即可达到与稠密Transformer相当的性能。该架构采用了基于ReLU的路由机制、可学习缩放因子以及NormSiLU激活函数。

0 人收藏 0 人点赞
#sparse-moe

NucleusAI/Nucleus-Image

Hugging Face Models Trending · 2026-03-17 缓存

Nucleus-Image 是一个开源的文本到图像扩散变换器,拥有 170 亿参数,分布在 64 个路由专家中,每次前向传播仅激活约 20 亿参数。其性能匹配或超越 Qwen-Image 和 Imagen4 等领先模型,同时保持高效率,已发布完整模型权重、训练代码和数据集。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈