sparse-moe

#sparse-moe

Motif-Technologies/Motif-3-Beta

Hugging Face Models Trending ↗ · 3天前缓存

Motif Technologies 发布了 Motif-3 的中期测试版检查点，这是一个大规模混合专家语言模型，总参数约 314B（激活约 13B），上下文长度 256K，并采用自定义架构如分组差分潜在注意力（GDLA），公开可用于非商业研究。

0 人收藏 0 人点赞

#sparse-moe

LingBot-Video: 稀疏MoE视频扩散Transformer（总参数13B，激活参数1.4B）后训练为动作条件世界模型[R]

Reddit r/MachineLearning ↗ · 2026-07-08

LingBot-Video是一个13B的稀疏MoE视频扩散Transformer（1.4B激活参数），通过强化学习后训练为动作条件世界模型，权重和代码已开源。它包含一个由VLM评分的物理合理性奖励，并将其自身定位为策略评估器和动作规划器，但缺少闭环机器人实验结果。

0 人收藏 0 人点赞

#sparse-moe

@heyshrutimishra: 新视频模型刚刚发布。但这款并非为电影级视频打造。LingBot-Video专为具身智能设计…

X AI KOLs Following ↗ · 2026-07-08 缓存

LingBot-Video是一个30B参数的视频模型，采用稀疏MoE架构，专为具身智能设计，现已开源。它在RBench上优于现有模型，训练数据来自7万+小时的具身数据。

0 人收藏 0 人点赞

#sparse-moe

@XAMTO_AI: 重磅开源！OpenMythos —— Claude Mythos 架构的理论复现项目！由 KyeGomezB从第一性原理构建，完整实现了 Recurrent-Depth Transformer (RDT)： • Prelude（前奏层）…

X AI KOLs Timeline ↗ · 2026-07-03 缓存

OpenMythos 是一个基于 Claude Mythos 架构理论复现的开源项目，完整实现了 Recurrent-Depth Transformer (RDT)，支持 MLA/GQA 注意力机制和稀疏 MoE，提供从 1B 到 1T 参数的预设配置，可通过 pip 安装使用。

0 人收藏 0 人点赞

#sparse-moe

Leanstral 1.5

Hacker News Top ↗ · 2026-06-30 缓存

Mistral AI 发布了 Leanstral 1.5，这是更新的 Lean 4 形式化证明工程模型，针对自动定理证明和自动形式化进行了优化，总参数为 119B，活跃参数为 6.5B。

0 人收藏 0 人点赞

#sparse-moe

SARA: 通过语义锚定路由对齐释放混合专家模型中的多语言知识

arXiv cs.CL ↗ · 2026-06-25 缓存

本文提出了SARA框架，该框架利用Jensen-Shannon散度对齐多语言输入的路由分布，以改善稀疏混合专家模型中低资源语言的专家共享。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct上的实验显示在多语言基准上有改进。

0 人收藏 0 人点赞

#sparse-moe

@jbhuang0604: Huge! It’s amazing how often Noam’s papers end up at the center of the field. In many tutorial videos I’ve made, they’v…

X AI KOLs Following ↗ · 2026-06-18 缓存

The article provides a detailed explanation of Mixture of Experts (MoE) in transformers, covering routing, load balancing, and recent innovations like fine-grained experts. It also highlights the significance of Noam Shazeer's research contributions and his move from Google to OpenAI.

0 人收藏 0 人点赞

#sparse-moe

StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%

Reddit r/ArtificialInteligence ↗ · 2026-05-30 缓存

StepFun的Step 3.7 Flash是一款198B稀疏MoE模型，活跃参数11B，在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略，将昂贵的前沿模型调用保留给关键决策点。

0 人收藏 0 人点赞

#sparse-moe

Step 3.7 Flash 开放权重今日发布，而智能体可靠性数据确实引人注目

Reddit r/artificial ↗ · 2026-05-29

Step 3.7 Flash 是一款开放权重的 198B 稀疏 MoE 模型，声称在 tau2-bench 上所有难度级别均达到 98% 的智能体可靠性，原始能力中等但多步一致性强劲。

0 人收藏 0 人点赞

#sparse-moe

stepfun-ai/Step-3.7-Flash

Hugging Face Models Trending ↗ · 2026-05-23 缓存

Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型，每个token有11B活跃参数，支持256k上下文和三种推理级别，专为高吞吐量的代理工作流设计。

0 人收藏 0 人点赞

#sparse-moe

DECO：端侧设备上媲美稠密性能的稀疏混合专家模型

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

DECO是一种稀疏MoE架构，仅激活20%的专家并配合3倍加速内核，即可达到与稠密Transformer相当的性能。该架构采用了基于ReLU的路由机制、可学习缩放因子以及NormSiLU激活函数。

0 人收藏 0 人点赞

#sparse-moe

NucleusAI/Nucleus-Image

Hugging Face Models Trending ↗ · 2026-03-17 缓存

Nucleus-Image 是一个开源的文本到图像扩散变换器，拥有 170 亿参数，分布在 64 个路由专家中，每次前向传播仅激活约 20 亿参数。其性能匹配或超越 Qwen-Image 和 Imagen4 等领先模型，同时保持高效率，已发布完整模型权重、训练代码和数据集。

0 人收藏 0 人点赞

sparse-moe

提交意见反馈