AI2推出的新MoE模型：EMO

Reddit r/LocalLLaMA 2026/05/08 20:57 模型

mixture-of-experts moe ai2 emo document-routing language-model

摘要

AI2发布了EMO，一个混合专家（MoE）语言模型，总参数量14B，其中1B活跃参数，基于1万亿tokens训练，并采用文档级路由，即专家会按领域（如健康、新闻等）进行聚类。

AI2的新MoE模型——EMO，总参数量14B，活跃参数1B，基于1万亿tokens训练。其有趣之处在于文档级路由：专家会按领域（如健康、新闻等）进行聚类，而非表面模式。模型：[https://huggingface.co/collections/allenai/emo](https://huggingface.co/collections/allenai/emo)

查看原文

相似文章

EMO：通过预训练混合专家实现涌现模块化

Hugging Face Blog

Allen AI 发布了 EMO 模型，这是一种混合专家模型，其中模块化结构从数据中自然涌现，使得仅使用 12.5% 的专家就能完成一项任务，同时保持接近完整模型的性能。

EMO：用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers

EMO 是一种专家混合模型（Mixture-of-Experts），通过将相似领域的词元与共享专家分组实现模块化部署，在保持与标准 MoE 相当的性能的同时，支持显著的专家剪枝（保留 25% 的专家即可保留 99% 的性能）且不会导致性能下降。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章，介绍 Transformer 中的专家混合模型 (MoEs) 架构，涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending

小米发布了 MiMo-V2.5-Pro，这是一个开源的 MoE 语言模型，拥有 1.02T 总参数和 1M token 上下文长度，专为复杂的智能体（Agent）和软件工程任务进行了优化。

@eliebakouch：@OpenAI 这次发布太棒了！一个总参数量 1.5 B、仅激活 50 M 的 gpt-oss 架构 MoE，能从万亿级数据中廉价滤除隐私信息…

X AI KOLs Following

OpenAI 发布 15 亿总参数的 MoE 模型，仅激活 5000 万参数，即可在万亿 token 数据集中过滤隐私信息，同时保持 128 k 上下文长度。