AI2推出的新MoE模型:EMO

Reddit r/LocalLLaMA 模型

摘要

AI2发布了EMO,一个混合专家(MoE)语言模型,总参数量14B,其中1B活跃参数,基于1万亿tokens训练,并采用文档级路由,即专家会按领域(如健康、新闻等)进行聚类。

AI2的新MoE模型——EMO,总参数量14B,活跃参数1B,基于1万亿tokens训练。其有趣之处在于文档级路由:专家会按领域(如健康、新闻等)进行聚类,而非表面模式。模型:[https://huggingface.co/collections/allenai/emo](https://huggingface.co/collections/allenai/emo)
查看原文

相似文章

EMO:通过预训练混合专家实现涌现模块化

Hugging Face Blog

Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。

EMO:用于涌现模块化的专家混合模型预训练

Hugging Face Daily Papers

EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending

小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。