hybrid-mamba-attention

#hybrid-mamba-attention

Nemotron 3 Ultra：用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers ↗ · 4天前缓存

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型，在20T tokens上预训练，扩展至1M上下文，并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM，其推理吞吐量最高可提升6倍，并已开源。

0 人收藏 0 人点赞