hybrid-mamba-attention

标签

Cards List
#hybrid-mamba-attention

Nemotron 3 Ultra:用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers · 4天前 缓存

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型,在20T tokens上预训练,扩展至1M上下文,并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM,其推理吞吐量最高可提升6倍,并已开源。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈