标签
NVIDIA发布了Nemotron-Labs-Diffusion,这是一个三模式语言模型系列(3B、8B、14B),支持自回归(AR)、扩散和自推测解码,相比标准AR解码实现了2.7倍到4倍的加速。