标签
NVIDIA发布了Nemotron-Labs-Diffusion模型系列(3B至14B),该系列同时支持AR解码和扩散解码,并采用新颖的自推测机制,在多种硬件平台上相比标准AR和Eagle3方法实现了显著加速(最高达4倍)。
R²-dLLM 引入时空冗余削减技术,在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%,直击部署瓶颈。