decoding-efficiency

#decoding-efficiency

来自NVIDIA的Nemotron-Labs-Diffusion

Reddit r/LocalLLaMA ↗ · 2026-05-19

NVIDIA发布了Nemotron-Labs-Diffusion模型系列（3B至14B），该系列同时支持AR解码和扩散解码，并采用新颖的自推测机制，在多种硬件平台上相比标准AR和Eagle3方法实现了显著加速（最高达4倍）。

0 人收藏 0 人点赞

#decoding-efficiency

arXiv cs.CL ↗ · 2026-04-22 缓存

R²-dLLM 引入时空冗余削减技术，在保持生成质量的同时将扩散 LLM 的解码步数最多压缩 75%，直击部署瓶颈。

0 人收藏 0 人点赞