@NVIDIAAI:我们将一个300亿参数模型一分为二,并行生成token,而非逐个生成。推出Nemotron-Labs…
摘要
NVIDIA Research推出Nemotron-Labs-TwoTower,这是一种扩散语言模型,它将一个300亿参数的模型分成两半,实现并行token生成,生成速度提升2.42倍,同时保持了原始质量的98.7%。
查看缓存全文
缓存时间: 2026/07/02 02:16
我们将一个30B模型拆分为两半,实现token的并行生成,而非逐一顺序生成。
这就是Nemotron-Labs-TwoTower:一款由NVIDIA Research基于Nemotron-3-Nano-30B-A3B改进的扩散语言模型。其工作原理如下:一半负责维护上下文,另一半负责生成token,两者均复用预训练模型,无需从头训练新模型。
我们发现,该方案在保持原模型98.7%生成质量的同时,实现了2.42倍的生成速度提升。
相似文章
NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16,这是一种基于 Nemotron 3 Nano 30B-A3B 主干构建的异常扩散型语言模型。
NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16,这是一种基于扩散的语言模型,采用逐块自回归扩散方法,通过对令牌块进行迭代去噪来生成文本,实现了自回归基线 2.42 倍的生成吞吐量,同时保留了基准测试质量 98.7% 的水平。
@NVIDIAAI: 大多数语言模型一次只生成一个token。我们刚刚发布了Nemotron-Labs-Diffusion,一个扩散语言模型系列…
NVIDIA发布了Nemotron-Labs-Diffusion,这是一个扩散语言模型系列,可以并行生成多个token,从而实现更快的推理和更好的GPU利用率,模型规模从3B到14B,包括视觉语言变体。
@LiorOnAI:现在你可以将任何LLM转换成更快的版本,而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…
NVIDIA提出了一种方法,将任何LLM转换为更快的版本,方法是将模型拆分为两个副本:一个冻结用于上下文,另一个训练用于并行生成多个token,实现了2.4倍加速,且质量保留约99%,仅使用了8%的训练数据。
迈向光速文本生成:Nemotron-Labs扩散语言模型
NVIDIA推出Nemotron-Labs Diffusion,这是一系列扩散语言模型,可并行生成文本并迭代优化,从而提供更快的生成速度并支持修订之前的令牌。
@ctnzr: 我们更进一步:Nemotron 3 Super 拥有120B参数,在NVFP4精度下基于25T tokens进行了预训练。Nemotron 3 Ultra 大约为500B参数,……
NVIDIA 宣布推出 Nemotron 3 Super(120B)和 Nemotron 3 Ultra(约500B)模型,这些模型在 NVFP4 精度下基于25T tokens进行了预训练,强调加速计算和效率提升。