@NVIDIAAI：我们将一个300亿参数模型一分为二，并行生成token，而非逐个生成。推出Nemotron-Labs…

X AI KOLs Timeline 2026/07/01 19:00 模型

摘要

NVIDIA Research推出Nemotron-Labs-TwoTower，这是一种扩散语言模型，它将一个300亿参数的模型分成两半，实现并行token生成，生成速度提升2.42倍，同时保持了原始质量的98.7%。

我们将一个300亿参数的模型一分为二，并行生成token，而非逐个生成。推出Nemotron-Labs-TwoTower：这是NVIDIA Research基于Nemotron-3-Nano-30B-A3B改进的扩散语言模型。工作原理：一半保留上下文，另一半生成token，两者都复用预训练模型，而非从头训练新模型。我们发现，它保持了原始模型98.7%的质量，生成速度提升了2.42倍。

查看原文

查看缓存全文

缓存时间: 2026/07/02 02:16

我们将一个30B模型拆分为两半，实现token的并行生成，而非逐一顺序生成。

这就是Nemotron-Labs-TwoTower：一款由NVIDIA Research基于Nemotron-3-Nano-30B-A3B改进的扩散语言模型。其工作原理如下：一半负责维护上下文，另一半负责生成token，两者均复用预训练模型，无需从头训练新模型。

我们发现，该方案在保持原模型98.7%生成质量的同时，实现了2.42倍的生成速度提升。

@NVIDIAAI：我们将一个300亿参数模型一分为二，并行生成token，而非逐个生成。推出Nemotron-Labs…

相似文章

NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16，这是一种基于 Nemotron 3 Nano 30B-A3B 主干构建的异常扩散型语言模型。

@NVIDIAAI: 大多数语言模型一次只生成一个token。我们刚刚发布了Nemotron-Labs-Diffusion，一个扩散语言模型系列…

@LiorOnAI：现在你可以将任何LLM转换成更快的版本，而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…

迈向光速文本生成：Nemotron-Labs扩散语言模型

@ctnzr: 我们更进一步：Nemotron 3 Super 拥有120B参数，在NVFP4精度下基于25T tokens进行了预训练。Nemotron 3 Ultra 大约为500B参数，……

提交意见反馈