@NVIDIAAI:我们将一个300亿参数模型一分为二,并行生成token,而非逐个生成。推出Nemotron-Labs…

X AI KOLs Timeline 模型

摘要

NVIDIA Research推出Nemotron-Labs-TwoTower,这是一种扩散语言模型,它将一个300亿参数的模型分成两半,实现并行token生成,生成速度提升2.42倍,同时保持了原始质量的98.7%。

我们将一个300亿参数的模型一分为二,并行生成token,而非逐个生成。 推出Nemotron-Labs-TwoTower:这是NVIDIA Research基于Nemotron-3-Nano-30B-A3B改进的扩散语言模型。工作原理:一半保留上下文,另一半生成token,两者都复用预训练模型,而非从头训练新模型。 我们发现,它保持了原始模型98.7%的质量,生成速度提升了2.42倍。
查看原文
查看缓存全文

缓存时间: 2026/07/02 02:16

我们将一个30B模型拆分为两半,实现token的并行生成,而非逐一顺序生成。

这就是Nemotron-Labs-TwoTower:一款由NVIDIA Research基于Nemotron-3-Nano-30B-A3B改进的扩散语言模型。其工作原理如下:一半负责维护上下文,另一半负责生成token,两者均复用预训练模型,无需从头训练新模型。

我们发现,该方案在保持原模型98.7%生成质量的同时,实现了2.42倍的生成速度提升。

相似文章