@LiorOnAI:现在你可以将任何LLM转换成更快的版本,而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…

X AI KOLs Timeline 模型

摘要

NVIDIA提出了一种方法,将任何LLM转换为更快的版本,方法是将模型拆分为两个副本:一个冻结用于上下文,另一个训练用于并行生成多个token,实现了2.4倍加速,且质量保留约99%,仅使用了8%的训练数据。

现在你可以将任何LLM转换为更快的版本,而无需从头重新训练。 NVIDIA刚刚在他们30B的模型上做到了这一点。诀窍如下: 1. 将模型复制为两个副本 2. 冻结其中一个副本,它只读取提示并记住上下文 3. 训练另一个副本一次生成文本块,而不是逐字生成 4. 让它们一起运行 冻结的副本几乎不消耗额外成本(它已经训练好了)。新的副本只需使用原始训练数据的约8%就能学会这个新技巧。 结果:生成速度提升2.4倍,同时保留约99%的原始质量。
查看原文
查看缓存全文

缓存时间: 2026/07/01 22:13

你现在可以将任何LLM变成更快的版本,而无需从头重新训练。

NVIDIA刚刚对他们的30B模型做到了这一点。诀窍如下:

  1. 将模型复制成两份

  2. 冻结其中一份,它只读取提示并记住上下文

  3. 训练另一份一次性写入文本块,而不是逐字生成

  4. 让它们一起运行

冻结的副本几乎不消耗额外成本(它已经训练好了)。新的副本只需原始训练数据的约8%就能学会新技巧。

结果:生成速度提升2.4倍,同时保留约99%的原始质量。

NVIDIA AI (@NVIDIAAI): 我们将一个30B模型一分为二,让它们并行生成token,而不是逐个生成。

介绍Nemotron-Labs-TwoTower:这是一个来自NVIDIA Research的扩散语言模型,基于Nemotron-3-Nano-30B-A3B改造而来。工作原理如下:一半保持上下文,另一半

相似文章