@LiorOnAI：现在你可以将任何LLM转换成更快的版本，而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…

X AI KOLs Timeline 2026/07/01 19:32 模型

llm inference-speed diffusion nvidia nemotron parallel-generation fine-tuning

摘要

NVIDIA提出了一种方法，将任何LLM转换为更快的版本，方法是将模型拆分为两个副本：一个冻结用于上下文，另一个训练用于并行生成多个token，实现了2.4倍加速，且质量保留约99%，仅使用了8%的训练数据。

现在你可以将任何LLM转换为更快的版本，而无需从头重新训练。 NVIDIA刚刚在他们30B的模型上做到了这一点。诀窍如下： 1. 将模型复制为两个副本 2. 冻结其中一个副本，它只读取提示并记住上下文 3. 训练另一个副本一次生成文本块，而不是逐字生成 4. 让它们一起运行冻结的副本几乎不消耗额外成本（它已经训练好了）。新的副本只需使用原始训练数据的约8%就能学会这个新技巧。结果：生成速度提升2.4倍，同时保留约99%的原始质量。

查看原文

查看缓存全文

缓存时间: 2026/07/01 22:13

你现在可以将任何LLM变成更快的版本，而无需从头重新训练。

NVIDIA刚刚对他们的30B模型做到了这一点。诀窍如下：

将模型复制成两份
冻结其中一份，它只读取提示并记住上下文
训练另一份一次性写入文本块，而不是逐字生成
让它们一起运行

冻结的副本几乎不消耗额外成本（它已经训练好了）。新的副本只需原始训练数据的约8%就能学会新技巧。

结果：生成速度提升2.4倍，同时保留约99%的原始质量。

NVIDIA AI (@NVIDIAAI): 我们将一个30B模型一分为二，让它们并行生成token，而不是逐个生成。

介绍Nemotron-Labs-TwoTower：这是一个来自NVIDIA Research的扩散语言模型，基于Nemotron-3-Nano-30B-A3B改造而来。工作原理如下：一半保持上下文，另一半

@LiorOnAI：现在你可以将任何LLM转换成更快的版本，而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…

相似文章

@NVIDIAAI：我们将一个300亿参数模型一分为二，并行生成token，而非逐个生成。推出Nemotron-Labs…

@AlphaSignalAI：现在你可以在不训练的情况下，将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…

@HowToAI_: NVIDIA 完成了一项不可能的任务，却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…

Nous Research 发布 Token Superposition Training，可将 LLM 预训练速度提升高达 2.5 倍，覆盖 270M 至 10B 参数模型

@hardmaru: 人脑极其高效，因为它只激活特定思维所需的神经元。现代LLM…

提交意见反馈