@LiorOnAI:现在你可以将任何LLM转换成更快的版本,而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…
摘要
NVIDIA提出了一种方法,将任何LLM转换为更快的版本,方法是将模型拆分为两个副本:一个冻结用于上下文,另一个训练用于并行生成多个token,实现了2.4倍加速,且质量保留约99%,仅使用了8%的训练数据。
查看缓存全文
缓存时间: 2026/07/01 22:13
你现在可以将任何LLM变成更快的版本,而无需从头重新训练。
NVIDIA刚刚对他们的30B模型做到了这一点。诀窍如下:
-
将模型复制成两份
-
冻结其中一份,它只读取提示并记住上下文
-
训练另一份一次性写入文本块,而不是逐字生成
-
让它们一起运行
冻结的副本几乎不消耗额外成本(它已经训练好了)。新的副本只需原始训练数据的约8%就能学会新技巧。
结果:生成速度提升2.4倍,同时保留约99%的原始质量。
NVIDIA AI (@NVIDIAAI): 我们将一个30B模型一分为二,让它们并行生成token,而不是逐个生成。
介绍Nemotron-Labs-TwoTower:这是一个来自NVIDIA Research的扩散语言模型,基于Nemotron-3-Nano-30B-A3B改造而来。工作原理如下:一半保持上下文,另一半
相似文章
@NVIDIAAI:我们将一个300亿参数模型一分为二,并行生成token,而非逐个生成。推出Nemotron-Labs…
NVIDIA Research推出Nemotron-Labs-TwoTower,这是一种扩散语言模型,它将一个300亿参数的模型分成两半,实现并行token生成,生成速度提升2.42倍,同时保持了原始质量的98.7%。
@AlphaSignalAI:现在你可以在不训练的情况下,将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…
OptiLLM是一个开源代理,通过在推理时增加额外计算,将任意LLM的准确率提升2-10倍,使用了多智能体交叉验证和蒙特卡洛树搜索等技术。
@HowToAI_: NVIDIA 完成了一项不可能的任务,却无人提及。他们以 4 位精度训练了一个 120 亿参数的 LLM…
NVIDIA 利用新的 NVFP4 格式及微缩放技术,以 4 位精度训练了一个 120 亿参数的大语言模型,在几乎不损失智能的同时,内存使用减半、算术速度提升三倍,标志着高效 AI 训练的重大突破。
Nous Research 发布 Token Superposition Training,可将 LLM 预训练速度提升高达 2.5 倍,覆盖 270M 至 10B 参数模型
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。
@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…
本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。