nvidia/Nemotron-Labs-Diffusion-14B

Hugging Face Models Trending 模型

摘要

NVIDIA发布了Nemotron-Labs-Diffusion,这是一个三模式语言模型系列(3B、8B、14B),支持自回归(AR)、扩散和自推测解码,相比标准AR解码实现了2.7倍到4倍的加速。

任务: text-generation 标签: transformers, safetensors, nemotron_labs_diffusion, feature-extraction, nvidia, pytorch, text-generation, conversational, custom_code, license:other, region:us
查看原文
查看缓存全文

缓存时间: 2026/05/22 19:45

nvidia/Nemotron-Labs-Diffusion-14B · Hugging Face

来源:https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B Chat(https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL)Nemotron-Labs-Diffusion 模型系列(https://huggingface.co/collections/nvidia/nemotron-labs-diffusion)许可证(https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-nemotron-open-model-license/)

Demo(https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/assets/demo.mp4)

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#model-overview模型概述

Nemotron-Labs-Diffusion 是一个三模式语言模型,支持自回归解码和基于扩散的并行解码——只需在推理过程中切换同一模型的注意力模式即可。这两种模式之间的协同作用催生了第三种模式,称为自推测:同一模型使用共享的 KV 缓存执行基于扩散的并行草稿生成和自回归验证,实现了高接受长度和解码效率。通过简单地改变注意力模式实现的无缝模式切换,使得单个模型在不同部署场景、不同并发级别下都能实现高效率。

三模式语言模型示意图

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#highlights亮点

  • 包含 3B、8B、14B 参数的密集语言模型系列(基础版、指令版和视觉语言变体),支持自回归、扩散和自推测三种模式,专注于解码效率。
  • 生成过程从内存受限转向计算受限。模型权重只加载一次,并在生成过程中重复用于计算多个 token。
  • 自推测模式使用扩散进行草稿生成、自回归进行验证,为 MTP 方法提供了更强的替代方案:
    • 在 SGLang 中,与 Qwen3-8B-Eagle3 相比,接受长度提高 3 倍,速度提升 2.2 倍。
    • 在相同精度下,相对于 Qwen3-8B(无 MTP),每前向传播生成的 token 数达到 5.9 倍。
  • 跨平台的实际设备加速:
    • DGX Spark(8B,并发数 1):使用 w4a16 时,速度为 112 tok/s,是自回归 41.8 tok/s 的 2.7 倍。
    • GB200(8B,并发数 1):速度为 850 tok/s,是自回归 253 tok/s 及 Eagle3 360 tok/s 的 3.3 倍。自定义 CUDA 内核可进一步提升至 1015 tok/s(4 倍)。
  • 扩散加速的“光速”分析表明,通过更好的采样(未来研究),单个用户的吞吐量可进一步提升(相比当前最好方法翻倍)。

效率结果

精度结果

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#licenseterms-of-use许可证/使用条款

使用此模型需遵守 NVIDIA Nemotron 开放模型许可证(https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-nemotron-open-model-license/)。

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#environment环境

transformers>=5.0.0

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#chat-with-our-model与我们的模型对话

from transformers import AutoModel, AutoTokenizer
import torch

repo_name = "nvidia/Nemotron-Labs-Diffusion-14B"

tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
model = AutoModel.from_pretrained(repo_name, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)

history = []

user_input = input("User: ").strip()
history.append({"role": "user", "content": user_input})

prompt = tokenizer.apply_chat_template(history, tokenize=False, add_generation_prompt=True)
prompt_ids = tokenizer(prompt, return_tensors='pt').input_ids.to(device='cuda')

## 以自回归模式聊天
out_ids, nfe = model.ar_generate(inputs.input_ids, max_new_tokens=512)

## 以 dLM 模式聊天
out_ids, nfe = model.generate(prompt_ids, max_new_tokens=512, block_length=32, threshold=0.9, eos_token_id=tokenizer.eos_token_id)

## 以线性自推测模式聊天
out_ids, nfe = model.linear_spec_generate(prompt_ids, max_new_tokens=512, block_length=32, eos_token_id=tokenizer.eos_token_id)

tokenized_out = tokenizer.batch_decode(out_ids[:, prompt_ids.shape[1]:], skip_special_tokens=True)[0]
print(f"Model: {tokenized_out}")
print(f"[Num Function Eval (NFE)={nfe}]")

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#inference-with-linear-self-speculation–lora-enhanced-drafter使用线性自推测 + LoRA 增强草稿器进行推理

一个可选的 LoRA 适配器可在线性自推测模式中应用于扩散草稿器,以进一步提高接受长度:

import torch
from transformers import AutoModel, AutoTokenizer
from peft import PeftModel

repo = "nvidia/Nemotron-Labs-Diffusion-14B"
tokenizer = AutoTokenizer.from_pretrained(repo, trust_remote_code=True)
model = AutoModel.from_pretrained(repo, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)

# 挂载 linear_spec LoRA 适配器。
model = PeftModel.from_pretrained(model, repo, subfolder="linear_spec_lora").eval()
# 解包以便直接调用 linear_spec_generate(它会在内部切换 LoRA)。
base = model.model

history = [{"role": "user", "content": "求解:240 的 15% 是多少?"}]
prompt = tokenizer.apply_chat_template(history, tokenize=False, add_generation_prompt=True)
prompt_ids = tokenizer(prompt, return_tensors="pt").input_ids.cuda()

out_ids, nfe = base.linear_spec_generate(
    prompt_ids, max_new_tokens=512, block_length=32,
    eos_token_id=tokenizer.eos_token_id,
)
print(tokenizer.decode(out_ids[0, prompt_ids.shape[1]:], skip_special_tokens=True))
print(f"[NFE={nfe}]")

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#ethical-considerations伦理考量

NVIDIA 认为值得信赖的 AI 是共同的责任,我们已制定相关政策和实践,以支持广泛 AI 应用的开发。当按照我们的服务条款下载或使用此模型时,开发者应与其内部模型团队协作,确保此模型满足相关行业和用例的要求,并应对潜在的误用风险。有关此模型伦理考量的更详细信息,请参阅偏差(https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/bias.md)、可解释性(https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/explainability.md)、安全与防护(https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/safety.md)以及隐私(https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/privacy.md)子卡片。

请在此处(https://www.nvidia.com/en-us/support/submit-security-vulnerability/)报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#citations引用

@techreport{fu2026nemotronlabsdiffusion,
  title       = {Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding},
  author      = {Yonggan Fu and Lexington Whalen and Abhinav Garg and Chengyue Wu and Maksim Khadkevich and Nicolai Oswald and Enze Xie and Daniel Egert and Sharath Turuvekere Sreenivas and Shizhe Diao and Chenhan Yu and Ye Yu and Weijia Chen and Sajad Norouzi and Shiyi Lan and Ligeng Zhu and Jin Wang and Jindong Jiang and Morteza Mardani and Mehran Maghoumi and Song Han and Ante Jukic and Nima Tajbakhsh and Jan Kautz and Pavlo Molchanov},
  institution = {NVIDIA},
  year        = {2026},
  note        = {Technical report}
}

相似文章

来自NVIDIA的Nemotron-Labs-Diffusion

Reddit r/LocalLLaMA

NVIDIA发布了Nemotron-Labs-Diffusion模型系列(3B至14B),该系列同时支持AR解码和扩散解码,并采用新颖的自推测机制,在多种硬件平台上相比标准AR和Eagle3方法实现了显著加速(最高达4倍)。

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Hugging Face Models Trending

NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。