nvidia/Nemotron-Labs-Diffusion-14B

Hugging Face Models Trending 2026/04/22 23:06 模型

nvidia diffusion-model language-model self-speculation efficient-decoding open-model-license

摘要

NVIDIA发布了Nemotron-Labs-Diffusion，这是一个三模式语言模型系列（3B、8B、14B），支持自回归（AR）、扩散和自推测解码，相比标准AR解码实现了2.7倍到4倍的加速。

任务: text-generation 标签: transformers, safetensors, nemotron_labs_diffusion, feature-extraction, nvidia, pytorch, text-generation, conversational, custom_code, license:other, region:us

查看原文

查看缓存全文

缓存时间: 2026/05/22 19:45

nvidia/Nemotron-Labs-Diffusion-14B · Hugging Face

来源：https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B Chat（https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL）Nemotron-Labs-Diffusion 模型系列（https://huggingface.co/collections/nvidia/nemotron-labs-diffusion）许可证（https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-nemotron-open-model-license/）

Demo（https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/assets/demo.mp4）

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#model-overview模型概述

Nemotron-Labs-Diffusion 是一个三模式语言模型，支持自回归解码和基于扩散的并行解码——只需在推理过程中切换同一模型的注意力模式即可。这两种模式之间的协同作用催生了第三种模式，称为自推测：同一模型使用共享的 KV 缓存执行基于扩散的并行草稿生成和自回归验证，实现了高接受长度和解码效率。通过简单地改变注意力模式实现的无缝模式切换，使得单个模型在不同部署场景、不同并发级别下都能实现高效率。

三模式语言模型示意图

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#highlights亮点

包含 3B、8B、14B 参数的密集语言模型系列（基础版、指令版和视觉语言变体），支持自回归、扩散和自推测三种模式，专注于解码效率。
生成过程从内存受限转向计算受限。模型权重只加载一次，并在生成过程中重复用于计算多个 token。
自推测模式使用扩散进行草稿生成、自回归进行验证，为 MTP 方法提供了更强的替代方案：
- 在 SGLang 中，与 Qwen3-8B-Eagle3 相比，接受长度提高 3 倍，速度提升 2.2 倍。
- 在相同精度下，相对于 Qwen3-8B（无 MTP），每前向传播生成的 token 数达到 5.9 倍。
跨平台的实际设备加速：
- DGX Spark（8B，并发数 1）：使用 w4a16 时，速度为 112 tok/s，是自回归 41.8 tok/s 的 2.7 倍。
- GB200（8B，并发数 1）：速度为 850 tok/s，是自回归 253 tok/s 及 Eagle3 360 tok/s 的 3.3 倍。自定义 CUDA 内核可进一步提升至 1015 tok/s（4 倍）。
扩散加速的“光速”分析表明，通过更好的采样（未来研究），单个用户的吞吐量可进一步提升（相比当前最好方法翻倍）。

效率结果

精度结果

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#licenseterms-of-use许可证/使用条款

使用此模型需遵守 NVIDIA Nemotron 开放模型许可证（https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-nemotron-open-model-license/）。

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#environment环境

transformers>=5.0.0

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#chat-with-our-model与我们的模型对话

from transformers import AutoModel, AutoTokenizer
import torch

repo_name = "nvidia/Nemotron-Labs-Diffusion-14B"

tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
model = AutoModel.from_pretrained(repo_name, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)

history = []

user_input = input("User: ").strip()
history.append({"role": "user", "content": user_input})

prompt = tokenizer.apply_chat_template(history, tokenize=False, add_generation_prompt=True)
prompt_ids = tokenizer(prompt, return_tensors='pt').input_ids.to(device='cuda')

## 以自回归模式聊天
out_ids, nfe = model.ar_generate(inputs.input_ids, max_new_tokens=512)

## 以 dLM 模式聊天
out_ids, nfe = model.generate(prompt_ids, max_new_tokens=512, block_length=32, threshold=0.9, eos_token_id=tokenizer.eos_token_id)

## 以线性自推测模式聊天
out_ids, nfe = model.linear_spec_generate(prompt_ids, max_new_tokens=512, block_length=32, eos_token_id=tokenizer.eos_token_id)

tokenized_out = tokenizer.batch_decode(out_ids[:, prompt_ids.shape[1]:], skip_special_tokens=True)[0]
print(f"Model: {tokenized_out}")
print(f"[Num Function Eval (NFE)={nfe}]")

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#inference-with-linear-self-speculation–lora-enhanced-drafter使用线性自推测 + LoRA 增强草稿器进行推理

一个可选的 LoRA 适配器可在线性自推测模式中应用于扩散草稿器，以进一步提高接受长度：

import torch
from transformers import AutoModel, AutoTokenizer
from peft import PeftModel

repo = "nvidia/Nemotron-Labs-Diffusion-14B"
tokenizer = AutoTokenizer.from_pretrained(repo, trust_remote_code=True)
model = AutoModel.from_pretrained(repo, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)

# 挂载 linear_spec LoRA 适配器。
model = PeftModel.from_pretrained(model, repo, subfolder="linear_spec_lora").eval()
# 解包以便直接调用 linear_spec_generate（它会在内部切换 LoRA）。
base = model.model

history = [{"role": "user", "content": "求解：240 的 15% 是多少？"}]
prompt = tokenizer.apply_chat_template(history, tokenize=False, add_generation_prompt=True)
prompt_ids = tokenizer(prompt, return_tensors="pt").input_ids.cuda()

out_ids, nfe = base.linear_spec_generate(
    prompt_ids, max_new_tokens=512, block_length=32,
    eos_token_id=tokenizer.eos_token_id,
)
print(tokenizer.decode(out_ids[0, prompt_ids.shape[1]:], skip_special_tokens=True))
print(f"[NFE={nfe}]")

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#ethical-considerations伦理考量

NVIDIA 认为值得信赖的 AI 是共同的责任，我们已制定相关政策和实践，以支持广泛 AI 应用的开发。当按照我们的服务条款下载或使用此模型时，开发者应与其内部模型团队协作，确保此模型满足相关行业和用例的要求，并应对潜在的误用风险。有关此模型伦理考量的更详细信息，请参阅偏差（https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/bias.md）、可解释性（https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/explainability.md）、安全与防护（https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/safety.md）以及隐私（https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B/blob/main/model_cards/privacy.md）子卡片。

请在此处（https://www.nvidia.com/en-us/support/submit-security-vulnerability/）报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#citations引用

@techreport{fu2026nemotronlabsdiffusion,
  title       = {Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding},
  author      = {Yonggan Fu and Lexington Whalen and Abhinav Garg and Chengyue Wu and Maksim Khadkevich and Nicolai Oswald and Enze Xie and Daniel Egert and Sharath Turuvekere Sreenivas and Shizhe Diao and Chenhan Yu and Ye Yu and Weijia Chen and Sajad Norouzi and Shiyi Lan and Ligeng Zhu and Jin Wang and Jindong Jiang and Morteza Mardani and Mehran Maghoumi and Song Han and Ante Jukic and Nima Tajbakhsh and Jan Kautz and Pavlo Molchanov},
  institution = {NVIDIA},
  year        = {2026},
  note        = {Technical report}
}

nvidia/Nemotron-Labs-Diffusion-14B

nvidia/Nemotron-Labs-Diffusion-14B · Hugging Face

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#model-overview模型概述

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#highlights亮点

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#licenseterms-of-use许可证/使用条款

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#environment环境

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#chat-with-our-model与我们的模型对话

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#inference-with-linear-self-speculation–lora-enhanced-drafter使用线性自推测 + LoRA 增强草稿器进行推理

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#ethical-considerations伦理考量

https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B#citations引用

相似文章

来自NVIDIA的Nemotron-Labs-Diffusion

@PavloMolchanov: 我们发布了Nemotron-Labs-Diffusion - 首个三模式语言模型系列（3B/8B/14B），可在自回归……之间切换

Nemotron-Labs-Diffusion: 统一自回归、扩散与自推测解码的三模式语言模型

NVIDIA 发布了 Nemotron-TwoTower-30B-A3B-Base-BF16，这是一种基于 Nemotron 3 Nano 30B-A3B 主干构建的异常扩散型语言模型。

nvidia/nemotron-3.5-asr-streaming-0.6b

提交意见反馈