Nemotron-Labs-Diffusion-Image:推进掩蔽离散扩散实现高分辨率图像合成
摘要
本文提出 Nemotron-Labs-Diffusion-Image,一种用于高分辨率文生图的掩蔽离散扩散模型,引入令牌编辑机制和分组交叉熵目标,以改进令牌精炼和训练效率。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文页面 - Nemotron-Labs-Diffusion-Image:推进掩码离散扩散以实现高分辨率图像合成
来源:https://huggingface.co/papers/2606.29814
摘要
一种用于文本到图像合成的掩码离散扩散模型,通过新颖的机制和优化解决了令牌精炼和训练效率方面的限制。
我们提出了 Nemotron-Labs-Diffusion-Image,这是一种用于高分辨率文本到图像合成的最先进的掩码离散扩散模型(MDM)(https://huggingface.co/papers?q=masked%20discrete%20diffusion%20model)。与以往的掩码图像生成工作相比,Nemotron-Labs-Diffusion-Image 解决了两个关键挑战。首先,与在整个图像上逐步精炼潜在表示的连续扩散模型不同,标准 MDM 缺乏自我纠正能力,因为离散令牌(https://huggingface.co/papers?q=discrete%20tokens)一旦被取消掩码就无法修改。其次,虽然增加离散图像分词器的词汇量可以提高重建保真度,但它也给生成建模带来了优化困难,因为每个令牌的训练信号变得越来越稀疏。为了解决第一个挑战,Nemotron-Labs-Diffusion-Image 引入了一种令牌编辑机制(https://huggingface.co/papers?q=token-editing%20mechanism),使模型能够在推理过程中动态修改已经取消掩码的令牌,就像雕塑家不断精炼其作品一样。为了解决第二个挑战,我们提出了一个分组交叉熵(GCE)(https://huggingface.co/papers?q=Grouped%20Cross-Entropy)目标,该目标为嵌入空间(https://huggingface.co/papers?q=embedding%20space)中接近真实值的令牌分配正学习信号,从而缓解信号稀疏性。为了进一步提高训练效率(https://huggingface.co/papers?q=training%20efficiency),我们实现了一个用于 GCE 的自定义融合算子,该算子在大型词汇量设置下显著减少了 VRAM 使用量(https://huggingface.co/papers?q=VRAM%20usage)。实验结果表明,这些创新显著提高了掩码离散图像生成器的训练效率(https://huggingface.co/papers?q=training%20efficiency)和图像保真度(https://huggingface.co/papers?q=image%20fidelity),在 GenEval(https://huggingface.co/papers?q=GenEval)上达到 0.90,在 DPG(https://huggingface.co/papers?q=DPG)上达到 86.9,在 HPSv3(https://huggingface.co/papers?q=HPSv3)上达到 10.76。
查看 arXiv 页面(https://arxiv.org/abs/2606.29814)查看 PDF(https://arxiv.org/pdf/2606.29814)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2606.29814)
在你的 agent 中获取此论文:
hf papers read 2606\.29814
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.29814 以从此页面链接到它。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.29814 以从此页面链接到它。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.29814 以从此页面链接到它。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接到它。
相似文章
迈向光速文本生成:Nemotron-Labs扩散语言模型
NVIDIA推出Nemotron-Labs Diffusion,这是一系列扩散语言模型,可并行生成文本并迭代优化,从而提供更快的生成速度并支持修订之前的令牌。
Set Diffusion:在自回归与扩散之间插值令牌顺序以实现快速灵活的解码
Set Diffusion 引入了一类新的语言模型,通过在灵活位置、灵活长度的令牌集合上分解令牌生成,在自回归模型和扩散模型之间进行插值。这使得解码速度更快,令牌排序更灵活,在推理、摘要和无条件生成任务上实现了更好的速度-质量权衡。
MaskAlign: Token子集表征对齐实现高效扩散训练
MaskAlign提出了一种Token子集表征对齐方法,通过减少对完整Token集的依赖,并在扰动下保持稳定对齐,从而改进扩散Transformer训练。
用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型
本文提出了用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型(DRDD),将用于域协调的噪声扩散与用于语义映射的残差扩散解耦。
Discrete Stochastic Localization用于非自回归生成
提出离散随机定位(Discrete Stochastic Localization, DSL),一种用于非自回归文本生成的连续状态扩散框架,采用单位球面令牌嵌入和时步不变的降噪器,在OpenWebText上实现了比掩码离散扩散模型更好的分布忠实性。