Nemotron-Labs-Diffusion-Image:推进掩蔽离散扩散实现高分辨率图像合成

Hugging Face Daily Papers 论文

摘要

本文提出 Nemotron-Labs-Diffusion-Image,一种用于高分辨率文生图的掩蔽离散扩散模型,引入令牌编辑机制和分组交叉熵目标,以改进令牌精炼和训练效率。

我们提出 Nemotron-Labs-Diffusion-Image,一种先进的掩蔽离散扩散模型(MDM),用于高分辨率文生图合成。与先前在掩蔽图像生成方面的工作相比,Nemotron-Labs-Diffusion-Image 解决了两项关键挑战。首先,与连续扩散模型在整个图像上逐步精炼潜在表示不同,标准 MDM 缺乏自纠正能力,因为离散令牌一旦被解除掩蔽就无法修改。其次,虽然增加离散图像分词器的词汇表大小能提升重建保真度,但由于每个令牌的训练信号变得愈发稀疏,这给生成建模带来了优化困难。为解决第一个挑战,Nemotron-Labs-Diffusion-Image 引入了一种令牌编辑机制,使模型在推理过程中能够动态修改已解除掩蔽的令牌,类似于雕塑家逐步打磨作品。为应对第二个挑战,我们提出了一种分组交叉熵(GCE)目标,该目标为嵌入空间中邻近真实值的令牌分配正向学习信号,从而缓解信号稀疏性。为进一步提升训练效率,我们为 GCE 实现了一个定制融合算子,显著减少了大词汇量设置下的显存占用。实验结果表明,这些创新显著提升了掩蔽离散图像生成器的训练效率和图像保真度,在 GenEval 上达到 0.90 分,在 DPG 上达到 86.9 分,在 HPSv3 上达到 10.76 分。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - Nemotron-Labs-Diffusion-Image:推进掩码离散扩散以实现高分辨率图像合成

来源:https://huggingface.co/papers/2606.29814

摘要

一种用于文本到图像合成的掩码离散扩散模型,通过新颖的机制和优化解决了令牌精炼和训练效率方面的限制。

我们提出了 Nemotron-Labs-Diffusion-Image,这是一种用于高分辨率文本到图像合成的最先进的掩码离散扩散模型(MDM)(https://huggingface.co/papers?q=masked%20discrete%20diffusion%20model)。与以往的掩码图像生成工作相比,Nemotron-Labs-Diffusion-Image 解决了两个关键挑战。首先,与在整个图像上逐步精炼潜在表示的连续扩散模型不同,标准 MDM 缺乏自我纠正能力,因为离散令牌(https://huggingface.co/papers?q=discrete%20tokens)一旦被取消掩码就无法修改。其次,虽然增加离散图像分词器的词汇量可以提高重建保真度,但它也给生成建模带来了优化困难,因为每个令牌的训练信号变得越来越稀疏。为了解决第一个挑战,Nemotron-Labs-Diffusion-Image 引入了一种令牌编辑机制(https://huggingface.co/papers?q=token-editing%20mechanism),使模型能够在推理过程中动态修改已经取消掩码的令牌,就像雕塑家不断精炼其作品一样。为了解决第二个挑战,我们提出了一个分组交叉熵(GCE)(https://huggingface.co/papers?q=Grouped%20Cross-Entropy)目标,该目标为嵌入空间(https://huggingface.co/papers?q=embedding%20space)中接近真实值的令牌分配正学习信号,从而缓解信号稀疏性。为了进一步提高训练效率(https://huggingface.co/papers?q=training%20efficiency),我们实现了一个用于 GCE 的自定义融合算子,该算子在大型词汇量设置下显著减少了 VRAM 使用量(https://huggingface.co/papers?q=VRAM%20usage)。实验结果表明,这些创新显著提高了掩码离散图像生成器的训练效率(https://huggingface.co/papers?q=training%20efficiency)和图像保真度(https://huggingface.co/papers?q=image%20fidelity),在 GenEval(https://huggingface.co/papers?q=GenEval)上达到 0.90,在 DPG(https://huggingface.co/papers?q=DPG)上达到 86.9,在 HPSv3(https://huggingface.co/papers?q=HPSv3)上达到 10.76。

查看 arXiv 页面(https://arxiv.org/abs/2606.29814)查看 PDF(https://arxiv.org/pdf/2606.29814)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2606.29814)

在你的 agent 中获取此论文:

hf papers read 2606\.29814

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.29814 以从此页面链接到它。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.29814 以从此页面链接到它。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.29814 以从此页面链接到它。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接到它。

相似文章

Discrete Stochastic Localization用于非自回归生成

arXiv cs.LG

提出离散随机定位(Discrete Stochastic Localization, DSL),一种用于非自回归文本生成的连续状态扩散框架,采用单位球面令牌嵌入和时步不变的降噪器,在OpenWebText上实现了比掩码离散扩散模型更好的分布忠实性。