标签
GEAR提出了一种通过表示对齐共同训练向量量化分词器和自回归生成器的方法,实现端到端训练,在ImageNet gFID上相比强基线实现高达10倍的收敛速度提升。
本文提出 Nemotron-Labs-Diffusion-Image,一种用于高分辨率文生图的掩蔽离散扩散模型,引入令牌编辑机制和分组交叉熵目标,以改进令牌精炼和训练效率。
介绍了有色噪声采样(CNS),这是一种无需训练的扩散模型随机求解器,可根据频率依赖的时间表动态分配能量,在ImageNet-256上显著提高了FID等图像质量指标。
本文提出 Sphere Latent Encoder,一种高效的少步图像生成框架,该框架完全在球面潜空间中进行去噪,能够在 ImageNet-1K 上以显著降低的计算成本生成高质量 256×256 图像,并提升 FID 分数。