标签
斯坦福和字节跳动推出 W-Flow,一种单步生成模型,利用 Wasserstein 梯度流实现了最先进的单步 ImageNet 256x256 生成(FID 1.29),采样速度比多步扩散模型快 100 倍。
One-Forcing 通过用辅助 GAN 损失增强 DMD 目标,改进了单步视频生成,以更低的训练成本实现了最先进的性能。
介绍了Discrete MeanFlow,一种通过在离散状态空间中学习连续时间马尔可夫链的条件转移核来实现一步生成的方法,避免了迭代去噪。
研究者通过集成高判别力的大语言模型文本编码器,将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入,实现高效的文本条件合成并显著提升性能。