用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型
摘要
本文提出了用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型(DRDD),将用于域协调的噪声扩散与用于语义映射的残差扩散解耦。
查看缓存全文
缓存时间: 2026/06/03 07:36
论文页面 - 解耦残差去噪扩散模型:用于统一且数据高效的图像到图像转换
来源:https://huggingface.co/papers/2606.01048
摘要
解耦残差去噪扩散模型(DRDD)通过将用于领域协调的噪声扩散与用于语义映射的残差扩散分离,改进了统一的图像到图像转换,提升了数据效率与性能。
我们提出解耦残差去噪扩散模型(https://huggingface.co/papers?q=Diffusion%20models)(DRDD),用于统一且数据高效的图像到图像(I2I)转换。虽然扩散模型(https://huggingface.co/papers?q=diffusion%20models)在图像质量与多样性方面推动了I2I转换的发展,但我们发现了一个此前未被充分探索的扩散模型特性。至关重要的是,除了其传统作用——流形提升(https://huggingface.co/papers?q=manifold%20lifting)(即将数据移出低维流形),注入高斯噪声还有助于领域协调(https://huggingface.co/papers?q=domain%20harmonization),通过隐式对齐跨域特征分布,这一特性对统一I2I转换(https://huggingface.co/papers?q=unified%20I2I%20translation)尤为有利。然而,现有扩散模型(https://huggingface.co/papers?q=diffusion%20models)会过早削弱这种协调效果,因为噪声和残差在一个耦合的扩散过程中被同时移除。为解决此问题,DRDD将扩散过程解耦为两个连续且独立的扩散阶段:(1)随机噪声扩散(https://huggingface.co/papers?q=noise%20diffusion),用于领域协调(https://huggingface.co/papers?q=domain%20harmonization)与流形提升(https://huggingface.co/papers?q=manifold%20lifting);(2)确定性残差扩散(https://huggingface.co/papers?q=residual%20diffusion),在固定的噪声域内完整学习核心语义映射。这种解耦在整个转换过程中保留了协调与流形提升(https://huggingface.co/papers?q=manifold%20lifting)效果,极大简化了跨不同任务与领域的统一映射学习。值得注意的是,噪声扩散(https://huggingface.co/papers?q=noise%20diffusion)阶段仅使用大量无配对的目标域图像进行训练,显著提升了数据效率(https://huggingface.co/papers?q=data%20efficiency)。全面的理论与实证分析表明,DRDD广泛兼容主流扩散模型(https://huggingface.co/papers?q=diffusion%20models),即使在有限配对数据下也能持续实现鲁棒、统一的I2I转换(https://huggingface.co/papers?q=unified%20I2I%20translation)。我们的代码可在 https://github.com/HKU-HealthAI/DRDD 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.01048)查看 PDF(https://arxiv.org/pdf/2606.01048)GitHub6(https://github.com/HKU-HealthAI/DRDD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01048)
在你的 agent 中获取此论文:
hf papers read 2606.01048
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.01048 即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.01048 即可从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.01048 即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
RepFusion:利用多模态先验进行表示空间中的去噪
RepFusion 提出使用多模态大语言模型作为噪声表示编码器,用于文本到图像生成中的扩散变压器,优于传统的去噪方法。
统一扩散模型再探:留一法去噪器与吸收态重表述
重新审视统一扩散模型,指出了插入式ELBO与交叉熵去噪目标之间的不匹配,并提出了留一法参数化以及吸收态重表述,该方法无需额外训练即可提升生成质量。
用于优化离散扩散语言模型的漂移目标
本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。
MMDiff: 扩展扩散变换器以实现多模态生成
MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。