用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型

Hugging Face Daily Papers 论文

摘要

本文提出了用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型(DRDD),将用于域协调的噪声扩散与用于语义映射的残差扩散解耦。

我们提出了解耦残差去噪扩散模型(DRDD),用于统一且数据高效的图像到图像(I2I)翻译。虽然扩散模型在质量和多样性方面推动了I2I翻译的进步,但我们揭示了扩散模型中一个先前未被充分探索的性质。至关重要的是,除了其传统的流形提升作用(即将数据从低维流形中移出)之外,注入高斯噪声通过隐式跨域对齐特征分布来实现域协调,这一特性对于统一的I2I翻译尤为有利。然而,现有的扩散模型过早地削弱了这种协调效应,因为噪声和残差在单一的耦合扩散过程中被同时移除。为了解决这个问题,DRDD将扩散过程解耦为两个顺序且独立的扩散阶段:(1)用于域协调和流形提升的随机噪声扩散,以及(2)在固定噪声域内完全学习核心语义映射的确定性残差扩散。这种解耦在整个变换过程中保持了协调和流形提升的效果,极大地简化了跨不同任务和域的统一映射学习。值得注意的是,噪声扩散阶段仅使用丰富的未配对目标域图像进行训练,大大提高了数据效率。全面的理论和实证分析表明,DRDD与主流扩散模型广泛兼容,并且即使在有限的配对数据下,也能持续提供稳健的统一I2I翻译。我们的代码可在 https://github.com/HKU-HealthAI/DRDD 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - 解耦残差去噪扩散模型:用于统一且数据高效的图像到图像转换

来源:https://huggingface.co/papers/2606.01048

摘要

解耦残差去噪扩散模型(DRDD)通过将用于领域协调的噪声扩散与用于语义映射的残差扩散分离,改进了统一的图像到图像转换,提升了数据效率与性能。

我们提出解耦残差去噪扩散模型(https://huggingface.co/papers?q=Diffusion%20models)(DRDD),用于统一且数据高效的图像到图像(I2I)转换。虽然扩散模型(https://huggingface.co/papers?q=diffusion%20models)在图像质量与多样性方面推动了I2I转换的发展,但我们发现了一个此前未被充分探索的扩散模型特性。至关重要的是,除了其传统作用——流形提升(https://huggingface.co/papers?q=manifold%20lifting)(即将数据移出低维流形),注入高斯噪声还有助于领域协调(https://huggingface.co/papers?q=domain%20harmonization),通过隐式对齐跨域特征分布,这一特性对统一I2I转换(https://huggingface.co/papers?q=unified%20I2I%20translation)尤为有利。然而,现有扩散模型(https://huggingface.co/papers?q=diffusion%20models)会过早削弱这种协调效果,因为噪声和残差在一个耦合的扩散过程中被同时移除。为解决此问题,DRDD将扩散过程解耦为两个连续且独立的扩散阶段:(1)随机噪声扩散(https://huggingface.co/papers?q=noise%20diffusion),用于领域协调(https://huggingface.co/papers?q=domain%20harmonization)与流形提升(https://huggingface.co/papers?q=manifold%20lifting);(2)确定性残差扩散(https://huggingface.co/papers?q=residual%20diffusion),在固定的噪声域内完整学习核心语义映射。这种解耦在整个转换过程中保留了协调与流形提升(https://huggingface.co/papers?q=manifold%20lifting)效果,极大简化了跨不同任务与领域的统一映射学习。值得注意的是,噪声扩散(https://huggingface.co/papers?q=noise%20diffusion)阶段仅使用大量无配对的目标域图像进行训练,显著提升了数据效率(https://huggingface.co/papers?q=data%20efficiency)。全面的理论与实证分析表明,DRDD广泛兼容主流扩散模型(https://huggingface.co/papers?q=diffusion%20models),即使在有限配对数据下也能持续实现鲁棒、统一的I2I转换(https://huggingface.co/papers?q=unified%20I2I%20translation)。我们的代码可在 https://github.com/HKU-HealthAI/DRDD 获取。

查看 arXiv 页面(https://arxiv.org/abs/2606.01048)查看 PDF(https://arxiv.org/pdf/2606.01048)GitHub6(https://github.com/HKU-HealthAI/DRDD)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01048)

在你的 agent 中获取此论文:

hf papers read 2606.01048

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.01048 即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.01048 即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.01048 即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

用于优化离散扩散语言模型的漂移目标

arXiv cs.CL

本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。

MMDiff: 扩展扩散变换器以实现多模态生成

Hugging Face Daily Papers

MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。