扩散模型作为通用分割学习器

Hugging Face Daily Papers 论文

摘要

本文介绍了 DiGSeg 框架,该框架利用潜在空间条件控制和文本引导对齐,将预训练的扩散模型重新用于实现最先进的语义分割和开放词汇分割。

扩散模型主要接受图像合成训练,但其去噪轨迹编码了丰富的、空间对齐的视觉先验信息。在本文中,我们证明这些先验信息可用于文本条件的语义分割和开放词汇分割,并且该方法可泛化到各种下游任务,从而构建一个通用的扩散分割框架。具体而言,我们提出了 DiGSeg(作为通用分割学习器的扩散模型),它将预训练的扩散模型重新利用为一个统一的分割框架。我们的方法将输入图像和真实标签掩码编码到潜在空间中,并将它们拼接起来作为扩散 U-Net 的条件信号。一条平行的与 CLIP 对齐的文本路径在多个尺度上注入语言特征,使模型能够将文本查询与不断演变的视觉表示对齐。这种设计将现成的扩散骨干网络转变为一种通用接口,在外观和任意文本提示的条件约束下生成结构化的分割掩码。大量的实验表明,该方法在标准语义分割基准上达到了最先进的性能,同时在医疗、遥感和农业场景中也展现出强大的开放词汇泛化能力和跨域迁移能力——且无需针对特定领域进行架构定制。这些结果表明,现代扩散骨干网络可以作为通用分割学习器,而不仅仅是纯生成器,从而缩小了视觉生成与视觉理解之间的差距。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:03

论文页面 - Diffusion Model as a Generalist Segmentation Learner

来源: https://huggingface.co/papers/2604.24575

摘要

预训练的扩散模型可以通过潜在空间条件控制和文本引导对齐,适应语义和开放词汇分割任务,并在多个领域实现最先进的性能。

扩散模型 (https://huggingface.co/papers?q=Diffusion%20models) 主要用于图像合成训练,但其去噪轨迹编码了丰富的、空间对齐的视觉先验知识 (https://huggingface.co/papers?q=visual%20priors)。在本文中,我们证明了这些先验知识可以被利用来进行文本条件的语义和开放词汇分割 (https://huggingface.co/papers?q=open-vocabulary%20segmentation),并且这种方法可以泛化到各种下游任务中,形成一个通用的扩散分割框架。具体而言,我们提出了 DiGSeg(Diffusion Models as a Generalist Segmentation Learner),将预训练的扩散模型重新利用为一个统一的分割框架。我们的方法将输入图像和真实掩码编码到潜在空间 (https://huggingface.co/papers?q=latent%20space),并将它们作为条件信号连接起来,用于扩散 U-Net (https://huggingface.co/papers?q=diffusion%20U-Net)。一个并行的 CLIP 对齐文本路径 (https://huggingface.co/papers?q=CLIP-aligned%20text%20pathway) 在多尺度上注入语言特征,使模型能够将对齐的文本查询与不断演化的视觉表示相匹配。这种设计将现成的扩散主干转换成一个通用接口,产生基于外观和任意文本提示的结构化分割掩码。大量的实验表明,该方法在标准语义分割 (https://huggingface.co/papers?q=semantic%20segmentation) 基准上取得了最先进的性能,并且在开放词汇泛化以及跨领域迁移(医疗、遥感和农业场景)方面表现出色,而无需特定领域的架构定制。这些结果表明,现代扩散主干可以作为通用分割学习者,而不仅仅是生成器,从而缩小了视觉生成与视觉理解 (https://huggingface.co/papers?q=visual%20understanding) 之间的差距。

查看 arXiv 页面 (https://arxiv.org/abs/2604.24575) 查看 PDF (https://arxiv.org/pdf/2604.24575) 添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2604.24575)

在你的代理中获取此论文:

hf papers read 2604.24575

没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2604.24575 以从该页面链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2604.24575 以从该页面链接。

引用此论文的空间 0

没有链接此论文的空间

在空间的 README.md 中引用 arxiv.org/abs/2604.24575 以从该页面链接。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 以从该页面链接。

相似文章

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。

连续潜在扩散语言模型

Hugging Face Daily Papers

Cola DLM 是一种分层潜在扩散语言模型,它通过文本到潜空间的映射以及条件解码,实现高效且非自回归的文本生成。