MMDiff: 扩展扩散变换器以实现多模态生成

Hugging Face Daily Papers 2026/06/15 00:00 论文

摘要

MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统，通过多时间步特征融合，在语义分割和其他感知任务上实现了显著改进。

扩散变换器已展现出卓越的生成能力，但其在去噪过程中计算的丰富感知表示在内容渲染后便被丢弃。我们提出了 MMDiff，这是一个将冻结的扩散变换器转变为多模态生成系统的框架，该系统可使用轻量级解码器头部联合生成图像以及任意密集感知模态的组合。我们的核心发现是，感知信息在时间上分布于去噪轨迹中，而采用空间变化聚合权重的多时间步特征融合至关重要，相比单时间步提取，可将语义分割结果提升高达 28.7% 的 mIoU。我们进一步采用基于概念的注意力提取以实现可解释的空间引导，并表明冻结的扩散特征与 DINOv3 等最先进的编码器具备竞争力和互补性。通过在冻结骨干网络上仅训练轻量级解码器头部，我们在语义分割、显著目标检测和深度估计方面取得了强劲性能，并证明该框架能够有效生成大规模合成数据。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - MMDiff: 将扩散变换器扩展为多模态生成系统

来源: https://huggingface.co/papers/2606.16673

摘要

MMDiff 将冻结的扩散变换器转化为多模态生成系统，通过轻量化解码器同时生成图像和感知模态，利用多时间步特征融合与空间聚合，显著提升语义分割性能。

扩散变换器 (https://huggingface.co/papers?q=Diffusion%20transformers) 已展现出出色的生成能力，但在其去噪轨迹 (https://huggingface.co/papers?q=denoising%20trajectory) 上计算出的丰富感知表征在内容渲染完成后便被丢弃。我们提出 MMDiff 框架，将冻结的扩散变换器转化为多模态生成系统 (https://huggingface.co/papers?q=multi-modal%20generative%20system)，能够通过轻量化解码器头部 (https://huggingface.co/papers?q=lightweight%20decoder%20heads) 同时生成图像及任意组合的密集感知模态。我们的核心发现是：感知信息沿去噪轨迹 (https://huggingface.co/papers?q=denoising%20trajectory) 在时间上分布，而采用带有空间变化聚合权重 (https://huggingface.co/papers?q=spatially%20varying%20aggregation%20weights) 的多时间步特征融合 (https://huggingface.co/papers?q=multi-timestep%20feature%20fusion) 至关重要，可将语义分割 (https://huggingface.co/papers?q=semantic%20segmentation) 结果相比单时间步提取提升高达 28.7% mIoU。我们进一步采用概念驱动的注意力提取 (https://huggingface.co/papers?q=concept-driven%20attention%20extraction) 实现可解释的空间引导，并证明冻结扩散特征与最先进的编码器（如 DINOv3 (https://huggingface.co/papers?q=DINOv3)）具有竞争力且互补。通过仅在冻结骨干网络上训练轻量化解码器头部 (https://huggingface.co/papers?q=lightweight%20decoder%20heads)，我们在语义分割 (https://huggingface.co/papers?q=semantic%20segmentation)、显著性物体检测 (https://huggingface.co/papers?q=salient%20object%20detection) 和深度估计 (https://huggingface.co/papers?q=depth%20estimation) 上取得了强劲性能，并证明该框架能够在大规模合成数据生成 (https://huggingface.co/papers?q=synthetic%20data%20generation) 中发挥有效作用。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16673) 查看 PDF (https://arxiv.org/pdf/2606.16673) 项目页面 (https://yagmurakarken.github.io/mmdiff/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16673)

在你的 agent 中获取此论文：

hf papers read 2606.16673

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16673 以链接到此页面。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16673 以链接到此页面。

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16673 以链接到此页面。

包含此论文的合集0

无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以链接到此页面。

MMDiff: 扩展扩散变换器以实现多模态生成

论文页面 - MMDiff: 将扩散变换器扩展为多模态生成系统

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的合集0

相似文章

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

Semantic DLM+：通过转移核设计中的偏差-方差权衡改进扩散语言模型

Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练

用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型

扩散语言模型的动态分块

提交意见反馈