MMDiff: 扩展扩散变换器以实现多模态生成
摘要
MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。
查看缓存全文
缓存时间: 2026/06/16 11:32
论文页面 - MMDiff: 将扩散变换器扩展为多模态生成系统
来源: https://huggingface.co/papers/2606.16673
摘要
MMDiff 将冻结的扩散变换器转化为多模态生成系统,通过轻量化解码器同时生成图像和感知模态,利用多时间步特征融合与空间聚合,显著提升语义分割性能。
扩散变换器 (https://huggingface.co/papers?q=Diffusion%20transformers) 已展现出出色的生成能力,但在其去噪轨迹 (https://huggingface.co/papers?q=denoising%20trajectory) 上计算出的丰富感知表征在内容渲染完成后便被丢弃。我们提出 MMDiff 框架,将冻结的扩散变换器转化为多模态生成系统 (https://huggingface.co/papers?q=multi-modal%20generative%20system),能够通过轻量化解码器头部 (https://huggingface.co/papers?q=lightweight%20decoder%20heads) 同时生成图像及任意组合的密集感知模态。我们的核心发现是:感知信息沿去噪轨迹 (https://huggingface.co/papers?q=denoising%20trajectory) 在时间上分布,而采用带有空间变化聚合权重 (https://huggingface.co/papers?q=spatially%20varying%20aggregation%20weights) 的多时间步特征融合 (https://huggingface.co/papers?q=multi-timestep%20feature%20fusion) 至关重要,可将语义分割 (https://huggingface.co/papers?q=semantic%20segmentation) 结果相比单时间步提取提升高达 28.7% mIoU。我们进一步采用概念驱动的注意力提取 (https://huggingface.co/papers?q=concept-driven%20attention%20extraction) 实现可解释的空间引导,并证明冻结扩散特征与最先进的编码器(如 DINOv3 (https://huggingface.co/papers?q=DINOv3))具有竞争力且互补。通过仅在冻结骨干网络上训练轻量化解码器头部 (https://huggingface.co/papers?q=lightweight%20decoder%20heads),我们在语义分割 (https://huggingface.co/papers?q=semantic%20segmentation)、显著性物体检测 (https://huggingface.co/papers?q=salient%20object%20detection) 和深度估计 (https://huggingface.co/papers?q=depth%20estimation) 上取得了强劲性能,并证明该框架能够在大规模合成数据生成 (https://huggingface.co/papers?q=synthetic%20data%20generation) 中发挥有效作用。
查看 arXiv 页面 (https://arxiv.org/abs/2606.16673) 查看 PDF (https://arxiv.org/pdf/2606.16673) 项目页面 (https://yagmurakarken.github.io/mmdiff/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16673)
在你的 agent 中获取此论文:
hf papers read 2606.16673
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.16673 以链接到此页面。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16673 以链接到此页面。
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.16673 以链接到此页面。
包含此论文的合集0
无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 以链接到此页面。
相似文章
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
Semantic DLM+:通过转移核设计中的偏差-方差权衡改进扩散语言模型
本文从偏差-方差角度对扩散语言模型进行了理论分析,识别了掩码扩散与均匀扩散核之间的权衡。提出了SemDLM+,通过添加全局转移和语义频率惩罚来克服语义盆地问题,在LM1B和OpenWebText基准上实现了有竞争力的生成质量。
Live Music Diffusion Models: 交互式扩散音乐生成器的高效微调与后训练
本文介绍了Live Music Diffusion Models(LMDMs),它通过修改扩散过程,实现了高效的块式处理以及新颖的训练范式,从而在消费级硬件上进行实时交互式音乐生成,在推理复杂度上超越了离散自回归模型,并实现了稳定的后训练对齐。
用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型
本文提出了用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型(DRDD),将用于域协调的噪声扩散与用于语义映射的残差扩散解耦。
扩散语言模型的动态分块
本文介绍了扩散语言模型的动态分块(DCDM),该方法使用可微分的Chunking Attention机制,用内容定义的语义块替换块离散扩散中的固定位置块,在高达1.5B参数规模上实现了一致的改进。