UniDDT: 通过解耦扩散变换器统一多模态理解与生成
摘要
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
查看缓存全文
缓存时间: 2026/06/16 11:34
论文页面 - UniDDT:通过解耦扩散Transformer统一多模态理解与生成
来源: https://huggingface.co/papers/2606.16255
摘要
UniDDT借助噪声ViT编码器和LLM进行语义编码,同时使用独立的扩散解码器来平衡视觉理解与生成任务,从而解决了统一多模态模型面临的关键挑战。
统一多模态模型 (Unified Multimodal Models) 已成为通用多模态智能的关键方向,它将理解与生成整合到单一框架中。然而,现有UMM面临突出挑战:(1) 视觉理解与生成任务之间存在固有的学习冲突,导致两者均无法达到最优建模;(2) 理解与生成使用不同的视觉空间,阻碍了可扩展性;(3) 过度依赖特定任务数据,忽视了文本-图像理解与生成的二元性。为解决这些问题,我们提出了UniDDT,它利用Noisy ViT编码器和大语言模型 (LLM) 统一视觉生成与理解任务的语义编码,同时采用独立的扩散解码器将扩散解码与文本解码解耦。借助Noisy ViT编码器,UniDDT能够将潜在空间作为统一的视觉表示,实现理解与生成任务之间的无缝兼容,从而在生成任务的可扩展性与理解任务的语义表达能力之间取得平衡。此外,我们从相同的图像-文本对中构建了双数据结构,增强生成数据与理解数据之间的相互依赖,以利用其内在的二元性。大量实验表明,UniDDT实现了多模态理解与生成的有效统一,语义一致性与可扩展性均得到提升。在视觉生成任务上,UniDDT取得了0.87的GenEval分数和86.9的DPG综合分数。在多模态理解任务上,UniDDT在MME基准上取得1699.5分,在SEEDbench上取得76.5的综合分数。
查看arXiv页面 (https://arxiv.org/abs/2606.16255) 查看PDF (https://arxiv.org/pdf/2606.16255) 项目页面 (https://huggingface.co/papers/2606.16255) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16255)
在您的Agent中获取此论文:
hf papers read 2606.16255
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型引用此论文
在模型README.md中引用arxiv.org/abs/2606.16255以在此页面建立链接。
引用此论文的数据集0
暂无数据集引用此论文
在数据集README.md中引用arxiv.org/abs/2606.16255以在此页面建立链接。
引用此论文的Space0
暂无Space引用此论文
在Space README.md中引用arxiv.org/abs/2606.16255以在此页面建立链接。
包含此论文的收藏2
相似文章
LLaDA2.0-Uni:用扩散大语言模型统一多模态理解与生成
LLaDA2.0-Uni 在单一扩散式大语言模型架构内统一了多模态理解与生成。
MMDiff: 扩展扩散变换器以实现多模态生成
MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型
本文提出了用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型(DRDD),将用于域协调的噪声扩散与用于语义映射的残差扩散解耦。
TextLDM:利用连续潜在扩散进行语言建模
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。