UniDDT: 通过解耦扩散变换器统一多模态理解与生成

Hugging Face Daily Papers 论文

摘要

UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。

统一多模态模型(UMMs)已成为通用多模态智能的关键方向,将理解与生成集成到单一框架中。然而,现有UMMs面临显著挑战:(1)视觉理解与生成任务之间存在固有的学习冲突,导致两个任务建模次优;(2)不同的理解和生成视觉空间阻碍了可扩展性;(3)过度依赖任务特定数据,忽视了文本-图像理解与生成的二元性。为解决这些挑战,我们提出UniDDT,它利用Noisy ViT编码器结合LLM来统一视觉生成和理解任务的语义编码,同时使用独立的解耦扩散解码器将扩散解码与文本解码解耦。借助Noisy ViT编码器,UniDDT能够利用潜在空间作为统一的视觉表示,实现理解与生成任务之间的无缝兼容。因此,可以平衡生成任务内的可扩展性和理解任务内的语义表达能力。此外,我们从相同的图像-文本对构建双重数据结构,促进生成数据与理解数据之间的相互依赖关系,以利用它们固有的二元性。大量实验表明,UniDDT实现了多模态理解与生成的有效统一,增强了语义一致性和可扩展性。在视觉生成任务中,我们的UniDDT取得了0.87的GenEval得分和86.9的DPG总体得分。在多模态理解任务中,我们的UniDDT在MME基准上取得了1699.5分,在SEEDbench上取得了76.5的总体得分。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:34

论文页面 - UniDDT:通过解耦扩散Transformer统一多模态理解与生成

来源: https://huggingface.co/papers/2606.16255

摘要

UniDDT借助噪声ViT编码器和LLM进行语义编码,同时使用独立的扩散解码器来平衡视觉理解与生成任务,从而解决了统一多模态模型面临的关键挑战。

统一多模态模型 (Unified Multimodal Models) 已成为通用多模态智能的关键方向,它将理解与生成整合到单一框架中。然而,现有UMM面临突出挑战:(1) 视觉理解与生成任务之间存在固有的学习冲突,导致两者均无法达到最优建模;(2) 理解与生成使用不同的视觉空间,阻碍了可扩展性;(3) 过度依赖特定任务数据,忽视了文本-图像理解与生成的二元性。为解决这些问题,我们提出了UniDDT,它利用Noisy ViT编码器和大语言模型 (LLM) 统一视觉生成与理解任务的语义编码,同时采用独立的扩散解码器将扩散解码与文本解码解耦。借助Noisy ViT编码器,UniDDT能够将潜在空间作为统一的视觉表示,实现理解与生成任务之间的无缝兼容,从而在生成任务的可扩展性与理解任务的语义表达能力之间取得平衡。此外,我们从相同的图像-文本对中构建了双数据结构,增强生成数据与理解数据之间的相互依赖,以利用其内在的二元性。大量实验表明,UniDDT实现了多模态理解与生成的有效统一,语义一致性与可扩展性均得到提升。在视觉生成任务上,UniDDT取得了0.87的GenEval分数和86.9的DPG综合分数。在多模态理解任务上,UniDDT在MME基准上取得1699.5分,在SEEDbench上取得76.5的综合分数。

查看arXiv页面 (https://arxiv.org/abs/2606.16255) 查看PDF (https://arxiv.org/pdf/2606.16255) 项目页面 (https://huggingface.co/papers/2606.16255) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16255)

在您的Agent中获取此论文:

hf papers read 2606.16255

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型引用此论文

在模型README.md中引用arxiv.org/abs/2606.16255以在此页面建立链接。

引用此论文的数据集0

暂无数据集引用此论文

在数据集README.md中引用arxiv.org/abs/2606.16255以在此页面建立链接。

引用此论文的Space0

暂无Space引用此论文

在Space README.md中引用arxiv.org/abs/2606.16255以在此页面建立链接。

包含此论文的收藏2

相似文章

MMDiff: 扩展扩散变换器以实现多模态生成

Hugging Face Daily Papers

MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。

TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。