通过理解监督引导统一多模态模型中的视觉生成
摘要
本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。
查看缓存全文
缓存时间: 2026/05/11 07:20
论文页面 - 通过理解监督引导统一多模态模型中的视觉生成
来源:https://huggingface.co/papers/2605.05781
摘要
以理解为导向的后训练框架利用理解任务作为监督信号,从而提升图像生成和编辑的效果。
统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)旨在弥合理解与生成之间的鸿沟。然而,为了取得具有竞争力的性能,最先进模型通常采用很大程度上解耦的理解与生成组件。尽管这种设计在单独的任务中行之有效,但它削弱了实现相互增强所需的联系,使得协同效应的潜力在经验上仍不确定。我们提出通过引入以理解为导向的后训练(https://huggingface.co/papers?q=Understanding-Oriented%20Post-Training)(UNO)来明确恢复这种协同效应。这是一个轻量级框架,它将理解不仅视为一个独立的任务,更视为引导生成表示(https://huggingface.co/papers?q=generative%20representations)的直接监督信号。通过纳入编码语义抽象(https://huggingface.co/papers?q=semantic%20abstraction)(图像描述)和结构细节(视觉回归(https://huggingface.co/papers?q=visual%20regression))的目标,我们实现了从理解到生成的有效梯度流(https://huggingface.co/papers?q=gradient%20flow)。在图像生成和编辑上的大量实验表明,理解可以作为生成的有效催化剂。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05781) 查看 PDF (https://arxiv.org/pdf/2605.05781) 项目页面 (https://lzy-tony.github.io/uno) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05781)
在你的代理中获取此论文:
hf papers read 2605\.05781
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。
引用此论文的 Spaces 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。
包含此论文的收藏集 0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
UniPath: 统一多模态推理中理解与生成的适应性协调
UniPath 提出了一种框架,用于统一多模态模型中理解与生成的适应性协调,利用协调路径多样性来提升相对于固定策略的性能。
在统一的多模态理解与生成中唤醒空间智能
本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。
利用自监督指南提升视觉指令调优
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。
UniVidX:基于扩散先验的多功能视频生成统一多模态框架
本文介绍了 UniVidX 论文,该论文提出了一种利用扩散先验进行视频生成的统一多模态框架,并讨论了其跨模态一致性机制。
Tuna-2: 像素嵌入超越视觉编码器,实现多模态理解与生成
Tuna-2 是一个统一的多模态模型,通过直接从像素嵌入处理视觉理解与生成任务,无需预训练视觉编码器,达到了最先进的性能水平。