通过理解监督引导统一多模态模型中的视觉生成

Hugging Face Daily Papers 论文

摘要

本文介绍了 UNO,这是一种以理解为导向的后训练框架,利用理解任务作为监督信号,以增强统一多模态模型中的图像生成和编辑能力。

统一多模态模型旨在弥合理解与生成之间的差距。然而,为了达到具有竞争力的性能,最先进的模型通常采用高度解耦的理解和生成组件。虽然这种设计在单独的任务中表现有效,但它削弱了相互增强所需的连接,使得潜在的协同效应在经验上仍不确定。我们提出通过引入以理解为导向的后训练(UNO)来显式恢复这种协同效应。这是一个轻量级框架,它将理解不仅视为一个独立的任務,更视为引导生成表示的直接监督信号。通过纳入编码语义抽象(字幕生成)和结构细节(视觉回归)的目标,我们实现了从理解到生成的有效梯度流动。在图像生成和编辑上的大量实验表明,理解可以成为促进生成的有效催化剂。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - 通过理解监督引导统一多模态模型中的视觉生成

来源:https://huggingface.co/papers/2605.05781

摘要

以理解为导向的后训练框架利用理解任务作为监督信号,从而提升图像生成和编辑的效果。

统一多模态模型(https://huggingface.co/papers?q=Unified%20multimodal%20models)旨在弥合理解与生成之间的鸿沟。然而,为了取得具有竞争力的性能,最先进模型通常采用很大程度上解耦的理解与生成组件。尽管这种设计在单独的任务中行之有效,但它削弱了实现相互增强所需的联系,使得协同效应的潜力在经验上仍不确定。我们提出通过引入以理解为导向的后训练(https://huggingface.co/papers?q=Understanding-Oriented%20Post-Training)(UNO)来明确恢复这种协同效应。这是一个轻量级框架,它将理解不仅视为一个独立的任务,更视为引导生成表示(https://huggingface.co/papers?q=generative%20representations)的直接监督信号。通过纳入编码语义抽象(https://huggingface.co/papers?q=semantic%20abstraction)(图像描述)和结构细节(视觉回归(https://huggingface.co/papers?q=visual%20regression))的目标,我们实现了从理解到生成的有效梯度流(https://huggingface.co/papers?q=gradient%20flow)。在图像生成和编辑上的大量实验表明,理解可以作为生成的有效催化剂。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05781) 查看 PDF (https://arxiv.org/pdf/2605.05781) 项目页面 (https://lzy-tony.github.io/uno) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05781)

在你的代理中获取此论文:

hf papers read 2605\.05781

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

相似文章

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers

本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。