通过理解监督引导统一多模态模型中的视觉生成

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文介绍了 UNO，这是一种以理解为导向的后训练框架，利用理解任务作为监督信号，以增强统一多模态模型中的图像生成和编辑能力。

统一多模态模型旨在弥合理解与生成之间的差距。然而，为了达到具有竞争力的性能，最先进的模型通常采用高度解耦的理解和生成组件。虽然这种设计在单独的任务中表现有效，但它削弱了相互增强所需的连接，使得潜在的协同效应在经验上仍不确定。我们提出通过引入以理解为导向的后训练（UNO）来显式恢复这种协同效应。这是一个轻量级框架，它将理解不仅视为一个独立的任務，更视为引导生成表示的直接监督信号。通过纳入编码语义抽象（字幕生成）和结构细节（视觉回归）的目标，我们实现了从理解到生成的有效梯度流动。在图像生成和编辑上的大量实验表明，理解可以成为促进生成的有效催化剂。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - 通过理解监督引导统一多模态模型中的视觉生成

来源：https://huggingface.co/papers/2605.05781

摘要

以理解为导向的后训练框架利用理解任务作为监督信号，从而提升图像生成和编辑的效果。

统一多模态模型（https://huggingface.co/papers?q=Unified%20multimodal%20models）旨在弥合理解与生成之间的鸿沟。然而，为了取得具有竞争力的性能，最先进模型通常采用很大程度上解耦的理解与生成组件。尽管这种设计在单独的任务中行之有效，但它削弱了实现相互增强所需的联系，使得协同效应的潜力在经验上仍不确定。我们提出通过引入以理解为导向的后训练（https://huggingface.co/papers?q=Understanding-Oriented%20Post-Training）（UNO）来明确恢复这种协同效应。这是一个轻量级框架，它将理解不仅视为一个独立的任务，更视为引导生成表示（https://huggingface.co/papers?q=generative%20representations）的直接监督信号。通过纳入编码语义抽象（https://huggingface.co/papers?q=semantic%20abstraction）（图像描述）和结构细节（视觉回归（https://huggingface.co/papers?q=visual%20regression））的目标，我们实现了从理解到生成的有效梯度流（https://huggingface.co/papers?q=gradient%20flow）。在图像生成和编辑上的大量实验表明，理解可以作为生成的有效催化剂。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05781) 查看 PDF (https://arxiv.org/pdf/2605.05781) 项目页面 (https://lzy-tony.github.io/uno) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05781)

在你的代理中获取此论文：

hf papers read 2605\.05781

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。

引用此论文的 Spaces 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.05781 以在此页面建立链接。

包含此论文的收藏集 0

无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。

通过理解监督引导统一多模态模型中的视觉生成

论文页面 - 通过理解监督引导统一多模态模型中的视觉生成

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

UniPath: 统一多模态推理中理解与生成的适应性协调

在统一的多模态理解与生成中唤醒空间智能

利用自监督指南提升视觉指令调优

UniVidX：基于扩散先验的多功能视频生成统一多模态框架

Tuna-2: 像素嵌入超越视觉编码器，实现多模态理解与生成

提交意见反馈