图像即句子:扩展交错指令以实现统一的视觉生成

Hugging Face Daily Papers 论文

摘要

本文介绍了 INSET,这是一个统一的多模态模型,它将图像作为原生词汇嵌入到文本指令中,从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。

尽管最近多模态语言模型的进展使得基于富有表现力的多图像指令生成图像成为可能,但现有方法在处理复杂的交错指令时难以保持性能。这一局限性源于当前范式中文本与图像的结构分离,迫使模型跨越复杂的长距离依赖关系,以将描述与视觉目标相匹配。为了应对这些挑战,我们提出了 Images iN SEnTences(简称 INSET),这是一种统一的生成模型,它将图像无缝地作为原生词汇嵌入到文本指令中。通过将视觉特征直接置于其对应的语义槽位,INSET 利用 Transformer 的上下文局部性实现精确的对象绑定,有效地将图像视为密集且富有表现力的语言标记。此外,我们引入了一种可扩展的数据引擎,利用 VLM 和 LLM 从标准的图像和视频数据集中合成 1500 万高质量交错样本,构建丰富且长视野的序列。在 InterleaveBench 上的评估结果表明,INSET 在多图像一致性和文本对齐方面显著优于最先进的方法,且随着输入复杂度的增加,性能差距进一步拉大。除了标准生成外,我们的方法还天然地扩展到了多模态图像编辑领域,将视觉内容作为指令的一部分,以实现高度表现力和创造性的视觉操作。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - 句子中的图像:为统一视觉生成扩展交错指令

来源: https://huggingface.co/papers/2605.12305

摘要

INSET 是一个统一的多模态模型,它将图像作为原生词汇嵌入文本指令中,通过基于 Transformer 的上下文局部性更好地处理复杂的交错输入,并支持图像生成和编辑任务。

尽管最近多模态语言模型 (https://huggingface.co/papers?q=multimodal%20language%20models) 的进步已经实现了从富有表现力的多图像指令中进行图像生成 (https://huggingface.co/papers?q=image%20generation),但现有方法在处理复杂交错指令 (https://huggingface.co/papers?q=interleaved%20instructions) 时难以保持性能。这一限制源于当前范式中图像与文本的结构分离,这迫使模型跨越困难的长程依赖关系以将描述与视觉目标匹配。为了解决这些挑战,我们提出了 Images iN SEnTences(又称 INSET),这是一个统一生成模型,它将图像无缝地作为原生词汇嵌入文本指令中。通过将视觉特征 (https://huggingface.co/papers?q=visual%20features) 直接放置在其对应的语义槽位上,INSET 利用 Transformer (https://huggingface.co/papers?q=transformers) 的上下文局部性 (https://huggingface.co/papers?q=contextual%20locality) 实现精确的对象绑定,有效地将图像视为密集、富有表现力的语言标记。此外,我们引入了一个可扩展的数据引擎,从标准图像和视频数据集中合成 1500 万个高质量交错样本,利用 VLM (https://huggingface.co/papers?q=VLMs) 和 LLM (https://huggingface.co/papers?q=LLMs) 构建丰富的、长序列数据。在 InterleaveBench (https://huggingface.co/papers?q=InterleaveBench) 上的评估结果表明,INSET 在多图像一致性和文本对齐方面显著优于最先进的方法,随着输入复杂性的增加,性能差距进一步扩大。除了标准生成之外,我们的方法还天然扩展到多模态图像编辑 (https://huggingface.co/papers?q=image%20editing),将视觉内容作为指令的一部分,以支持高度富有表现力和创造性的视觉操作。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12305) 查看 PDF (https://arxiv.org/pdf/2605.12305) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12305)

在你的智能体中获取这篇论文:

hf papers read 2605\.12305

没有最新版本的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有引用此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12305 以从此页面链接它。

引用此论文的数据集 0

没有引用此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12305 以从此页面链接它。

引用此论文的 Spaces 0

没有引用此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.12305 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers

本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。