图像即句子：扩展交错指令以实现统一的视觉生成

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文介绍了 INSET，这是一个统一的多模态模型，它将图像作为原生词汇嵌入到文本指令中，从而提高了在图像生成和编辑任务中处理复杂交错输入的能力。

尽管最近多模态语言模型的进展使得基于富有表现力的多图像指令生成图像成为可能，但现有方法在处理复杂的交错指令时难以保持性能。这一局限性源于当前范式中文本与图像的结构分离，迫使模型跨越复杂的长距离依赖关系，以将描述与视觉目标相匹配。为了应对这些挑战，我们提出了 Images iN SEnTences（简称 INSET），这是一种统一的生成模型，它将图像无缝地作为原生词汇嵌入到文本指令中。通过将视觉特征直接置于其对应的语义槽位，INSET 利用 Transformer 的上下文局部性实现精确的对象绑定，有效地将图像视为密集且富有表现力的语言标记。此外，我们引入了一种可扩展的数据引擎，利用 VLM 和 LLM 从标准的图像和视频数据集中合成 1500 万高质量交错样本，构建丰富且长视野的序列。在 InterleaveBench 上的评估结果表明，INSET 在多图像一致性和文本对齐方面显著优于最先进的方法，且随着输入复杂度的增加，性能差距进一步拉大。除了标准生成外，我们的方法还天然地扩展到了多模态图像编辑领域，将视觉内容作为指令的一部分，以实现高度表现力和创造性的视觉操作。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - 句子中的图像：为统一视觉生成扩展交错指令

来源: https://huggingface.co/papers/2605.12305

摘要

INSET 是一个统一的多模态模型，它将图像作为原生词汇嵌入文本指令中，通过基于 Transformer 的上下文局部性更好地处理复杂的交错输入，并支持图像生成和编辑任务。

尽管最近多模态语言模型 (https://huggingface.co/papers?q=multimodal%20language%20models) 的进步已经实现了从富有表现力的多图像指令中进行图像生成 (https://huggingface.co/papers?q=image%20generation)，但现有方法在处理复杂交错指令 (https://huggingface.co/papers?q=interleaved%20instructions) 时难以保持性能。这一限制源于当前范式中图像与文本的结构分离，这迫使模型跨越困难的长程依赖关系以将描述与视觉目标匹配。为了解决这些挑战，我们提出了 Images iN SEnTences（又称 INSET），这是一个统一生成模型，它将图像无缝地作为原生词汇嵌入文本指令中。通过将视觉特征 (https://huggingface.co/papers?q=visual%20features) 直接放置在其对应的语义槽位上，INSET 利用 Transformer (https://huggingface.co/papers?q=transformers) 的上下文局部性 (https://huggingface.co/papers?q=contextual%20locality) 实现精确的对象绑定，有效地将图像视为密集、富有表现力的语言标记。此外，我们引入了一个可扩展的数据引擎，从标准图像和视频数据集中合成 1500 万个高质量交错样本，利用 VLM (https://huggingface.co/papers?q=VLMs) 和 LLM (https://huggingface.co/papers?q=LLMs) 构建丰富的、长序列数据。在 InterleaveBench (https://huggingface.co/papers?q=InterleaveBench) 上的评估结果表明，INSET 在多图像一致性和文本对齐方面显著优于最先进的方法，随着输入复杂性的增加，性能差距进一步扩大。除了标准生成之外，我们的方法还天然扩展到多模态图像编辑 (https://huggingface.co/papers?q=image%20editing)，将视觉内容作为指令的一部分，以支持高度富有表现力和创造性的视觉操作。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12305) 查看 PDF (https://arxiv.org/pdf/2605.12305) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12305)

在你的智能体中获取这篇论文：

hf papers read 2605\.12305

没有最新版本的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有引用此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12305 以从此页面链接它。

引用此论文的数据集 0

没有引用此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12305 以从此页面链接它。

引用此论文的 Spaces 0

没有引用此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.12305 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

图像即句子：扩展交错指令以实现统一的视觉生成

论文页面 - 句子中的图像：为统一视觉生成扩展交错指令

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

在统一的多模态理解与生成中唤醒空间智能

通过理解监督引导统一多模态模型中的视觉生成

利用自监督指南提升视觉指令调优

InterLV-Search：交织多模态智能体搜索基准测试

使用CLIP潜在表示的分层文本条件图像生成

提交意见反馈