照亮统一多模态模型，实现自由形式交错图文生成

Hugging Face Daily Papers 2026/06/29 00:00 论文

multimodal text-image-generation interleaved unified-model generative-ai data-efficiency training-strategy

摘要

ILLUME-X 是一个统一的自由形式交错图文生成多模态模型，具有改进的数据效率、稳定的训练以及名为 ILScore 的全面评估指标。它在风格迁移、图像分解和故事讲述等任务上优于之前的模型。

能够生成文本和图像的生成式 AI 模型的进步，标志着多模态智能领域的关键进展，尤其是在涉及两种模态交错的任务中。为了将这种智能推进到下一阶段，模型必须能够自主生成自由形式的交错图文序列。在本文中，我们介绍了 ILLUME-X，这是一种先进的统一多模态范式，通过提高多模态数据效率和稳定多模态训练过程，实现了高质量的自由形式交错图文生成。ILLUME-X 包含三个关键组成部分：(i) 针对交错图文生成优化的扩展训练数据流水线；(ii) 具有自适应目标的渐进式训练策略，用于自由长度的多模态标记序列；(iii) 针对交错图文序列的客观且全面的评估方法 ILScore。值得注意的是，我们的 ILLUME-X 在多个交错图文生成任务（如风格迁移、图像分解和故事讲述）中优于以前的统一模型。

查看原文

查看缓存全文

缓存时间: 2026/06/30 15:37

论文页面 - ILLUME-X：面向自由形式交错文本-图像生成的统一多模态模型

来源：https://huggingface.co/papers/2606.30054 作者：

，

摘要

ILLUME-X 是一种统一的多模态范式，通过提升数据效率、稳定训练过程和完善评估指标，增强了文本-图像生成能力。

能够生成文本和图像的生成式 AI 模型的进步，标志着多模态智能（https://huggingface.co/papers?q=multimodal%20intelligence）领域迈出了关键一步，尤其是在涉及两种模态交错的任务中。为了将这一智能推进到下一阶段，模型需要能够自主生成自由形式的交错文本-图像序列（https://huggingface.co/papers?q=interleaved%20text-image%20sequences）。在本文中，我们介绍了 ILLUME-X，这是一种先进的统一多模态范式，通过提升多模态数据效率（https://huggingface.co/papers?q=multimodal%20data%20efficiency）和稳定多模态训练过程（https://huggingface.co/papers?q=multimodal%20training%20process），实现了高质量的自由形式交错文本-图像生成。ILLUME-X 包含三个关键组件：（i）一个针对交错文本-图像生成优化的扩展训练数据流水线，（ii）一种具有自适应目标（https://huggingface.co/papers?q=self-adaptive%20objectives）的渐进式训练策略（https://huggingface.co/papers?q=progressive%20training%20strategy），适用于自由长度的多模态令牌序列（https://huggingface.co/papers?q=free-length%20multimodal%20token%20sequences），以及（iii）一个面向交错文本-图像序列（https://huggingface.co/papers?q=interleaved%20text-image%20sequences）的客观且全面的评估方法 ILScore（https://huggingface.co/papers?q=ILScore）。值得注意的是，我们的 ILLUME-X 在多项交错文本-图像生成任务（如风格迁移、图像分解和故事叙述）上，优于先前的统一模型。

查看 arXiv 页面（https://arxiv.org/abs/2606.30054）查看 PDF（https://arxiv.org/pdf/2606.30054）GitHub0（https://github.com/ChonghuinanWang/ILLUME-X）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.30054）

在你的 agent 中获取这篇论文：

hf papers read 2606.30054

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2606.30054，以从本页链接该模型。

引用本文的数据集0

尚无数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.30054，以从本页链接该数据集。

引用本文的 Spaces0

尚无 Space 链接本文

请在 Space README.md 中引用 arxiv.org/abs/2606.30054，以从本页链接该 Space。

包含本文的收藏0

尚无收藏包含本文

请将本文添加到一个收藏（https://huggingface.co/new-collection）中，以从本页链接它。

照亮统一多模态模型，实现自由形式交错图文生成

论文页面 - ILLUME-X：面向自由形式交错文本-图像生成的统一多模态模型

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏0

相似文章

图像即句子：扩展交错指令以实现统一的视觉生成

UltraFlux：数据-模型协同设计实现多种宽高比下的高质量原生4K文本到图像生成

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

在统一的多模态理解与生成中唤醒空间智能

InterleaveThinker: 增强智能体交错生成

提交意见反馈