照亮统一多模态模型,实现自由形式交错图文生成

Hugging Face Daily Papers 论文

摘要

ILLUME-X 是一个统一的自由形式交错图文生成多模态模型,具有改进的数据效率、稳定的训练以及名为 ILScore 的全面评估指标。它在风格迁移、图像分解和故事讲述等任务上优于之前的模型。

能够生成文本和图像的生成式 AI 模型的进步,标志着多模态智能领域的关键进展,尤其是在涉及两种模态交错的任务中。为了将这种智能推进到下一阶段,模型必须能够自主生成自由形式的交错图文序列。在本文中,我们介绍了 ILLUME-X,这是一种先进的统一多模态范式,通过提高多模态数据效率和稳定多模态训练过程,实现了高质量的自由形式交错图文生成。ILLUME-X 包含三个关键组成部分:(i) 针对交错图文生成优化的扩展训练数据流水线;(ii) 具有自适应目标的渐进式训练策略,用于自由长度的多模态标记序列;(iii) 针对交错图文序列的客观且全面的评估方法 ILScore。值得注意的是,我们的 ILLUME-X 在多个交错图文生成任务(如风格迁移、图像分解和故事讲述)中优于以前的统一模型。
查看原文
查看缓存全文

缓存时间: 2026/06/30 15:37

论文页面 - ILLUME-X:面向自由形式交错文本-图像生成的统一多模态模型

来源:https://huggingface.co/papers/2606.30054 作者:

摘要

ILLUME-X 是一种统一的多模态范式,通过提升数据效率、稳定训练过程和完善评估指标,增强了文本-图像生成能力。

能够生成文本和图像的生成式 AI 模型的进步,标志着多模态智能(https://huggingface.co/papers?q=multimodal%20intelligence)领域迈出了关键一步,尤其是在涉及两种模态交错的任务中。为了将这一智能推进到下一阶段,模型需要能够自主生成自由形式的交错文本-图像序列(https://huggingface.co/papers?q=interleaved%20text-image%20sequences)。在本文中,我们介绍了 ILLUME-X,这是一种先进的统一多模态范式,通过提升多模态数据效率(https://huggingface.co/papers?q=multimodal%20data%20efficiency)和稳定多模态训练过程(https://huggingface.co/papers?q=multimodal%20training%20process),实现了高质量的自由形式交错文本-图像生成。ILLUME-X 包含三个关键组件:(i)一个针对交错文本-图像生成优化的扩展训练数据流水线,(ii)一种具有自适应目标(https://huggingface.co/papers?q=self-adaptive%20objectives)的渐进式训练策略(https://huggingface.co/papers?q=progressive%20training%20strategy),适用于自由长度的多模态令牌序列(https://huggingface.co/papers?q=free-length%20multimodal%20token%20sequences),以及(iii)一个面向交错文本-图像序列(https://huggingface.co/papers?q=interleaved%20text-image%20sequences)的客观且全面的评估方法 ILScore(https://huggingface.co/papers?q=ILScore)。值得注意的是,我们的 ILLUME-X 在多项交错文本-图像生成任务(如风格迁移、图像分解和故事叙述)上,优于先前的统一模型。

查看 arXiv 页面(https://arxiv.org/abs/2606.30054)查看 PDF(https://arxiv.org/pdf/2606.30054)GitHub0(https://github.com/ChonghuinanWang/ILLUME-X)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.30054)

在你的 agent 中获取这篇论文:

hf papers read 2606.30054

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2606.30054,以从本页链接该模型。

引用本文的数据集0

尚无数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.30054,以从本页链接该数据集。

引用本文的 Spaces0

尚无 Space 链接本文

请在 Space README.md 中引用 arxiv.org/abs/2606.30054,以从本页链接该 Space。

包含本文的收藏0

尚无收藏包含本文

请将本文添加到一个收藏(https://huggingface.co/new-collection)中,以从本页链接它。

相似文章

LLaVA-UHD v4:高效视觉编码在 MLLMs 中的关键要素是什么?

Hugging Face Daily Papers

本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。

在统一的多模态理解与生成中唤醒空间智能

Hugging Face Daily Papers

本文介绍了 JoyAI-Image,这是一种统一的多模态基础模型,通过整合空间增强的多模态大语言模型(MLLM)与多模态扩散 Transformer(MMDiT),在视觉理解、文生图生成以及指令引导编辑方面取得了最先进的性能。

InterleaveThinker: 增强智能体交错生成

Hugging Face Daily Papers

InterleaveThinker 引入了一种多智能体流水线,包含规划器和评论家智能体,使现有图像生成器具备交错文本-图像生成能力,其性能与最先进模型相当,并提升了推理基准测试成绩。