i1:一个简单且完全开放的强文本到图像模型配方

Hugging Face Daily Papers 论文

摘要

本文介绍了i1,一个3B参数的文本到图像扩散模型,在性能上与领先的闭源模型竞争,同时完全开放(权重、数据、代码)。它提供了来自300多项控制实验的见解,并为开放研究提供了实用配方。

扩散模型一直在推动文本到图像生成的进步。然而,将最近的进展归因于特定的建模和数据选择具有挑战性:最先进的开源权重模型提供的消融研究有限,并且不公开其训练数据和完整的训练细节。研究社区需要完全开放(权重、数据和代码)的模型作为进一步研究的基础;然而,现有的完全开放模型在性能上仍显著落后于领先模型。在本项目中,我们通过300多项控制实验(总计超过70万TPU v6e小时)对文本到图像扩散训练和推理中的建模与数据设计选择进行了系统研究。我们的实验凸显了几个实证发现(例如,在混合精选数据集时,等权重是一个很好的默认设置)和简单的设计决策(例如,更大的文本编码器适配器以最小的额外参数提升了性能),用于训练强大的模型。在这些洞察的指导下,我们训练了i1——一个仅使用公开可用数据集的3B参数文本到图像扩散模型。i1在五个代表性基准(GenEval、DPG、PRISM、CVTG-2K和LongText)上与领先模型竞争,并在现有最佳完全开放模型的基础上平均提升了29.5个绝对百分点。我们提供了i1的检查点、训练和推理代码以及数据处理流程。我们的发现和i1配方共同为未来文本到图像扩散模型的开放研究奠定了实用基础。我们的代码可在https://github.com/zlab-princeton/i1获取。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:40

论文页面 - i1:一种简单且完全开放的强文生图模型配方

来源:https://huggingface.co/papers/2606.11289

摘要

对文生图扩散模型的一项全面实验研究揭示了关键的设计选择与训练洞察,从而催生了 i1——一个拥有 3B 参数、在保持完全开放的同时达到顶尖性能的模型。

扩散模型一直是文生图领域持续进步的动力。然而,很难将近期进展归因于具体的建模和数据选择:最先进的开源权重模型提供的消融实验有限,且不公开其训练数据及完整的训练细节。研究社区需要完全开放(权重、数据、代码)的模型作为进一步研究的基础;然而,现有的完全开放模型在性能上与领先模型仍存在显著差距。在本项目中,我们通过 300+ 项控制实验 (https://huggingface.co/papers?q=controlled%20experiments),总计 70 万+ TPU v6e 小时,对文生图扩散训练与推理中的建模和数据设计选择进行了系统性研究。我们的实验突出了若干实证发现(例如,在混合精选数据集时,等权重是一种强大的默认策略)和简单的设计决策(例如,更大的文本编码器适配器可以在增加极少参数的前提下提升性能),用于训练强大的模型。在这些洞察的指导下,我们训练了 i1——一个仅使用公开可用数据集 (https://huggingface.co/papers?q=publicly%20available%20datasets) 的 3B 参数文生图扩散模型。i1 在五个代表性基准(GenEval (https://huggingface.co/papers?q=GenEval)、DPG (https://huggingface.co/papers?q=DPG)、PRISM (https://huggingface.co/papers?q=PRISM)、CVTG-2K (https://huggingface.co/papers?q=CVTG-2K) 和 LongText (https://huggingface.co/papers?q=LongText))上与领先模型竞争,并且在平均性能上超越现有最佳完全开放模型 29.5 个绝对百分点。我们提供 i1 的检查点、训练与推理代码以及数据处理流程。总之,我们的发现与 i1 配方为未来文生图扩散模型 (https://huggingface.co/papers?q=text-to-image%20diffusion%20models) 的开放研究奠定了实践基础。我们的代码可在 https://github.com/zlab-princeton/i1 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11289)查看 PDF (https://arxiv.org/pdf/2606.11289)项目页面 (https://zlab-princeton.github.io/i1/)GitHub38 (https://github.com/zlab-princeton/i1)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11289)

在您的代理中获取此论文:

hf papers read 2606.11289

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

zlab-princeton/i1-3B 更新于约11小时前 • 6 (https://huggingface.co/zlab-princeton/i1-3B)

引用此论文的数据集2

zlab-princeton/i1-captions 查看器• 更新于约10小时前 • 167M • 2.63k • 4 (https://huggingface.co/datasets/zlab-princeton/i1-captions)

zlab-princeton/i1-gptedit-tfrecord 更新于约7小时前 • 172 (https://huggingface.co/datasets/zlab-princeton/i1-gptedit-tfrecord)

引用此论文的 Spaces1

包含此论文的收藏2

相似文章

baidu/ERNIE-Image

Hugging Face Models Trending

百度发布ERNIE-Image,这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能,在文本渲染、指令跟随和结构化图像生成方面表现出色。

Lens:重新思考基础文本到图像模型的训练效率

Hugging Face Daily Papers

Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。