i1:一个简单且完全开放的强文本到图像模型配方
摘要
本文介绍了i1,一个3B参数的文本到图像扩散模型,在性能上与领先的闭源模型竞争,同时完全开放(权重、数据、代码)。它提供了来自300多项控制实验的见解,并为开放研究提供了实用配方。
查看缓存全文
缓存时间: 2026/06/11 13:40
论文页面 - i1:一种简单且完全开放的强文生图模型配方
来源:https://huggingface.co/papers/2606.11289
摘要
对文生图扩散模型的一项全面实验研究揭示了关键的设计选择与训练洞察,从而催生了 i1——一个拥有 3B 参数、在保持完全开放的同时达到顶尖性能的模型。
扩散模型一直是文生图领域持续进步的动力。然而,很难将近期进展归因于具体的建模和数据选择:最先进的开源权重模型提供的消融实验有限,且不公开其训练数据及完整的训练细节。研究社区需要完全开放(权重、数据、代码)的模型作为进一步研究的基础;然而,现有的完全开放模型在性能上与领先模型仍存在显著差距。在本项目中,我们通过 300+ 项控制实验 (https://huggingface.co/papers?q=controlled%20experiments),总计 70 万+ TPU v6e 小时,对文生图扩散训练与推理中的建模和数据设计选择进行了系统性研究。我们的实验突出了若干实证发现(例如,在混合精选数据集时,等权重是一种强大的默认策略)和简单的设计决策(例如,更大的文本编码器适配器可以在增加极少参数的前提下提升性能),用于训练强大的模型。在这些洞察的指导下,我们训练了 i1——一个仅使用公开可用数据集 (https://huggingface.co/papers?q=publicly%20available%20datasets) 的 3B 参数文生图扩散模型。i1 在五个代表性基准(GenEval (https://huggingface.co/papers?q=GenEval)、DPG (https://huggingface.co/papers?q=DPG)、PRISM (https://huggingface.co/papers?q=PRISM)、CVTG-2K (https://huggingface.co/papers?q=CVTG-2K) 和 LongText (https://huggingface.co/papers?q=LongText))上与领先模型竞争,并且在平均性能上超越现有最佳完全开放模型 29.5 个绝对百分点。我们提供 i1 的检查点、训练与推理代码以及数据处理流程。总之,我们的发现与 i1 配方为未来文生图扩散模型 (https://huggingface.co/papers?q=text-to-image%20diffusion%20models) 的开放研究奠定了实践基础。我们的代码可在 https://github.com/zlab-princeton/i1 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2606.11289)查看 PDF (https://arxiv.org/pdf/2606.11289)项目页面 (https://zlab-princeton.github.io/i1/)GitHub38 (https://github.com/zlab-princeton/i1)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11289)
在您的代理中获取此论文:
hf papers read 2606.11289
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
zlab-princeton/i1-3B 更新于约11小时前 • 6 (https://huggingface.co/zlab-princeton/i1-3B)
引用此论文的数据集2
zlab-princeton/i1-captions 查看器• 更新于约10小时前 • 167M • 2.63k • 4 (https://huggingface.co/datasets/zlab-princeton/i1-captions)
zlab-princeton/i1-gptedit-tfrecord 更新于约7小时前 • 172 (https://huggingface.co/datasets/zlab-princeton/i1-gptedit-tfrecord)
引用此论文的 Spaces1
包含此论文的收藏2
相似文章
@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配:LLM…
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
文本到图像模型对文本编码器的依赖比你想象的要少
本文证明,文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序,而非完整的上下文嵌入,表明图像模型本身能够解码复杂的语言结构。
baidu/ERNIE-Image
百度发布ERNIE-Image,这是一个基于扩散Transformer架构、拥有8B参数的开源权重文本到图像生成模型。它在开源模型中达到了最先进的性能,在文本渲染、指令跟随和结构化图像生成方面表现出色。
Lens:重新思考基础文本到图像模型的训练效率
Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。
@heyshrutimishra:百度最近开源了ERNIE-Image,80亿参数,权重可商用。意义重大。…
百度开源ERNIE-Image,80亿参数文生图模型,权重允许商用,成为少数完全开放、可微调、对标Midjourney等封闭模型的替代方案。