@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配:LLM…
摘要
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
查看缓存全文
缓存时间: 2026/06/16 11:40
现代文本到图像模型越来越多地依赖大型预训练LLM的驱动。
但存在一个有趣的错配:LLM通常只对提示进行一次编码,而演变的噪声潜在状态则完全由新训练的生成骨干网络处理。
预训练的多模态先验能否参与到去噪过程中?
Introducing RepFusion. (1/12)
https://arxiv.org/abs/2606.14700 https://xichenpan.com/repfusion/
RepFusion: 在表示空间中利用多模态先验进行去噪
Source: https://arxiv.org/html/2606.14700 Meta AI2]纽约大学\contrib[*]在Meta完成的工作\contrib[†]同等指导
Aashu SinghSatya Narayan ShuklaXiangjun FanShlok Kumar MishraSaining Xie\[[[email protected] (https://arxiv.org/html/2606.14700v1/mailto:[email protected])
(2026年6月12日)
摘要
大型语言模型(LLM)广泛用于文本到图像(T2I)系统,但它们通常仅限于文本编码,而去噪则由新训练的生成骨干网络处理。表示自编码器(RAE)的出现将生成目标转向语义结构化的视觉表示,创建了一个与预训练LLM先验更兼容的潜在空间。受多模态LLM(MLLM)的启发——其中MLP投影器足以将干净的视觉表示与预训练LLM对齐——我们将MLLM本身重新用作噪声表示编码器,将这种机制从干净输入扩展到噪声输入。我们提出了RepFusion,该方法将生成的MLLM输出用作扩散Transformer的条件信号。在类似推理预算的控制比较中,RepFusion优于将相当容量分配给新初始化解码器的基线。这些结果表明,MLLM为去噪视觉表示提供了强大的先验,并且通过以演变的噪声表示为条件,测试时的计算可以有效地用于现代T2I系统中重复的MLLM条件处理。
1引言
文本到图像(T2I)生成通常被形式化为条件图像生成,其中图像生成器以文本编码器的输出为条件。随着图像生成器从GAN(gan)演进到扩散模型(ddpm),文本编码器也从LSTM(lstm)发展到CLIP(clip)和T5(t5)。近年来,许多系统已将这些编码器替换为大型语言模型(LLM)(gpt;llama;llama3),因为LLM具有更强的表示能力、更丰富的世界知识、上下文学习能力,以及与统一多模态模型的兼容性(metaquery)。然而,在最近的管道(pixart;luminanext;sana;qwenimage;flux2;zimage)中,LLM仍然主要充当静态文本编码器,生成文本嵌入,而扩散Transformer(DiT)(dit)执行去噪轨迹和图像合成。
这种分工在VAE(vae)时代是合理的。扩散模型通常对VAE潜在表示进行去噪,而这些潜在表示从未被设计为能够被预训练语言先验“读取”。它们维度低、局部性强,并且针对重建而非语义进行了优化。因此,即使人们试图让LLM更接近去噪循环,也不清楚LLM应该接收什么,或者这样做为何有益。
![[无标题图片]](https://arxiv.org/html/2606.14700v1/x1.png)
图1. 当从VAE切换到RAE时,三种条件策略的GenEval比较:TextEmbed(遵循近期T2I实践(sana;qwenimage;flux2;zimage),用LLM最后一层文本token嵌入来条件DiT)、Transfusion(transfusion)和RepFusion。本比较中的所有三个变体都使用7B LLM,TextEmbed和RepFusion还使用1.3B DiT。RepFusion将噪声视觉表示输入到预训练的MLLM,并使用其输出结果来条件DiT。它在转换中受益最大,实现了30%的相对提升(绝对提升+0.16),而TextEmbed为21%(+0.10),Transfusion为11%(+0.06)。
![[无标题图片]](https://arxiv.org/html/2606.14700v1/x2.png)
图2. 在类似推理FLOPs下不同条件策略的GenEval比较。圆圈大小表示总参数量,内部圆盘表示可训练参数量。每种方法将大约8B参数分配给处理噪声视觉潜在变量或去噪的模块。RepFusion仅微调1.3B DiT和一个MLP投影器,但优于TextEmbed和Transfusion,它们分别训练了8B参数(更大的DiT和LLM)。这种跨方法比较表明,MLLM为去噪视觉表示提供了强大的先验,并且将重新用于编码噪声表示比扩展新初始化解码器更能有效地利用参数。
表示自编码器(RAE)(rae)改变了这一格局。通过将生成从VAE潜在表示转移到语义结构化的视觉表示(例如CLIP(clip)或DINO(dino)特征),RAE提供了一个既更易优化又更具语义意义的去噪空间。此外,这些发展将T2I与多模态LLM(MLLM)当前使用的特征空间连接起来。
在多模态理解领域,预训练LLM展示了一个简单而强大的特性:通过MLP投影器,它们可以接收干净的视觉表示,并立即成为多模态token上的强序列模型(llava)。这一观察通常从理解和推理的角度进行讨论。在此,我们将其作为生成的设计原则:如果LLM能够感知干净的视觉表示,那么在去噪过程中它能否处理噪声对应物?
我们的答案是肯定的。如图1 (https://arxiv.org/html/2606.14700#S1)所示,由此产生的系统非常高效,并且最适合RAE潜在空间。我们提出了RepFusion,这是一种将预训练MLLM视为噪声表示编码器的T2I模型。除了文本输入之外,我们还通过重复使用其MLP投影器,将噪声RAE潜在变量输入到现成的MLLM中。我们保持预训练LLM骨干网络冻结,仅微调其投影器。然后我们使用MLLM的输出来条件在相同潜在空间中进行去噪的DiT。概念上,这种设计允许预训练MLLM专注于它最擅长的事:建模结构化视觉表示。
这种设计首先改变了超出标准“让解码器更大”公式的容量分配图景。如图1 (https://arxiv.org/html/2606.14700#S1)所示,在类似的推理FLOPs下,所有比较系统都将大约8B参数分配给处理噪声视觉潜在变量或去噪的模块:TextEmbed使用7B冻结MLLM文本编码器和8B DiT,Transfusion使用8B联合去噪Transformer,而RepFusion使用相同的7B冻结MLLM以及1.3B DiT。我们在附录6 (https://arxiv.org/html/2606.14700#S6)中提供了训练TextEmbed和Transfusion基线的详细信息。尽管仅微调了DiT和MLP投影器,RepFusion仍然优于这些基线,这表明,跨模型系列,将大量模型容量分配给冻结的预训练条件编码器可以胜过将几乎全部参数预算用于新初始化解码模块。这表明预训练MLLM携带的先验可以超越多模态理解:一旦表示空间兼容,这些先验可以直接帮助去噪噪声视觉表示。
RepFusion还引入了一个不同的测试时缩放轴。在TextEmbed管道中,条件编码器运行一次以生成静态文本嵌入,这些嵌入在所有去噪步骤中重复使用。相比之下,RepFusion将演变的噪声RAE潜在变量输入到MLLM,使得条件信号沿去噪轨迹变化,并使每步MLLM重计算变得有用。
我们还与统一架构(如Transfusion(transfusion))进行了比较,这可以看作是另一种将噪声视觉信息暴露给语言模型的方式。如图1 (https://arxiv.org/html/2606.14700#S1)所示,即使我们将此类基线升级到RAE潜在空间运行,其增益也小于通过明确将冻结的MLLM重新用作噪声编码器所获得的增益。换句话说,从VAE转向RAE有所帮助,但仅凭此并不能释放预训练语言先验的全部优势。
总之,本文主张一个简单的视角转变:许多现代T2I系统已经将大量容量分配给巨大的LLM文本编码器,而RAE提供了一个表示空间,使得这些编码器能做的不仅仅是对文本进行编码。通过让冻结的MLLM接收噪声视觉表示作为输入,我们为表示空间中的去噪获得了一个强大而高效的先验。主要贡献如下:
- •我们展示了冻结的预训练MLLM能够编码噪声RAE潜在变量,并在静态文本条件之外提供有用的去噪先验。
- •我们证明了将参数分配给冻结的预训练条件编码器可以优于那些将相当容量用于新初始化解码器的静态文本嵌入基线。
- •我们展示了噪声表示输入通过使MLLM条件随去噪步骤演变,解锁了一种扩展测试时计算的方式。
- •我们展示了预训练MLLM先验的强大性:将其冻结优于为了生成而进一步联合优化它。
2相关工作
T2I中的文本编码器早期的条件GAN使用小文本编码器如LSTM(lstm),产生全局句子嵌入(ganintcls;stackgan)或token级嵌入(attngan)。扩散模型后来通过使用提供用于交叉注意力的token嵌入的冻结预训练编码器,标准化了文本条件。Stable Diffusion 1.5(sd1p5)普及了CLIP(clip)文本编码器。近期系统越来越倾向于扩展文本编码器:Imagen(imagen)将CLIP扩展到诸如T5-XXL(t5)这样的LLM,PixArt-α\alpha(pixart)、Stable Diffusion 3(sd3)和FLUX.1(flux)随后采用了大型T5家族编码器。近期的开源模型如Lumina-Next(luminanext)和Sana(sana)采用了LLM编码器,而FLUX.2(flux2)进一步将LLM扩展到24B参数的Mistral Small 3(mistralsmall3)。总体而言,现代T2I管道通常将数十亿参数分配给文本编码器,这激发了更好地利用其容量的方法。
从VAE到RAE潜在扩散(sd1p5)普及了现代T2I模型中的一个关键设计选择:模型不是在像素空间中进行扩散,而是在自编码器的潜在空间中执行去噪,使得高分辨率生成变得可行。大多数系统采用VAE(vae)为此目的,但VAE潜在变量高度压缩且针对重建优化,这限制了它们的语义表达能力。RAE(rae)通过将解码器与冻结的预训练编码器(例如CLIP(clip)或DINO(dino))配对来避免这一瓶颈,使用语义丰富且更易去噪的潜在变量。这一转变消除了VAE瓶颈,并将T2I带入预训练MLLM已经能够很好处理的表示空间,为利用其超越静态文本条件的先验创造了自然的机会。
语言模型与解码器的集成越来越多的工作寻求条件编码器与解码器之间的更紧密集成。统一架构如Transfusion(transfusion)训练一个大型Transformer来联合建模语言输出和对VAE潜在变量进行去噪,旨在跨模态实现单一建模栈。另一个方向是在MLLM和扩散骨干网络之间构建紧凑的接口,例如通过可学习的查询(metaquery;blip3o;scalerae)或联合注意力(lmfusion;bagel)。相比之下,我们的重点不在于条件机制,而在于改变条件本身的内容。我们将MLLM推进到超越文本编码,重新利用它们来编码噪声表示并对DiT(dit)进行条件化。
参考图注图3:RepFusion概述。蓝色模块是冻结的,红色模块是可训练的。我们重复使用预训练的MLLM来处理文本提示和噪声RAE潜在变量。噪声RAE潜在变量通过一个MLP投影器被投影到MLLM输入空间,生成的输出通过AdaLN调制来条件每个DiT块。
3RepFusion
本节首先形式化视觉表示空间中的扩散(第3.1节 (https://arxiv.org/html/2606.14700#S3.SS1)),并描述RepFusion如何使用MLLM对噪声表示进行编码以用于DiT条件(第3.2节 (https://arxiv.org/html/2606.14700#S3.SS2))。然后我们使用受控消融实验来隔离噪声表示输入的作用(第3.3节 (https://arxiv.org/html/2606.14700#S3.SS3))和多模态感知预训练的作用(第3.4节 (https://arxiv.org/html/2606.14700#S3.SS4))。最后,我们分解这些要素如何优于TextEmbed和Transfusion基线(第3.5节 (https://arxiv.org/html/2606.14700#S3.SS5))。除非另有说明,本节讨论的变体使用7B LLM骨干网络搭配1.3B DiT解码器。
3.1预备知识
流匹配T2I模型是一种条件生成模型。给定文本提示(y),我们首先使用通常冻结的文本编码器获得文本嵌入(c = E_{\phi}(y))。然后生成网络以(c)为条件,可以通过交叉注意力(sd1p5)或自适应归一化(dit)来实现。在我们的设置中,扩散在视觉表示空间中运行:令(x)表示干净的视觉表示,(t)表示时间步,(\epsilon)表示高斯噪声。我们采用(v)-预测参数化(lipman2022flow;liu2022flow;albergo2022building):
(z_t = t x + (1-t) \epsilon,\quad x \sim p_{\text{data}}(x).) (1)我们遵循rae;sd3的时间步移位策略。对于基础维度(n)和有效数据维度(m),采样的时间步(t_n \sim \mathcal{U}(0,1))被移位为(t = \frac{\alpha t_n}{1+(\alpha-1)t_n}),其中(\alpha = \sqrt{m/n})。遵循rae;sd3,我们使用(n=4{,}096)并将(m)设置为视觉表示的有效维度;在我们的RAE设置中,这给出(\alpha=12)。
流速由(z_t)的时间导数给出:
(v = z_t’ = x - \epsilon.) 我们通过学习一个条件速度场(v_{\theta}(z_t, t, c)),通过最小化标准流匹配目标(lipman2022flow;albergo2022building):
(\mathcal{L} := \mathbb{E}{t,x,\epsilon} | v{\theta}(z_t, t, c) - v|^2,) 其中(v_{\theta})由扩散模型预测。
3.2方法
在标准方法中,条件(c)仅依赖于文本(y)。在RepFusion中,如图3 (https://arxiv.org/html/2606.14700#S2.F3)所示,我们增强条件以也包括噪声视觉表示(z_t)。这种设计允许LLM感知去噪轨迹。
具体来说,LLM输入包含一序列文本token,后跟投影后的噪声视觉token。令(E_{\text{LLM}})表示LLM,(P_{\psi})表示MLP投影器,(\bm{e}_t)表示时间步嵌入;我们在视觉表示空间和LLM隐藏空间中使用相同的符号表示其投影形式。条件(\bm{c}_t)定义为:
相似文章
RepFusion:利用多模态先验进行表示空间中的去噪
RepFusion 提出使用多模态大语言模型作为噪声表示编码器,用于文本到图像生成中的扩散变压器,优于传统的去噪方法。
文本到图像模型对文本编码器的依赖比你想象的要少
本文证明,文本到图像的扩散Transformer模型主要依赖文本编码器中的标记合并和词序,而非完整的上下文嵌入,表明图像模型本身能够解码复杂的语言结构。
i1:一个简单且完全开放的强文本到图像模型配方
本文介绍了i1,一个3B参数的文本到图像扩散模型,在性能上与领先的闭源模型竞争,同时完全开放(权重、数据、代码)。它提供了来自300多项控制实验的见解,并为开放研究提供了实用配方。
TextLDM:利用连续潜在扩散进行语言建模
本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。
Lens:重新思考基础文本到图像模型的训练效率
Lens是微软推出的一款紧凑型38亿参数文本到图像模型,在训练计算量显著降低的同时,通过密集描述、多分辨率批处理和高效架构,达到了与更大模型竞争甚至超越的性能。