RepFusion:利用多模态先验进行表示空间中的去噪
摘要
RepFusion 提出使用多模态大语言模型作为噪声表示编码器,用于文本到图像生成中的扩散变压器,优于传统的去噪方法。
查看缓存全文
缓存时间: 2026/06/15 09:04
论文页面 - RepFusion:利用多模态先验在表示空间中进行去噪
来源:https://huggingface.co/papers/2606.14700
摘要
RepFusion 利用多模态大语言模型作为扩散 Transformer 在文生图任务中的噪声表示编码器,其性能优于传统训练新去噪器的方法。
大语言模型(Large language models,LLMs)广泛用于文生图系统,但它们通常仅限于文本编码,而去噪过程则由新训练生成的骨干网络处理。表示自编码器的出现将生成目标转向具有语义结构的视觉表示,创建了一个与预训练 LLM 先验更兼容的潜在空间。受多模态大语言模型(MLLMs)的启发——其中 MLP 投影器足以将干净的视觉表示与预训练 LLM 对齐——我们重新利用 MLLM 本身作为噪声表示编码器,将此机制从干净输入扩展到噪声输入。我们提出了 RepFusion,它使用生成的 MLLM 输出作为扩散 Transformer 的条件信号。在相似推理预算下的控制比较中,RepFusion 优于那些将相当容量分配给新初始化解码器的基线方法。这些结果表明,MLLM 为去噪视觉表示提供了强先验,并且通过以不断变化的噪声表示作为条件,在当代文生图系统中可以将测试时计算高效地用于重复的 MLLM 条件处理。
查看 arXiv 页面(https://arxiv.org/abs/2606.14700) 查看 PDF(https://arxiv.org/pdf/2606.14700) 项目页面(https://xichenpan.com/repfusion/) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.14700)
在您的 agent 中获取此论文:
hf papers read 2606.14700
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型
0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。
引用此论文的数据集
0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。
引用此论文的 Space 空间
0
没有 Space 空间链接到此论文
请在 Space 空间的 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。
包含此论文的收藏集
0
没有收藏集包含此论文
将本论文添加到收藏集(https://huggingface.co/new-collection)以便从此页面链接。
相似文章
@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配:LLM…
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型
本文提出了用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型(DRDD),将用于域协调的噪声扩散与用于语义映射的残差扩散解耦。
多令牌残差预测
引入多令牌残差预测(MRP),这是一个用于扩散语言模型的轻量级模块,能够在单次主干前向传播中实现依赖感知的多令牌去噪,实现高达1.42倍的无损加速。
学习的中继表示用于前瞻性离散扩散模型
本文介绍了学习的中继表示(Relay),一种使掩码扩散模型能够在去噪步骤之间传播潜在信息的方法,克服了硬重置问题并改善了性能-延迟权衡。该方法在编码任务上优于标准的监督微调,同时将推理延迟降低高达32%。
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。