RepFusion:利用多模态先验进行表示空间中的去噪

Hugging Face Daily Papers 论文

摘要

RepFusion 提出使用多模态大语言模型作为噪声表示编码器,用于文本到图像生成中的扩散变压器,优于传统的去噪方法。

大语言模型(LLMs)在文本到图像(T2I)系统中被广泛使用,但它们通常仅限于文本编码,而去噪则由新训练生成骨干网络处理。表示自编码器(RAEs)的出现将生成目标转向语义结构化的视觉表示,创建了一个与预训练LLM先验更兼容的潜在空间。受多模态大语言模型(MLLMs)的启发,其中MLP投影仪足以将干净的视觉表示与预训练的LLM对齐,我们将MLLM本身重新用作噪声表示编码器,将该机制从干净输入扩展到噪声输入。我们提出了RepFusion,它使用生成的MLLM输出作为扩散变压器的条件信号。在类似推理预算的控制比较中,RepFusion优于那些将相当容量投入到新初始化解码器中的基线。这些结果表明,MLLMs为去噪视觉表示提供了强大的先验知识,并且通过以演化的噪声表示为条件,测试时的计算可以有效地用于现代T2I系统中重复的MLLM条件化。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:04

论文页面 - RepFusion:利用多模态先验在表示空间中进行去噪

来源:https://huggingface.co/papers/2606.14700

摘要

RepFusion 利用多模态大语言模型作为扩散 Transformer 在文生图任务中的噪声表示编码器,其性能优于传统训练新去噪器的方法。

大语言模型(Large language models,LLMs)广泛用于文生图系统,但它们通常仅限于文本编码,而去噪过程则由新训练生成的骨干网络处理。表示自编码器的出现将生成目标转向具有语义结构的视觉表示,创建了一个与预训练 LLM 先验更兼容的潜在空间。受多模态大语言模型(MLLMs)的启发——其中 MLP 投影器足以将干净的视觉表示与预训练 LLM 对齐——我们重新利用 MLLM 本身作为噪声表示编码器,将此机制从干净输入扩展到噪声输入。我们提出了 RepFusion,它使用生成的 MLLM 输出作为扩散 Transformer 的条件信号。在相似推理预算下的控制比较中,RepFusion 优于那些将相当容量分配给新初始化解码器的基线方法。这些结果表明,MLLM 为去噪视觉表示提供了强先验,并且通过以不断变化的噪声表示作为条件,在当代文生图系统中可以将测试时计算高效地用于重复的 MLLM 条件处理。

查看 arXiv 页面(https://arxiv.org/abs/2606.14700) 查看 PDF(https://arxiv.org/pdf/2606.14700) 项目页面(https://xichenpan.com/repfusion/) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.14700)

在您的 agent 中获取此论文:

hf papers read 2606.14700

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。

引用此论文的数据集

0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。

引用此论文的 Space 空间

0

没有 Space 空间链接到此论文

请在 Space 空间的 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。

包含此论文的收藏集

0

没有收藏集包含此论文

将本论文添加到收藏集(https://huggingface.co/new-collection)以便从此页面链接。

相似文章

多令牌残差预测

arXiv cs.LG

引入多令牌残差预测(MRP),这是一个用于扩散语言模型的轻量级模块,能够在单次主干前向传播中实现依赖感知的多令牌去噪,实现高达1.42倍的无损加速。

学习的中继表示用于前瞻性离散扩散模型

arXiv cs.LG

本文介绍了学习的中继表示(Relay),一种使掩码扩散模型能够在去噪步骤之间传播潜在信息的方法,克服了硬重置问题并改善了性能-延迟权衡。该方法在编码任务上优于标准的监督微调,同时将推理延迟降低高达32%。