RepFusion：利用多模态先验进行表示空间中的去噪

Hugging Face Daily Papers 2026/06/12 00:00 论文

multimodal text-to-image diffusion-transformer representation-learning llm denoising

摘要

RepFusion 提出使用多模态大语言模型作为噪声表示编码器，用于文本到图像生成中的扩散变压器，优于传统的去噪方法。

大语言模型（LLMs）在文本到图像（T2I）系统中被广泛使用，但它们通常仅限于文本编码，而去噪则由新训练生成骨干网络处理。表示自编码器（RAEs）的出现将生成目标转向语义结构化的视觉表示，创建了一个与预训练LLM先验更兼容的潜在空间。受多模态大语言模型（MLLMs）的启发，其中MLP投影仪足以将干净的视觉表示与预训练的LLM对齐，我们将MLLM本身重新用作噪声表示编码器，将该机制从干净输入扩展到噪声输入。我们提出了RepFusion，它使用生成的MLLM输出作为扩散变压器的条件信号。在类似推理预算的控制比较中，RepFusion优于那些将相当容量投入到新初始化解码器中的基线。这些结果表明，MLLMs为去噪视觉表示提供了强大的先验知识，并且通过以演化的噪声表示为条件，测试时的计算可以有效地用于现代T2I系统中重复的MLLM条件化。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:04

论文页面 - RepFusion：利用多模态先验在表示空间中进行去噪

来源：https://huggingface.co/papers/2606.14700

摘要

RepFusion 利用多模态大语言模型作为扩散 Transformer 在文生图任务中的噪声表示编码器，其性能优于传统训练新去噪器的方法。

大语言模型（Large language models，LLMs）广泛用于文生图系统，但它们通常仅限于文本编码，而去噪过程则由新训练生成的骨干网络处理。表示自编码器的出现将生成目标转向具有语义结构的视觉表示，创建了一个与预训练 LLM 先验更兼容的潜在空间。受多模态大语言模型（MLLMs）的启发——其中 MLP 投影器足以将干净的视觉表示与预训练 LLM 对齐——我们重新利用 MLLM 本身作为噪声表示编码器，将此机制从干净输入扩展到噪声输入。我们提出了 RepFusion，它使用生成的 MLLM 输出作为扩散 Transformer 的条件信号。在相似推理预算下的控制比较中，RepFusion 优于那些将相当容量分配给新初始化解码器的基线方法。这些结果表明，MLLM 为去噪视觉表示提供了强先验，并且通过以不断变化的噪声表示作为条件，在当代文生图系统中可以将测试时计算高效地用于重复的 MLLM 条件处理。

查看 arXiv 页面（https://arxiv.org/abs/2606.14700）查看 PDF（https://arxiv.org/pdf/2606.14700）项目页面（https://xichenpan.com/repfusion/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.14700）

在您的 agent 中获取此论文：

hf papers read 2606.14700

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。

引用此论文的数据集

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。

引用此论文的 Space 空间

没有 Space 空间链接到此论文

请在 Space 空间的 README.md 中引用 arxiv.org/abs/2606.14700 以便从此页面链接。

包含此论文的收藏集

没有收藏集包含此论文

将本论文添加到收藏集（https://huggingface.co/new-collection）以便从此页面链接。

RepFusion：利用多模态先验进行表示空间中的去噪

论文页面 - RepFusion：利用多模态先验在表示空间中进行去噪

摘要

引用此论文的模型

引用此论文的数据集

引用此论文的 Space 空间

包含此论文的收藏集

相似文章

@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配：LLM…

用于统一且数据高效的图像到图像翻译的解耦残差去噪扩散模型

多令牌残差预测

学习的中继表示用于前瞻性离散扩散模型

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

提交意见反馈