LISA: 面向视觉条件可控生成的似然分数对齐

Hugging Face Daily Papers 论文

摘要

本文介绍了LISA,一种正则化方法,它将侧网络的中间特征与近似的似然分数对齐,以提高基于分数的生成模型中视觉条件可控生成的训练效率和质量。

主流的双分支范式,即训练一个侧网络来编码视觉条件,并将其中间层特征融合到冻结的预训练主网络中,已在视觉条件可控生成领域取得显著成功。尽管其被广泛采用,但侧分支的作用及其训练效率仍未得到充分探索。在本文中,我们首先从基于分数的生成建模角度重新审视这一主流范式:1) 主网络通过提供先验无条件分数来保持视觉感知质量。2) 侧网络通过隐式贡献似然分数来引导条件控制。基于这一视角,我们提出了似然分数对齐(LISA),一种有效的正则化方法,它显式地将侧网络的中间特征与近似的似然分数对齐。具体而言,我们首先从侧网络的指定层获取特征,并通过轻量级解码器将其投影到分数潜空间。然后,我们构建一个近似的似然分数目标,并计算解码器输出与该目标之间的距离作为额外的正则化损失。最后,我们使用标准扩散损失和我们的正则化损失联合优化侧网络和解码器。在多种图像/视频任务、架构以及扩散/流模型上的实验表明,LISA不仅能够持续加速训练收敛并改善最终合成结果,还能促使侧网络的特征在条件建模中更加解耦,且训练成本增加极少,推理成本为零。
查看原文
查看缓存全文

缓存时间: 2026/06/26 18:08

论文页面 - LISA:用于视觉条件可控生成的似然分数对齐

来源:https://huggingface.co/papers/2606.27192

摘要

基于分数的生成建模揭示,侧网络通过似然分数贡献给条件控制,从而通过似然分数对齐正则化提升训练效率。

流行的双分支范式,即训练侧网络(https://huggingface.co/papers?q=side%20network)来编码视觉条件,并将其中间层特征(https://huggingface.co/papers?q=intermediate-layer%20features)融合到冻结的预训练主网络中,已在视觉条件可控生成中取得显著成功。尽管被广泛采用,侧分支的作用及其训练效率仍未被充分探索。本文首先通过基于分数的生成建模(https://huggingface.co/papers?q=score-based%20generative%20modeling)的视角重新审视这一主流范式:1)主网络通过提供先验无条件分数(https://huggingface.co/papers?q=unconditional%20score)来保持视觉感知质量。2)侧网络(https://huggingface.co/papers?q=side%20network)通过隐式贡献似然分数(https://huggingface.co/papers?q=likelihood%20score)来引导条件控制(https://huggingface.co/papers?q=conditional%20control)。受此视角指导,我们提出似然分数对齐(LISA(https://huggingface.co/papers?q=LISA)),一种有效的正则化方法(https://huggingface.co/papers?q=regularization%20method),它将侧网络(https://huggingface.co/papers?q=side%20network)的中间特征与近似的似然分数(https://huggingface.co/papers?q=likelihood%20score)显式对齐。具体来说,我们首先从侧网络(https://huggingface.co/papers?q=side%20network)的指定层钩取特征,并通过轻量级解码器(https://huggingface.co/papers?q=decoder)将其投影到分数潜空间(https://huggingface.co/papers?q=score%20latent%20space)。然后,我们构建一个近似的似然分数(https://huggingface.co/papers?q=likelihood%20score)目标,并计算解码器(https://huggingface.co/papers?q=decoder)输出与该目标之间的距离作为额外正则化损失。最后,我们联合优化侧网络(https://huggingface.co/papers?q=side%20network)和解码器(https://huggingface.co/papers?q=decoder),同时使用标准扩散损失和我们的正则化损失。在多种图像/视频任务、架构以及扩散/流模型(https://huggingface.co/papers?q=flow%20models)上的实验表明,LISA(https://huggingface.co/papers?q=LISA)不仅能够一致地加速训练收敛(https://huggingface.co/papers?q=training%20convergence)并提升最终合成结果,还能鼓励侧网络(https://huggingface.co/papers?q=side%20network)的特征在条件建模中更加解耦,且几乎不增加额外训练成本,零额外推理成本。

查看arXiv页面(https://arxiv.org/abs/2606.27192)查看PDF(https://arxiv.org/pdf/2606.27192)项目页面(https://github.com/HKUST-LongGroup/LISA)GitHub4(https://github.com/HKUST-LongGroup/LISA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.27192)

在你的智能体中获取此论文:

hf papers read 2606.27192

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2606.27192以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2606.27192以从此页面链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2606.27192以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

跨尺度对齐监督训练GANs

Hugging Face Daily Papers

本文提出CAT,一种跨尺度对齐变换器,通过强制中间GAN输出与最终输出之间的一致性来解决轨迹错位问题,在ImageNet-256上实现了1.56的最优FID。

超越表面统计:通过内部表示实现LLM鲁棒共形预测

arXiv cs.CL

本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。

目标条件监督学习用于LLM微调

arXiv cs.LG

本文提出了目标条件监督学习(GCSL)作为LLM的离线微调框架,该方法将反馈作为显式目标,通过一种新颖的目标公式和自然语言目标表示,使用监督学习训练模型。在无毒生成、代码生成和LLM推荐三个任务上的评估显示,该方法优于标准的离线基线方法。

对数似然、辛普森悖论与机器生成文本的检测

arXiv cs.CL

本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论,解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤,显著提升了各种模型和数据集上的检测性能。

通过分布级奖励优化视觉生成模型

Hugging Face Daily Papers

本文提出一种用于视觉生成模型的强化学习框架,该框架使用分布级奖励,并采用子集替换策略以提高效率,在改善图像多样性和质量的同时,解决模式崩溃和奖励破解问题。