LISA: 面向视觉条件可控生成的似然分数对齐

Hugging Face Daily Papers 2026/06/25 00:00 论文

摘要

本文介绍了LISA，一种正则化方法，它将侧网络的中间特征与近似的似然分数对齐，以提高基于分数的生成模型中视觉条件可控生成的训练效率和质量。

主流的双分支范式，即训练一个侧网络来编码视觉条件，并将其中间层特征融合到冻结的预训练主网络中，已在视觉条件可控生成领域取得显著成功。尽管其被广泛采用，但侧分支的作用及其训练效率仍未得到充分探索。在本文中，我们首先从基于分数的生成建模角度重新审视这一主流范式：1) 主网络通过提供先验无条件分数来保持视觉感知质量。2) 侧网络通过隐式贡献似然分数来引导条件控制。基于这一视角，我们提出了似然分数对齐（LISA），一种有效的正则化方法，它显式地将侧网络的中间特征与近似的似然分数对齐。具体而言，我们首先从侧网络的指定层获取特征，并通过轻量级解码器将其投影到分数潜空间。然后，我们构建一个近似的似然分数目标，并计算解码器输出与该目标之间的距离作为额外的正则化损失。最后，我们使用标准扩散损失和我们的正则化损失联合优化侧网络和解码器。在多种图像/视频任务、架构以及扩散/流模型上的实验表明，LISA不仅能够持续加速训练收敛并改善最终合成结果，还能促使侧网络的特征在条件建模中更加解耦，且训练成本增加极少，推理成本为零。

查看原文

查看缓存全文

缓存时间: 2026/06/26 18:08

论文页面 - LISA：用于视觉条件可控生成的似然分数对齐

来源：https://huggingface.co/papers/2606.27192

摘要

基于分数的生成建模揭示，侧网络通过似然分数贡献给条件控制，从而通过似然分数对齐正则化提升训练效率。

流行的双分支范式，即训练侧网络（https://huggingface.co/papers?q=side%20network）来编码视觉条件，并将其中间层特征（https://huggingface.co/papers?q=intermediate-layer%20features）融合到冻结的预训练主网络中，已在视觉条件可控生成中取得显著成功。尽管被广泛采用，侧分支的作用及其训练效率仍未被充分探索。本文首先通过基于分数的生成建模（https://huggingface.co/papers?q=score-based%20generative%20modeling）的视角重新审视这一主流范式：1）主网络通过提供先验无条件分数（https://huggingface.co/papers?q=unconditional%20score）来保持视觉感知质量。2）侧网络（https://huggingface.co/papers?q=side%20network）通过隐式贡献似然分数（https://huggingface.co/papers?q=likelihood%20score）来引导条件控制（https://huggingface.co/papers?q=conditional%20control）。受此视角指导，我们提出似然分数对齐（LISA（https://huggingface.co/papers?q=LISA）），一种有效的正则化方法（https://huggingface.co/papers?q=regularization%20method），它将侧网络（https://huggingface.co/papers?q=side%20network）的中间特征与近似的似然分数（https://huggingface.co/papers?q=likelihood%20score）显式对齐。具体来说，我们首先从侧网络（https://huggingface.co/papers?q=side%20network）的指定层钩取特征，并通过轻量级解码器（https://huggingface.co/papers?q=decoder）将其投影到分数潜空间（https://huggingface.co/papers?q=score%20latent%20space）。然后，我们构建一个近似的似然分数（https://huggingface.co/papers?q=likelihood%20score）目标，并计算解码器（https://huggingface.co/papers?q=decoder）输出与该目标之间的距离作为额外正则化损失。最后，我们联合优化侧网络（https://huggingface.co/papers?q=side%20network）和解码器（https://huggingface.co/papers?q=decoder），同时使用标准扩散损失和我们的正则化损失。在多种图像/视频任务、架构以及扩散/流模型（https://huggingface.co/papers?q=flow%20models）上的实验表明，LISA（https://huggingface.co/papers?q=LISA）不仅能够一致地加速训练收敛（https://huggingface.co/papers?q=training%20convergence）并提升最终合成结果，还能鼓励侧网络（https://huggingface.co/papers?q=side%20network）的特征在条件建模中更加解耦，且几乎不增加额外训练成本，零额外推理成本。

查看arXiv页面（https://arxiv.org/abs/2606.27192）查看PDF（https://arxiv.org/pdf/2606.27192）项目页面（https://github.com/HKUST-LongGroup/LISA）GitHub4（https://github.com/HKUST-LongGroup/LISA）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.27192）

在你的智能体中获取此论文：

hf papers read 2606.27192

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2606.27192以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2606.27192以从此页面链接。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2606.27192以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏（https://huggingface.co/new-collection）以从此页面链接。

LISA: 面向视觉条件可控生成的似然分数对齐

论文页面 - LISA：用于视觉条件可控生成的似然分数对齐

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

跨尺度对齐监督训练GANs

超越表面统计：通过内部表示实现LLM鲁棒共形预测

目标条件监督学习用于LLM微调

对数似然、辛普森悖论与机器生成文本的检测

通过分布级奖励优化视觉生成模型

提交意见反馈