LISA: 面向视觉条件可控生成的似然分数对齐
摘要
本文介绍了LISA,一种正则化方法,它将侧网络的中间特征与近似的似然分数对齐,以提高基于分数的生成模型中视觉条件可控生成的训练效率和质量。
查看缓存全文
缓存时间: 2026/06/26 18:08
论文页面 - LISA:用于视觉条件可控生成的似然分数对齐
来源:https://huggingface.co/papers/2606.27192
摘要
基于分数的生成建模揭示,侧网络通过似然分数贡献给条件控制,从而通过似然分数对齐正则化提升训练效率。
流行的双分支范式,即训练侧网络(https://huggingface.co/papers?q=side%20network)来编码视觉条件,并将其中间层特征(https://huggingface.co/papers?q=intermediate-layer%20features)融合到冻结的预训练主网络中,已在视觉条件可控生成中取得显著成功。尽管被广泛采用,侧分支的作用及其训练效率仍未被充分探索。本文首先通过基于分数的生成建模(https://huggingface.co/papers?q=score-based%20generative%20modeling)的视角重新审视这一主流范式:1)主网络通过提供先验无条件分数(https://huggingface.co/papers?q=unconditional%20score)来保持视觉感知质量。2)侧网络(https://huggingface.co/papers?q=side%20network)通过隐式贡献似然分数(https://huggingface.co/papers?q=likelihood%20score)来引导条件控制(https://huggingface.co/papers?q=conditional%20control)。受此视角指导,我们提出似然分数对齐(LISA(https://huggingface.co/papers?q=LISA)),一种有效的正则化方法(https://huggingface.co/papers?q=regularization%20method),它将侧网络(https://huggingface.co/papers?q=side%20network)的中间特征与近似的似然分数(https://huggingface.co/papers?q=likelihood%20score)显式对齐。具体来说,我们首先从侧网络(https://huggingface.co/papers?q=side%20network)的指定层钩取特征,并通过轻量级解码器(https://huggingface.co/papers?q=decoder)将其投影到分数潜空间(https://huggingface.co/papers?q=score%20latent%20space)。然后,我们构建一个近似的似然分数(https://huggingface.co/papers?q=likelihood%20score)目标,并计算解码器(https://huggingface.co/papers?q=decoder)输出与该目标之间的距离作为额外正则化损失。最后,我们联合优化侧网络(https://huggingface.co/papers?q=side%20network)和解码器(https://huggingface.co/papers?q=decoder),同时使用标准扩散损失和我们的正则化损失。在多种图像/视频任务、架构以及扩散/流模型(https://huggingface.co/papers?q=flow%20models)上的实验表明,LISA(https://huggingface.co/papers?q=LISA)不仅能够一致地加速训练收敛(https://huggingface.co/papers?q=training%20convergence)并提升最终合成结果,还能鼓励侧网络(https://huggingface.co/papers?q=side%20network)的特征在条件建模中更加解耦,且几乎不增加额外训练成本,零额外推理成本。
查看arXiv页面(https://arxiv.org/abs/2606.27192)查看PDF(https://arxiv.org/pdf/2606.27192)项目页面(https://github.com/HKUST-LongGroup/LISA)GitHub4(https://github.com/HKUST-LongGroup/LISA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.27192)
在你的智能体中获取此论文:
hf papers read 2606.27192
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2606.27192以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2606.27192以从此页面链接。
引用此论文的Space0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2606.27192以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
跨尺度对齐监督训练GANs
本文提出CAT,一种跨尺度对齐变换器,通过强制中间GAN输出与最终输出之间的一致性来解决轨迹错位问题,在ImageNet-256上实现了1.56的最优FID。
超越表面统计:通过内部表示实现LLM鲁棒共形预测
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
目标条件监督学习用于LLM微调
本文提出了目标条件监督学习(GCSL)作为LLM的离线微调框架,该方法将反馈作为显式目标,通过一种新颖的目标公式和自然语言目标表示,使用监督学习训练模型。在无毒生成、代码生成和LLM推荐三个任务上的评估显示,该方法优于标准的离线基线方法。
对数似然、辛普森悖论与机器生成文本的检测
本文通过指出基于似然的机器生成文本检测器在 token 分数聚合中存在的辛普森悖论,解决了此类检测器性能下降的问题。本文提出了一种学习到的局部校准步骤,显著提升了各种模型和数据集上的检测性能。
通过分布级奖励优化视觉生成模型
本文提出一种用于视觉生成模型的强化学习框架,该框架使用分布级奖励,并采用子集替换策略以提高效率,在改善图像多样性和质量的同时,解决模式崩溃和奖励破解问题。