基于区域感知的双模态直接偏好优化的组合式文本到图像生成

Hugging Face Daily Papers 论文

摘要

本文介绍了BiDPO,这是一个通过基于偏好的微调和区域级引导来增强文本到图像模型处理复杂组合提示的框架,在组合保真度基准上达到了最先进的性能。

尽管文本到图像(T2I)模型取得了快速进展,但生成准确反映复杂组合提示(涵盖属性绑定、对象关系、计数)的图像仍具有挑战性。为了解决这一问题,我们提出了BiDPO框架,旨在增强T2I模型在组合式文本到图像生成方面的能力。我们首先引入了一个精心设计的流程,构建了一个大规模偏好数据集BiComp,并进行了严格的质量控制。接着,我们将扩散DPO扩展到联合优化图像和文本偏好,这被证明在提升模型遵循复杂文本提示生成方面非常有效。为了进一步增强模型的细粒度对齐,我们采用了区域级引导方法,聚焦于与组合概念相关的区域。实验结果表明,我们的BiDPO显著提高了组合保真度,在多个基准测试中持续优于先前方法。我们的方法突显了基于偏好的微调在复杂文本到图像任务中的潜力,为现有技术提供了一种灵活且可扩展的替代方案。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - 基于区域感知双模态直接偏好优化的组合式文生图

来源:https://huggingface.co/papers/2605.28615

摘要

BiDPO 通过基于偏好的微调和区域级引导,增强了文生图模型对复杂组合式提示的处理能力。

尽管文生图(T2I)模型发展迅速,但生成能够准确反映复杂组合式提示(涵盖属性绑定、物体关系、计数)的图像仍然具有挑战性。为此,我们提出了 BiDPO 框架,用于提升 T2I 模型在组合式文生图任务中的能力。我们首先设计了一套精心编排的流程,构建了一个大规模偏好数据集 BiComp,并进行了严格的质量控制。接着,我们将 Diffusion DPO 扩展为联合优化图像和文本偏好,实验证明这对提升模型根据复杂文本提示进行生成的能力极为有效。为了进一步增强模型的细粒度对齐能力,我们采用了一种区域级引导方法,聚焦于与组合概念相关的区域。实验结果表明,我们的 BiDPO 显著提升了组合保真度,在多个基准测试中持续优于先前方法。我们的方法突显了基于偏好的微调在复杂文生图任务中的潜力,为现有技术提供了一种灵活且可扩展的替代方案。

查看 arXiv 页面 (https://arxiv.org/abs/2605.28615) 查看 PDF (https://arxiv.org/pdf/2605.28615) GitHub (https://github.com/anzeameol/BiDPO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28615)

在您的 agent 中获取本篇论文:

hf papers read 2605.28615

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本篇论文的模型 1

anzeameol/sdxl-BiDPO 4 天前更新 (https://huggingface.co/anzeameol/sdxl-BiDPO)

引用本篇论文的数据集 1

anzeameol/BiComp 查看器 • 4 天前更新 • 57.5k • 939 (https://huggingface.co/datasets/anzeameol/BiComp)

引用本篇论文的 Space 0

无 Space 链接本篇论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28615,以建立从本页面的链接。

包含本篇论文的收藏 0

无收藏包含本篇论文

请将本篇论文添加到一个收藏 (https://huggingface.co/new-collection) 中以建立从本页面的链接。

相似文章

超越聊天机器人的直接偏好优化

Hugging Face Blog

直接偏好优化(DPO)被应用于聊天机器人之外的OCR任务,显示出在多个模型家族中文本退化的显著减少,平均减少了59.4%。

GroupDPO:内存高效的分组直接偏好优化

arXiv cs.CL

GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

xi-DPO:通过比率奖励边际的直接偏好优化

arXiv cs.LG

本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。