基于区域感知的双模态直接偏好优化的组合式文本到图像生成
摘要
本文介绍了BiDPO,这是一个通过基于偏好的微调和区域级引导来增强文本到图像模型处理复杂组合提示的框架,在组合保真度基准上达到了最先进的性能。
查看缓存全文
缓存时间: 2026/06/02 03:23
论文页面 - 基于区域感知双模态直接偏好优化的组合式文生图
来源:https://huggingface.co/papers/2605.28615
摘要
BiDPO 通过基于偏好的微调和区域级引导,增强了文生图模型对复杂组合式提示的处理能力。
尽管文生图(T2I)模型发展迅速,但生成能够准确反映复杂组合式提示(涵盖属性绑定、物体关系、计数)的图像仍然具有挑战性。为此,我们提出了 BiDPO 框架,用于提升 T2I 模型在组合式文生图任务中的能力。我们首先设计了一套精心编排的流程,构建了一个大规模偏好数据集 BiComp,并进行了严格的质量控制。接着,我们将 Diffusion DPO 扩展为联合优化图像和文本偏好,实验证明这对提升模型根据复杂文本提示进行生成的能力极为有效。为了进一步增强模型的细粒度对齐能力,我们采用了一种区域级引导方法,聚焦于与组合概念相关的区域。实验结果表明,我们的 BiDPO 显著提升了组合保真度,在多个基准测试中持续优于先前方法。我们的方法突显了基于偏好的微调在复杂文生图任务中的潜力,为现有技术提供了一种灵活且可扩展的替代方案。
查看 arXiv 页面 (https://arxiv.org/abs/2605.28615) 查看 PDF (https://arxiv.org/pdf/2605.28615) GitHub (https://github.com/anzeameol/BiDPO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.28615)
在您的 agent 中获取本篇论文:
hf papers read 2605.28615
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本篇论文的模型 1
anzeameol/sdxl-BiDPO 4 天前更新 (https://huggingface.co/anzeameol/sdxl-BiDPO)
引用本篇论文的数据集 1
anzeameol/BiComp 查看器 • 4 天前更新 • 57.5k • 939 (https://huggingface.co/datasets/anzeameol/BiComp)
引用本篇论文的 Space 0
无 Space 链接本篇论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.28615,以建立从本页面的链接。
包含本篇论文的收藏 0
无收藏包含本篇论文
请将本篇论文添加到一个收藏 (https://huggingface.co/new-collection) 中以建立从本页面的链接。
相似文章
超越聊天机器人的直接偏好优化
直接偏好优化(DPO)被应用于聊天机器人之外的OCR任务,显示出在多个模型家族中文本退化的显著减少,平均减少了59.4%。
面向聊天机器人微调的直接偏好优化:一项实证研究
本文对直接偏好优化(DPO)在大型语言模型微调中的应用进行了实证研究,表明DPO简化了训练流程,在实现竞争性性能的同时,也解决了训练不稳定性问题。
GroupDPO:内存高效的分组直接偏好优化
GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。
xi-DPO:通过比率奖励边际的直接偏好优化
本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。
通过判别式文本表征将一步图像生成从类别标签扩展到文本
研究者通过集成高判别力的大语言模型文本编码器,将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入,实现高效的文本条件合成并显著提升性能。