HP-Edit:面向图像编辑的人类偏好后训练框架

Hugging Face Daily Papers 论文

摘要

HP-Edit 提出一种后训练框架,通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐,依托全新 5 万张真实场景数据集及自动 VLM 评估器。

常见图像编辑任务普遍采用强大的生成扩散模型作为真实内容编辑的主流范式。尽管 Diffusion-DPO、Flow-GRPO 等强化学习方法已进一步提升生成质量,但由于缺乏可扩展的人类偏好数据集及针对多元编辑需求的专用框架,将基于人类反馈的强化学习(RLHF)高效应用于扩散编辑仍鲜有人涉足。为此,我们提出 HP-Edit——一个面向人类偏好对齐的编辑后训练框架,并发布 RealPref-50K:涵盖八大常见任务、兼顾常见物体编辑的 5 万张真实世界数据集。具体而言,HP-Edit 利用少量人类偏好打分数据与预训练视觉大语言模型(VLM)训练出 HP-Scorer——一款自动且与人类偏好对齐的评估器。随后,我们借助 HP-Scorer 高效构建可扩展的偏好数据集,并将其作为奖励函数对编辑模型进行后训练。此外,我们还推出 RealPref-Bench,用于评测真实场景编辑性能。大量实验表明,本方法显著提升 Qwen-Image-Edit-2509 等模型的输出质量,使其更贴近人类偏好。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 10:35

论文页 - HP-Edit:面向图像编辑的人偏好后训练框架

来源:https://huggingface.co/papers/2604.19406
作者:

,

,

,

,

,

,

,

,

,

,

摘要

我们提出一种后训练框架 HP-Edit,通过新型自动评估器与真实世界数据集,将图像编辑模型与人类偏好对齐,并利用强化学习技术提升编辑质量。

常见图像编辑任务普遍采用强大的生成式扩散模型作为现实内容编辑的主流范式。与此同时,尽管 Diffusion-DPO、Flow-GRPO 等强化学习(RL)方法进一步提升了生成质量,但由于缺乏可扩展的人类偏好数据集以及面向多样化编辑需求的框架,将基于扩散的编辑与人类反馈强化学习(RLHF)高效结合仍属空白。为此,我们提出 HP-Edit——面向人类偏好对齐编辑后训练框架,并发布 RealPref-50K,一个涵盖八类常见任务、兼顾常见物体编辑的真实世界数据集。具体而言,HP-Edit 利用少量人类偏好评分数据与预训练的视觉大语言模型(VLM),训练出与人类偏好对齐的自动评估器——HP-Scorer。随后,我们使用 HP-Scorer 高效构建可扩展的偏好数据集,并将其作为奖励函数对编辑模型进行后训练。此外,我们提出 RealPref-Bench,用于评估真实世界编辑性能。大量实验表明,该方法显著提升 Qwen-Image-Edit-2509 等模型的输出,与人类偏好更加一致。

查看 arXiv 页面(https://arxiv.org/abs/2604.19406)
查看 PDF(https://arxiv.org/pdf/2604.19406)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19406)

在智能体中获取本文:

hf papers read 2604.19406

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到新建合集即可在此页面显示链接。

相似文章

prunaai/p-image-edit

Replicate Explore

Pruna的p-image-edit是一款运行在Replicate平台上的高端AI模型,能够在一秒内快速完成业界领先的图像编辑,兼具速度、经济性和高视觉质量,精准遵循提示词并具备强大的文字渲染能力。

HiDream-ai/HiDream-O1-Image

Hugging Face Models Trending

HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。