HP-Edit:面向图像编辑的人类偏好后训练框架
摘要
HP-Edit 提出一种后训练框架,通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐,依托全新 5 万张真实场景数据集及自动 VLM 评估器。
查看缓存全文
缓存时间: 2026/04/22 10:35
论文页 - HP-Edit:面向图像编辑的人偏好后训练框架
来源:https://huggingface.co/papers/2604.19406
作者:
,
,
,
,
,
,
,
,
,
,
摘要
我们提出一种后训练框架 HP-Edit,通过新型自动评估器与真实世界数据集,将图像编辑模型与人类偏好对齐,并利用强化学习技术提升编辑质量。
常见图像编辑任务普遍采用强大的生成式扩散模型作为现实内容编辑的主流范式。与此同时,尽管 Diffusion-DPO、Flow-GRPO 等强化学习(RL)方法进一步提升了生成质量,但由于缺乏可扩展的人类偏好数据集以及面向多样化编辑需求的框架,将基于扩散的编辑与人类反馈强化学习(RLHF)高效结合仍属空白。为此,我们提出 HP-Edit——面向人类偏好对齐编辑的后训练框架,并发布 RealPref-50K,一个涵盖八类常见任务、兼顾常见物体编辑的真实世界数据集。具体而言,HP-Edit 利用少量人类偏好评分数据与预训练的视觉大语言模型(VLM),训练出与人类偏好对齐的自动评估器——HP-Scorer。随后,我们使用 HP-Scorer 高效构建可扩展的偏好数据集,并将其作为奖励函数对编辑模型进行后训练。此外,我们提出 RealPref-Bench,用于评估真实世界编辑性能。大量实验表明,该方法显著提升 Qwen-Image-Edit-2509 等模型的输出,与人类偏好更加一致。
查看 arXiv 页面(https://arxiv.org/abs/2604.19406)
查看 PDF(https://arxiv.org/pdf/2604.19406)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.19406)
在智能体中获取本文:
hf papers read 2604.19406
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到新建合集即可在此页面显示链接。
相似文章
prunaai/p-image-edit
Pruna的p-image-edit是一款运行在Replicate平台上的高端AI模型,能够在一秒内快速完成业界领先的图像编辑,兼具速度、经济性和高视觉质量,精准遵循提示词并具备强大的文字渲染能力。
SmartPhotoCrafter:统一推理、生成与优化的自动摄影图像编辑
SmartPhotoCrafter 提出一条无需显式人工指令即可统一质量理解与增强的自动摄影图像编辑流水线,在真实感增强任务上超越现有生成模型。
HiDream-ai/HiDream-O1-Image
HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。
PRX Part 3 — 在24小时内训练文本到图像模型!
Photoroom的 PRX Part 3 演示了如何通过结合优化的架构和训练技术(包括感知损失、TREAD 令牌路由和 Muon 优化器)在24小时内训练文本到图像模型。
从人类偏好中学习
OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。