HP-Edit：面向图像编辑的人类偏好后训练框架

Hugging Face Daily Papers 2026/04/21 00:00 论文

摘要

HP-Edit 提出一种后训练框架，通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐，依托全新 5 万张真实场景数据集及自动 VLM 评估器。

常见图像编辑任务普遍采用强大的生成扩散模型作为真实内容编辑的主流范式。尽管 Diffusion-DPO、Flow-GRPO 等强化学习方法已进一步提升生成质量，但由于缺乏可扩展的人类偏好数据集及针对多元编辑需求的专用框架，将基于人类反馈的强化学习（RLHF）高效应用于扩散编辑仍鲜有人涉足。为此，我们提出 HP-Edit——一个面向人类偏好对齐的编辑后训练框架，并发布 RealPref-50K：涵盖八大常见任务、兼顾常见物体编辑的 5 万张真实世界数据集。具体而言，HP-Edit 利用少量人类偏好打分数据与预训练视觉大语言模型（VLM）训练出 HP-Scorer——一款自动且与人类偏好对齐的评估器。随后，我们借助 HP-Scorer 高效构建可扩展的偏好数据集，并将其作为奖励函数对编辑模型进行后训练。此外，我们还推出 RealPref-Bench，用于评测真实场景编辑性能。大量实验表明，本方法显著提升 Qwen-Image-Edit-2509 等模型的输出质量，使其更贴近人类偏好。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 10:35

论文页 - HP-Edit：面向图像编辑的人偏好后训练框架

来源：https://huggingface.co/papers/2604.19406
作者：

摘要

我们提出一种后训练框架 HP-Edit，通过新型自动评估器与真实世界数据集，将图像编辑模型与人类偏好对齐，并利用强化学习技术提升编辑质量。

常见图像编辑任务普遍采用强大的生成式扩散模型作为现实内容编辑的主流范式。与此同时，尽管 Diffusion-DPO、Flow-GRPO 等强化学习（RL）方法进一步提升了生成质量，但由于缺乏可扩展的人类偏好数据集以及面向多样化编辑需求的框架，将基于扩散的编辑与人类反馈强化学习（RLHF）高效结合仍属空白。为此，我们提出 HP-Edit——面向人类偏好对齐编辑的后训练框架，并发布 RealPref-50K，一个涵盖八类常见任务、兼顾常见物体编辑的真实世界数据集。具体而言，HP-Edit 利用少量人类偏好评分数据与预训练的视觉大语言模型（VLM），训练出与人类偏好对齐的自动评估器——HP-Scorer。随后，我们使用 HP-Scorer 高效构建可扩展的偏好数据集，并将其作为奖励函数对编辑模型进行后训练。此外，我们提出 RealPref-Bench，用于评估真实世界编辑性能。大量实验表明，该方法显著提升 Qwen-Image-Edit-2509 等模型的输出，与人类偏好更加一致。

查看 arXiv 页面（https://arxiv.org/abs/2604.19406）
查看 PDF（https://arxiv.org/pdf/2604.19406）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.19406）

在智能体中获取本文：

hf papers read 2604.19406

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.19406 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到新建合集即可在此页面显示链接。

HP-Edit：面向图像编辑的人类偏好后训练框架

论文页 - HP-Edit：面向图像编辑的人偏好后训练框架

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

prunaai/p-image-edit

SmartPhotoCrafter：统一推理、生成与优化的自动摄影图像编辑

HiDream-ai/HiDream-O1-Image

PRX Part 3 — 在24小时内训练文本到图像模型！

从人类偏好中学习

提交意见反馈