奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配

Hugging Face Daily Papers 论文

摘要

本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。

分数匹配和流匹配模型通常依赖于基于偏好的强化学习来实现两个目标:与主观偏好对齐,以及令人惊讶地,恢复诸如视觉真实感和一致的对象结构等属性——这些属性本应是基于匹配的训练从数据自身学习到的。我们认为这反映了一种结构性错配。匹配损失衡量训练时边际分布下速度场或分数场的ℓ2回归误差,这一代理指标与决定推理时样本质量的视觉和语义属性对齐不佳。给定一个与这些属性对齐的奖励,强化学习通过直接评估模型自身生成的样本并沿着奖励地形进行优化,从而绕开了这种错配。难点在于如何在不依赖人类偏好的情况下获得这样的奖励,因为人类偏好成本高昂,并且将数据真实性与标注者倾向混为一谈。 我们提出判别器引导的强化学习(DRL)。DRL训练一个判别器,在预训练的表示空间中将数据与基模型样本分离开来,并以其logit值作为KL正则化强化学习中的奖励。预训练的空间将判别器限制在感知上有意义的方向上,而logit值估计了数据与模型之间的对数似然比,这是以数据分布为目标的最优奖励。在SiT、JiT、REPA和RAE上,DRL显著降低了无引导FID(例如,SiT上从9.38降至2.62)和语义空间FD(例如,SiT上DINOv3从88.2降至19.3),在所有骨干网络上均取得一致的提升,并且在没有经过人类偏好训练的情况下提升了人类偏好奖励。此外,在后续基于偏好的后训练中,DRL在偏好奖励与图像保真度之间提供了更优的帕累托前沿,在提高对齐度的同时减少了过饱和、过亮等低级伪影。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:57

论文页面 - 你的数据中本就蕴藏着奖励:通过判别器引导的强化学习校正流匹配

来源:https://huggingface.co/papers/2606.19162

摘要

判别器引导的强化学习(DRL)通过利用预训练表示空间中的判别器作为最优奖励信号,解决了评分模型和流匹配模型中的对齐问题,在不依赖人类偏好情况下同时提升了视觉保真度和语义质量。

评分模型和流匹配模型(https://huggingface.co/papers?q=flow-matching%20models)通常依赖基于偏好的强化学习(https://huggingface.co/papers?q=preference-based%20reinforcement%20learning)实现两个目标:与主观偏好对齐,以及(令人惊讶地)恢复匹配训练本应从数据自身习得的属性,如视觉真实感(https://huggingface.co/papers?q=visual%20realism)和连贯的物体结构(https://huggingface.co/papers?q=coherent%20object%20structure)。我们认为这反映了结构上的不匹配。匹配损失(https://huggingface.co/papers?q=Matching%20losses)在训练时的边缘分布下测量速度场或评分场(https://huggingface.co/papers?q=score%20field)的ell_2回归误差,这种代理信号与决定推理时样本质量的视觉和语义属性难以对齐。若存在与这些属性对齐的奖励,强化学习便可通过让模型在其自身生成样本上进行评估并直接遵循奖励景观来规避上述不匹配。问题在于如何在不依赖人类偏好(成本高昂且将数据真实性与标注者倾向混为一谈)的情况下获得此类奖励。我们提出判别器引导的强化学习(DRL)(https://huggingface.co/papers?q=Discriminator-Guided%20RL)。DRL训练一个判别器,在预训练表示空间(https://huggingface.co/papers?q=pretrained%20representation%20space)中区分数据和基础模型样本,并将其对数几率作为KL正则化强化学习的奖励。预训练空间将判别器限制在感知有意义的维度上,而对数几率则估计数据与模型之间的对数似然比(https://huggingface.co/papers?q=log-likelihood%20ratio),这是以数据分布为目标的最优奖励。在SiT、JiT、REPA和RAE上,DRL降低了无指导FID(https://huggingface.co/papers?q=FID)(例如,SiT上从9.38降至2.62)和语义空间FD(https://huggingface.co/papers?q=semantic-space%20FD)(例如,SiT在DINOv3(https://huggingface.co/papers?q=DINOv3)上从88.2降至19.3),并在所有骨干网络上取得一致提升,同时在不经训练的情况下改善了人类偏好奖励。它还在后续基于偏好的后训练中产生了更优的偏好奖励与图像FID(https://huggingface.co/papers?q=fid)之间的帕累托前沿(https://huggingface.co/papers?q=Pareto%20frontier),在提升对齐度的同时减少了过饱和、过亮等低层次伪影。

查看arXiv页面(https://arxiv.org/abs/2606.19162)查看PDF(https://arxiv.org/pdf/2606.19162)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19162)

引用本文的模型 0

尚无模型链接此论文

请在模型README.md中引用arxiv.org/abs/2606.19162以从此页面建立链接。

引用本文的数据集 0

尚无数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2606.19162以从此页面建立链接。

引用本文的 Spaces 0

尚无 Space 链接此论文

请在 Space README.md 中引用arxiv.org/abs/2606.19162以从此页面建立链接。

包含本文的集合 0

尚无包含此论文的集合

将此论文添加到集合(https://huggingface.co/new-collection)中以从此页面建立链接。

相似文章

探索Flow Matching中奖励反向传播的设计空间

Hugging Face Daily Papers

FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。