奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配
摘要
本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。
查看缓存全文
缓存时间: 2026/06/18 15:57
论文页面 - 你的数据中本就蕴藏着奖励:通过判别器引导的强化学习校正流匹配
来源:https://huggingface.co/papers/2606.19162
摘要
判别器引导的强化学习(DRL)通过利用预训练表示空间中的判别器作为最优奖励信号,解决了评分模型和流匹配模型中的对齐问题,在不依赖人类偏好情况下同时提升了视觉保真度和语义质量。
评分模型和流匹配模型(https://huggingface.co/papers?q=flow-matching%20models)通常依赖基于偏好的强化学习(https://huggingface.co/papers?q=preference-based%20reinforcement%20learning)实现两个目标:与主观偏好对齐,以及(令人惊讶地)恢复匹配训练本应从数据自身习得的属性,如视觉真实感(https://huggingface.co/papers?q=visual%20realism)和连贯的物体结构(https://huggingface.co/papers?q=coherent%20object%20structure)。我们认为这反映了结构上的不匹配。匹配损失(https://huggingface.co/papers?q=Matching%20losses)在训练时的边缘分布下测量速度场或评分场(https://huggingface.co/papers?q=score%20field)的ell_2回归误差,这种代理信号与决定推理时样本质量的视觉和语义属性难以对齐。若存在与这些属性对齐的奖励,强化学习便可通过让模型在其自身生成样本上进行评估并直接遵循奖励景观来规避上述不匹配。问题在于如何在不依赖人类偏好(成本高昂且将数据真实性与标注者倾向混为一谈)的情况下获得此类奖励。我们提出判别器引导的强化学习(DRL)(https://huggingface.co/papers?q=Discriminator-Guided%20RL)。DRL训练一个判别器,在预训练表示空间(https://huggingface.co/papers?q=pretrained%20representation%20space)中区分数据和基础模型样本,并将其对数几率作为KL正则化强化学习的奖励。预训练空间将判别器限制在感知有意义的维度上,而对数几率则估计数据与模型之间的对数似然比(https://huggingface.co/papers?q=log-likelihood%20ratio),这是以数据分布为目标的最优奖励。在SiT、JiT、REPA和RAE上,DRL降低了无指导FID(https://huggingface.co/papers?q=FID)(例如,SiT上从9.38降至2.62)和语义空间FD(https://huggingface.co/papers?q=semantic-space%20FD)(例如,SiT在DINOv3(https://huggingface.co/papers?q=DINOv3)上从88.2降至19.3),并在所有骨干网络上取得一致提升,同时在不经训练的情况下改善了人类偏好奖励。它还在后续基于偏好的后训练中产生了更优的偏好奖励与图像FID(https://huggingface.co/papers?q=fid)之间的帕累托前沿(https://huggingface.co/papers?q=Pareto%20frontier),在提升对齐度的同时减少了过饱和、过亮等低层次伪影。
查看arXiv页面(https://arxiv.org/abs/2606.19162)查看PDF(https://arxiv.org/pdf/2606.19162)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19162)
引用本文的模型 0
尚无模型链接此论文
请在模型README.md中引用arxiv.org/abs/2606.19162以从此页面建立链接。
引用本文的数据集 0
尚无数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2606.19162以从此页面建立链接。
引用本文的 Spaces 0
尚无 Space 链接此论文
请在 Space README.md 中引用arxiv.org/abs/2606.19162以从此页面建立链接。
包含本文的集合 0
尚无包含此论文的集合
将此论文添加到集合(https://huggingface.co/new-collection)中以从此页面建立链接。
相似文章
探索Flow Matching中奖励反向传播的设计空间
FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。
当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化
本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。
@svlevine: 扩散(或流)可生成出色策略,但用强化学习训练它们却出了名的困难:BPTT不稳定,RL…
新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者,使训练变得可行。
FlowR2A:学习奖励到动作分布的多模态驾驶规划
FlowR2A提出了一种新颖的方法,通过流匹配解码器将密集奖励监督与动态提议生成相结合,用于多模态驾驶规划,在NAVSIM基准测试上取得了最先进的结果。
STAR: 时空自适应奖励分配用于文本到图像强化学习后训练
本文介绍STAR,一种用于文本到图像扩散模型强化学习后训练中的时空自适应奖励分配方法,通过将策略更新聚焦于相关潜在区域,改善组合对齐和文本渲染。