MARBLE:用于扩散强化学习的多目标奖励平衡

Hugging Face Daily Papers 论文

摘要

本文介绍了 MARBLE,这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架,无需手动权重调整即可实现策略梯度的和谐统一。

强化学习微调已成为对齐扩散模型与人类偏好的主流方法。然而,图像评估本质上是一个多维任务,需要同时优化多个评估标准。现有的处理方法包括:针对每个奖励训练一个专用模型、优化加权求和奖励 R(x)=sum_k w_k R_k(x),或按照手工制定的阶段计划依次进行微调。这些方法要么无法产生一个能够在所有奖励上联合训练的单一模型,要么需要进行大量手动调整的串行训练。我们发现,这种失败源于使用简单的加权求和奖励聚合方法。由于大多数采样序列是专用样本,对某些奖励维度具有高度信息量,但对其他维度则无关紧要,因此这种方法在样本级别存在不匹配;结果,加权求和会削弱其监督作用。为了解决这个问题,我们提出了 MARBLE(多目标奖励平衡,Multi-Aspect Reward BaLancE),这是一个梯度空间优化框架,它为每个奖励保持独立的优势估计器,计算每个奖励的策略梯度,并通过求解二次规划问题,在没有手动调整的奖励权重的情况下,将它们和谐地统一成一个单一的更新方向。我们进一步提出了一种摊销公式,利用 DiffusionNFT 中使用的损失的仿射结构,将每步成本从 K+1 次反向传播降低到接近单一奖励基线成本,并结合对平衡系数的 EMA 平滑,以稳定更新,避免瞬时的单批次波动。在包含五个奖励的 SD3.5 Medium 模型上,MARBLE 同时改善了所有五个奖励维度,将原本在加权求和情况下 80% 的小批量中最差对齐奖励的梯度余弦值从负值转变为持续正值,其训练速度是基线训练的 0.97 倍。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:34

论文页面 - MARBLE:用于扩散强化学习的多视角奖励平衡

来源:https://huggingface.co/papers/2605.06507

摘要

一种名为 MARBLE 的新型梯度空间优化框架,通过维护独立的优势估计器并通过二次规划调和策略梯度(无需手动设置奖励权重),解决了扩散模型在多奖励强化学习微调中的局限性。

强化学习微调 (https://huggingface.co/papers?q=Reinforcement%20learning%20fine-tuning) 已成为使扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 与人类偏好对齐的主导方法。然而,图像评估本质上是一项多维任务 (https://huggingface.co/papers?q=multi-dimensional%20task),需要同时优化多个评估标准。现有实践通常通过为每个奖励训练一个专家模型、优化加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) R(x)=\sum_k w_k R_k(x),或按照手工设计的阶段计划依次进行微调,来处理多个奖励。这些方法要么无法产生一个可以在所有奖励上联合训练的统一步模型,要么需要大量手动调整的序贯训练。我们发现,失败的原因在于使用了朴素的加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) 聚合。这种方法存在样本层面的不匹配问题,因为大多数 rollout 都是专家样本,对某些奖励维度极具信息量,但对其他维度则无关紧要;因此,加权求和会稀释它们的监督信号。为了解决这个问题,我们提出了 MARBLE(Multi-Aspect Reward BaLancE,多视角奖励平衡),这是一种梯度空间优化 (https://huggingface.co/papers?q=gradient-space%20optimization) 框架,它为每个奖励维护独立的优势估计器,计算每个奖励的策略梯度 (https://huggingface.co/papers?q=policy%20gradients),并通过求解一个二次规划 (https://huggingface.co/papers?q=Quadratic%20Programming) 问题,将它们调和为单一的更新方向,无需手动调整奖励权重。此外,我们提出了一种摊销公式 (https://huggingface.co/papers?q=amortized%20formulation),利用 DiffusionNFT 中使用的损失的仿射结构,将每一步的成本从 K+1 次反向传播降低到接近单奖励基线的成本,并结合对平衡系数的 EMA 平滑 (https://huggingface.co/papers?q=EMA%20smoothing),以稳定针对瞬态单批次波动的更新。在 SD3.5 Medium 上使用五个奖励时,MARBLE 同时改善了所有五个奖励维度,将最弱对齐奖励的梯度余弦值从加权求和时 80% 的 mini-batch 中为负值,转变为始终为正值,并且其训练速度达到基线训练的 0.97 倍。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06507) 查看 PDF (https://arxiv.org/pdf/2605.06507) 项目页面 (https://aim-uofa.github.io/MARBLE/) GitHub (https://github.com/aim-uofa/MARBLE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06507)

在您的 agent 中获取此论文:

hf papers read 2605.06507

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

不要让收益FADE:解析强化学习中的策略梯度权重

arXiv cs.LG

本文介绍了FADE(Focal Advantage with Dynamic Entropy),一种自适应优势函数,能在大型语言模型的强化学习后训练过程中动态调度梯度权重,与静态基线相比,实现了更快的收敛和更好的准确率-多样性平衡。

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

面向奖励引导扩散的分层变分策略

arXiv cs.LG

提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。