MARBLE:用于扩散强化学习的多目标奖励平衡

Hugging Face Daily Papers 论文

摘要

本文介绍了 MARBLE,这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架,无需手动权重调整即可实现策略梯度的和谐统一。

强化学习微调已成为对齐扩散模型与人类偏好的主流方法。然而,图像评估本质上是一个多维任务,需要同时优化多个评估标准。现有的处理方法包括:针对每个奖励训练一个专用模型、优化加权求和奖励 R(x)=sum_k w_k R_k(x),或按照手工制定的阶段计划依次进行微调。这些方法要么无法产生一个能够在所有奖励上联合训练的单一模型,要么需要进行大量手动调整的串行训练。我们发现,这种失败源于使用简单的加权求和奖励聚合方法。由于大多数采样序列是专用样本,对某些奖励维度具有高度信息量,但对其他维度则无关紧要,因此这种方法在样本级别存在不匹配;结果,加权求和会削弱其监督作用。为了解决这个问题,我们提出了 MARBLE(多目标奖励平衡,Multi-Aspect Reward BaLancE),这是一个梯度空间优化框架,它为每个奖励保持独立的优势估计器,计算每个奖励的策略梯度,并通过求解二次规划问题,在没有手动调整的奖励权重的情况下,将它们和谐地统一成一个单一的更新方向。我们进一步提出了一种摊销公式,利用 DiffusionNFT 中使用的损失的仿射结构,将每步成本从 K+1 次反向传播降低到接近单一奖励基线成本,并结合对平衡系数的 EMA 平滑,以稳定更新,避免瞬时的单批次波动。在包含五个奖励的 SD3.5 Medium 模型上,MARBLE 同时改善了所有五个奖励维度,将原本在加权求和情况下 80% 的小批量中最差对齐奖励的梯度余弦值从负值转变为持续正值,其训练速度是基线训练的 0.97 倍。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:34

论文页面 - MARBLE:用于扩散强化学习的多视角奖励平衡

来源:https://huggingface.co/papers/2605.06507

摘要

一种名为 MARBLE 的新型梯度空间优化框架,通过维护独立的优势估计器并通过二次规划调和策略梯度(无需手动设置奖励权重),解决了扩散模型在多奖励强化学习微调中的局限性。

强化学习微调 (https://huggingface.co/papers?q=Reinforcement%20learning%20fine-tuning) 已成为使扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 与人类偏好对齐的主导方法。然而,图像评估本质上是一项多维任务 (https://huggingface.co/papers?q=multi-dimensional%20task),需要同时优化多个评估标准。现有实践通常通过为每个奖励训练一个专家模型、优化加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) R(x)=\sum_k w_k R_k(x),或按照手工设计的阶段计划依次进行微调,来处理多个奖励。这些方法要么无法产生一个可以在所有奖励上联合训练的统一步模型,要么需要大量手动调整的序贯训练。我们发现,失败的原因在于使用了朴素的加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) 聚合。这种方法存在样本层面的不匹配问题,因为大多数 rollout 都是专家样本,对某些奖励维度极具信息量,但对其他维度则无关紧要;因此,加权求和会稀释它们的监督信号。为了解决这个问题,我们提出了 MARBLE(Multi-Aspect Reward BaLancE,多视角奖励平衡),这是一种梯度空间优化 (https://huggingface.co/papers?q=gradient-space%20optimization) 框架,它为每个奖励维护独立的优势估计器,计算每个奖励的策略梯度 (https://huggingface.co/papers?q=policy%20gradients),并通过求解一个二次规划 (https://huggingface.co/papers?q=Quadratic%20Programming) 问题,将它们调和为单一的更新方向,无需手动调整奖励权重。此外,我们提出了一种摊销公式 (https://huggingface.co/papers?q=amortized%20formulation),利用 DiffusionNFT 中使用的损失的仿射结构,将每一步的成本从 K+1 次反向传播降低到接近单奖励基线的成本,并结合对平衡系数的 EMA 平滑 (https://huggingface.co/papers?q=EMA%20smoothing),以稳定针对瞬态单批次波动的更新。在 SD3.5 Medium 上使用五个奖励时,MARBLE 同时改善了所有五个奖励维度,将最弱对齐奖励的梯度余弦值从加权求和时 80% 的 mini-batch 中为负值,转变为始终为正值,并且其训练速度达到基线训练的 0.97 倍。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06507) 查看 PDF (https://arxiv.org/pdf/2605.06507) 项目页面 (https://aim-uofa.github.io/MARBLE/) GitHub (https://github.com/aim-uofa/MARBLE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06507)

在您的 agent 中获取此论文:

hf papers read 2605.06507

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

恢复扩散策略中的隐藏奖励

Hugging Face Daily Papers

本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。

超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。

基于价值梯度流的强化学习

Hugging Face Daily Papers

价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。