MARBLE:用于扩散强化学习的多目标奖励平衡
摘要
本文介绍了 MARBLE,这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架,无需手动权重调整即可实现策略梯度的和谐统一。
查看缓存全文
缓存时间: 2026/05/08 07:34
论文页面 - MARBLE:用于扩散强化学习的多视角奖励平衡
来源:https://huggingface.co/papers/2605.06507
摘要
一种名为 MARBLE 的新型梯度空间优化框架,通过维护独立的优势估计器并通过二次规划调和策略梯度(无需手动设置奖励权重),解决了扩散模型在多奖励强化学习微调中的局限性。
强化学习微调 (https://huggingface.co/papers?q=Reinforcement%20learning%20fine-tuning) 已成为使扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 与人类偏好对齐的主导方法。然而,图像评估本质上是一项多维任务 (https://huggingface.co/papers?q=multi-dimensional%20task),需要同时优化多个评估标准。现有实践通常通过为每个奖励训练一个专家模型、优化加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) R(x)=\sum_k w_k R_k(x),或按照手工设计的阶段计划依次进行微调,来处理多个奖励。这些方法要么无法产生一个可以在所有奖励上联合训练的统一步模型,要么需要大量手动调整的序贯训练。我们发现,失败的原因在于使用了朴素的加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) 聚合。这种方法存在样本层面的不匹配问题,因为大多数 rollout 都是专家样本,对某些奖励维度极具信息量,但对其他维度则无关紧要;因此,加权求和会稀释它们的监督信号。为了解决这个问题,我们提出了 MARBLE(Multi-Aspect Reward BaLancE,多视角奖励平衡),这是一种梯度空间优化 (https://huggingface.co/papers?q=gradient-space%20optimization) 框架,它为每个奖励维护独立的优势估计器,计算每个奖励的策略梯度 (https://huggingface.co/papers?q=policy%20gradients),并通过求解一个二次规划 (https://huggingface.co/papers?q=Quadratic%20Programming) 问题,将它们调和为单一的更新方向,无需手动调整奖励权重。此外,我们提出了一种摊销公式 (https://huggingface.co/papers?q=amortized%20formulation),利用 DiffusionNFT 中使用的损失的仿射结构,将每一步的成本从 K+1 次反向传播降低到接近单奖励基线的成本,并结合对平衡系数的 EMA 平滑 (https://huggingface.co/papers?q=EMA%20smoothing),以稳定针对瞬态单批次波动的更新。在 SD3.5 Medium 上使用五个奖励时,MARBLE 同时改善了所有五个奖励维度,将最弱对齐奖励的梯度余弦值从加权求和时 80% 的 mini-batch 中为负值,转变为始终为正值,并且其训练速度达到基线训练的 0.97 倍。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06507) 查看 PDF (https://arxiv.org/pdf/2605.06507) 项目页面 (https://aim-uofa.github.io/MARBLE/) GitHub (https://github.com/aim-uofa/MARBLE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06507)
在您的 agent 中获取此论文:
hf papers read 2605.06507
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
恢复扩散策略中的隐藏奖励
本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。
UDM-GRPO:面向均匀离散扩散模型的稳定高效群体相对策略优化
UDM-GRPO 为均匀离散扩散模型提出了一种稳定的强化学习训练框架,将 GenEval 准确率从 69% 提升至 96%,OCR 基准准确率从 8% 提升至 57%。
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
基于价值梯度流的强化学习
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。
RAD-2:在生成器-判别器框架中扩展强化学习
RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。