MARBLE:用于扩散强化学习的多目标奖励平衡
摘要
本文介绍了 MARBLE,这是一种针对扩散模型进行多奖励强化学习微调的梯度空间优化框架,无需手动权重调整即可实现策略梯度的和谐统一。
查看缓存全文
缓存时间: 2026/05/08 07:34
论文页面 - MARBLE:用于扩散强化学习的多视角奖励平衡
来源:https://huggingface.co/papers/2605.06507
摘要
一种名为 MARBLE 的新型梯度空间优化框架,通过维护独立的优势估计器并通过二次规划调和策略梯度(无需手动设置奖励权重),解决了扩散模型在多奖励强化学习微调中的局限性。
强化学习微调 (https://huggingface.co/papers?q=Reinforcement%20learning%20fine-tuning) 已成为使扩散模型 (https://huggingface.co/papers?q=diffusion%20models) 与人类偏好对齐的主导方法。然而,图像评估本质上是一项多维任务 (https://huggingface.co/papers?q=multi-dimensional%20task),需要同时优化多个评估标准。现有实践通常通过为每个奖励训练一个专家模型、优化加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) R(x)=\sum_k w_k R_k(x),或按照手工设计的阶段计划依次进行微调,来处理多个奖励。这些方法要么无法产生一个可以在所有奖励上联合训练的统一步模型,要么需要大量手动调整的序贯训练。我们发现,失败的原因在于使用了朴素的加权求和奖励 (https://huggingface.co/papers?q=weighted-sum%20reward) 聚合。这种方法存在样本层面的不匹配问题,因为大多数 rollout 都是专家样本,对某些奖励维度极具信息量,但对其他维度则无关紧要;因此,加权求和会稀释它们的监督信号。为了解决这个问题,我们提出了 MARBLE(Multi-Aspect Reward BaLancE,多视角奖励平衡),这是一种梯度空间优化 (https://huggingface.co/papers?q=gradient-space%20optimization) 框架,它为每个奖励维护独立的优势估计器,计算每个奖励的策略梯度 (https://huggingface.co/papers?q=policy%20gradients),并通过求解一个二次规划 (https://huggingface.co/papers?q=Quadratic%20Programming) 问题,将它们调和为单一的更新方向,无需手动调整奖励权重。此外,我们提出了一种摊销公式 (https://huggingface.co/papers?q=amortized%20formulation),利用 DiffusionNFT 中使用的损失的仿射结构,将每一步的成本从 K+1 次反向传播降低到接近单奖励基线的成本,并结合对平衡系数的 EMA 平滑 (https://huggingface.co/papers?q=EMA%20smoothing),以稳定针对瞬态单批次波动的更新。在 SD3.5 Medium 上使用五个奖励时,MARBLE 同时改善了所有五个奖励维度,将最弱对齐奖励的梯度余弦值从加权求和时 80% 的 mini-batch 中为负值,转变为始终为正值,并且其训练速度达到基线训练的 0.97 倍。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06507) 查看 PDF (https://arxiv.org/pdf/2605.06507) 项目页面 (https://aim-uofa.github.io/MARBLE/) GitHub (https://github.com/aim-uofa/MARBLE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06507)
在您的 agent 中获取此论文:
hf papers read 2605.06507
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.06507 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
不要让收益FADE:解析强化学习中的策略梯度权重
本文介绍了FADE(Focal Advantage with Dynamic Entropy),一种自适应优势函数,能在大型语言模型的强化学习后训练过程中动态调度梯度权重,与静态基线相比,实现了更快的收敛和更好的准确率-多样性平衡。
GRAIL:面向可验证奖励强化学习的梯度重加权优势方法
GRAIL 引入了梯度重加权优势,以改进 LLM 推理强化学习中的 token 级信用分配,在多个模型上优于 GRPO。
@probablynotaz9: ICML 单作者论文警报:是否曾想用经典策略梯度对扩散 LLM 进行后训练,而无需……
这篇 ICML 单作者论文介绍了摊销式组相对策略优化(AGRPO),旨在为扩散语言模型实现高效的强化学习后训练。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
面向奖励引导扩散的分层变分策略
提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。