通过奖励倾斜分布匹配强化少步生成器
摘要
RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/26 06:42
论文页面 — 通过奖励倾斜分布匹配增强少步生成器
来源:https://huggingface.co/papers/2605.26108
摘要
RTDMD 是一个两阶段框架,将分布匹配蒸馏与奖励引导的强化学习相结合,以改进少步图像生成与人类偏好的对齐。
近年来,少步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)的进展实现了高效的图像生成,但将这些模型与人类偏好对齐仍然具有挑战性。我们提出奖励倾斜分布匹配蒸馏(Reward-Tilted Distribution Matching Distillation,RTDMD)(https://huggingface.co/papers?q=Distribution%20Matching%20Distillation),这是一个两阶段框架,将分布匹配蒸馏(https://huggingface.co/papers?q=distribution%20matching%20distillation)与奖励引导的强化学习(https://huggingface.co/papers?q=reward-guided%20reinforcement%20learning)统一起来,用于少步流生成器。我们证明了,最小化到奖励倾斜教师分布的 KL 散度(https://huggingface.co/papers?q=KL%20divergence)自然分解为一个分布匹配项和一个奖励最大化项。在第一阶段,我们引入了环境一致分布匹配蒸馏(Ambient-Consistent Distribution Matching Distillation,AC-DMD)(https://huggingface.co/papers?q=Distribution%20Matching%20Distillation),它在子区间上进行分布匹配,并通过一个一致性正则化项(https://huggingface.co/papers?q=consistency%20regularizer)增强假分数目标(https://huggingface.co/papers?q=fake%20score%20objective),帮助假分数模型在有限更新下跟踪变化的生成器分布。在第二阶段,我们联合优化两项:对于奖励最大化项,我们推导出一个混合策略梯度(https://huggingface.co/papers?q=policy%20gradient),它结合了一个 GRPO(https://huggingface.co/papers?q=GRPO)风格的随机中间转移估计器与通过确定性最后步骤的直接奖励反向传播,并进一步引入步骤子集 GRPO(SubGRPO)(https://huggingface.co/papers?q=SubGRPO)以降低方差。在 SD3、SD3.5 和 FLUX.2 上的实验表明,RTDMD 仅用 4 步推理就在偏好、美学和组合性指标上建立了新的最先进结果,超越了先前的少步文本到图像生成方法。代码和模型可在 https://github.com/Harahan/RTDMD 获取。
查看 arXiv 页面(https://arxiv.org/abs/2605.26108) 查看 PDF(https://arxiv.org/pdf/2605.26108) GitHub3(https://github.com/Harahan/RTDMD) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26108)
在您的代理中获取此论文:
hf papers read 2605.26108
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 2
Harahan/FLUX2-4B-RTDMD 文本到图像 • 更新于 39 分钟前(https://huggingface.co/Harahan/FLUX2-4B-RTDMD)
Harahan/SD35M-RTDMD 文本到图像 • 更新于 39 分钟前(https://huggingface.co/Harahan/SD35M-RTDMD)
引用此论文的数据集 0
没有数据集与此论文关联
在数据集的 README.md 中引用 arxiv.org/abs/2605.26108 以从该页面链接。
引用此论文的 Space 0
没有 Space 与此论文关联
在 Space 的 README.md 中引用 arxiv.org/abs/2605.26108 以从该页面链接。
包含此论文的收藏 1
相似文章
RAD-2:在生成器-判别器框架中扩展强化学习
RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。
Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
基于预测奖励的强化学习
OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。
分布过程奖励模型:通过条件最优传输校准未来奖励的预测
本文引入了分布过程奖励模型,利用条件最优传输对 PRM 进行校准,以提高推理时缩放(inference-time scaling)中成功概率估计的准确性。该研究在 MATH-500 和 AIME 等数学推理基准测试中展示了改进的校准效果和下游性能。