通过奖励倾斜分布匹配强化少步生成器

Hugging Face Daily Papers 论文

摘要

RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。

最近少步扩散蒸馏的进展使得高效图像生成成为可能,然而将这些模型与人类偏好对齐仍然具有挑战性。我们提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个两阶段框架,将分布匹配蒸馏与奖励引导的强化学习统一起来,用于少步流生成器。我们证明,最小化与奖励倾斜教师分布的KL散度自然地分解为分布匹配项和奖励最大化项。在第一阶段,我们引入了环境一致性分布匹配蒸馏(AC-DMD),它执行子区间级的分布匹配,并通过一致性正则化项增强伪造分数目标,以帮助伪造分数模型在有限更新下跟踪变化的生成器分布。在第二阶段,我们联合优化这两个项:对于奖励最大化项,我们推导出一种混合策略梯度,将GRPO风格的估计器用于随机中间过渡,与通过确定性最后步骤的直接奖励反向传播相结合,并进一步引入步骤子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD在仅需4步推理的情况下,在偏好、美学和组合指标上建立了新的最先进结果,超越了之前的少步文本到图像生成方法。代码和模型可在https://github.com/Harahan/RTDMD获取。
查看原文
查看缓存全文

缓存时间: 2026/05/26 06:42

论文页面 — 通过奖励倾斜分布匹配增强少步生成器

来源:https://huggingface.co/papers/2605.26108

摘要

RTDMD 是一个两阶段框架,将分布匹配蒸馏与奖励引导的强化学习相结合,以改进少步图像生成与人类偏好的对齐。

近年来,少步扩散蒸馏(https://huggingface.co/papers?q=diffusion%20distillation)的进展实现了高效的图像生成,但将这些模型与人类偏好对齐仍然具有挑战性。我们提出奖励倾斜分布匹配蒸馏(Reward-Tilted Distribution Matching Distillation,RTDMD)(https://huggingface.co/papers?q=Distribution%20Matching%20Distillation),这是一个两阶段框架,将分布匹配蒸馏(https://huggingface.co/papers?q=distribution%20matching%20distillation)与奖励引导的强化学习(https://huggingface.co/papers?q=reward-guided%20reinforcement%20learning)统一起来,用于少步流生成器。我们证明了,最小化到奖励倾斜教师分布的 KL 散度(https://huggingface.co/papers?q=KL%20divergence)自然分解为一个分布匹配项和一个奖励最大化项。在第一阶段,我们引入了环境一致分布匹配蒸馏(Ambient-Consistent Distribution Matching Distillation,AC-DMD)(https://huggingface.co/papers?q=Distribution%20Matching%20Distillation),它在子区间上进行分布匹配,并通过一个一致性正则化项(https://huggingface.co/papers?q=consistency%20regularizer)增强假分数目标(https://huggingface.co/papers?q=fake%20score%20objective),帮助假分数模型在有限更新下跟踪变化的生成器分布。在第二阶段,我们联合优化两项:对于奖励最大化项,我们推导出一个混合策略梯度(https://huggingface.co/papers?q=policy%20gradient),它结合了一个 GRPO(https://huggingface.co/papers?q=GRPO)风格的随机中间转移估计器与通过确定性最后步骤的直接奖励反向传播,并进一步引入步骤子集 GRPO(SubGRPO)(https://huggingface.co/papers?q=SubGRPO)以降低方差。在 SD3、SD3.5 和 FLUX.2 上的实验表明,RTDMD 仅用 4 步推理就在偏好、美学和组合性指标上建立了新的最先进结果,超越了先前的少步文本到图像生成方法。代码和模型可在 https://github.com/Harahan/RTDMD 获取。

查看 arXiv 页面(https://arxiv.org/abs/2605.26108) 查看 PDF(https://arxiv.org/pdf/2605.26108) GitHub3(https://github.com/Harahan/RTDMD) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26108)

在您的代理中获取此论文:

hf papers read 2605.26108

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 2

Harahan/FLUX2-4B-RTDMD 文本到图像 • 更新于 39 分钟前(https://huggingface.co/Harahan/FLUX2-4B-RTDMD)

Harahan/SD35M-RTDMD 文本到图像 • 更新于 39 分钟前(https://huggingface.co/Harahan/SD35M-RTDMD)

引用此论文的数据集 0

没有数据集与此论文关联

在数据集的 README.md 中引用 arxiv.org/abs/2605.26108 以从该页面链接。

引用此论文的 Space 0

没有 Space 与此论文关联

在 Space 的 README.md 中引用 arxiv.org/abs/2605.26108 以从该页面链接。

包含此论文的收藏 1

相似文章

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。

基于预测奖励的强化学习

OpenAI Blog

OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。