reward-guided-rl

#reward-guided-rl

通过奖励倾斜分布匹配强化少步生成器

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

RTDMD是一个两阶段框架，结合分布匹配蒸馏与奖励引导的强化学习，以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下，在多个模型上取得了最先进的结果。

0 人收藏 0 人点赞