reward-guided-rl

标签

Cards List
#reward-guided-rl

通过奖励倾斜分布匹配强化少步生成器

Hugging Face Daily Papers · 2026-05-25 缓存

RTDMD是一个两阶段框架,结合分布匹配蒸馏与奖励引导的强化学习,以改进少步图像生成与人类偏好的一致性。它在仅需4步推理的情况下,在多个模型上取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈