discriminator-guided-rl

标签

Cards List
#discriminator-guided-rl

奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配

Hugging Face Daily Papers · 2026-06-17 缓存

本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈