discriminator-guided-rl

#discriminator-guided-rl

奖励始终存在于你的数据中：使用判别器引导的强化学习修正流匹配

Hugging Face Daily Papers ↗ · 2026-06-17 缓存

本文提出判别器引导的强化学习（DRL），通过使用预训练表示空间中的判别器作为最优奖励信号，来修正分数匹配和流匹配模型中的对齐问题，无需人类偏好即可显著提升视觉保真度和语义质量。

0 人收藏 0 人点赞