BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
discriminator-guided-rl
标签
Cards
List
#discriminator-guided-rl
奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配
Hugging Face Daily Papers
↗
· 2026-06-17
缓存
本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交