BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
doob-h-function
标签
Cards
List
#doob-h-function
我们真的在倾斜吗?流模型与扩散模型中奖励引导的机制
arXiv cs.LG
↗
· 2026-06-03
缓存
本文解释了奖励引导的流模型和扩散模型中奖励作弊的根本原因,将其归因于Doob h函数的有限粒子插件估计,并提出了一种奖励阻尼调度方案,在不增加计算成本的情况下校正模态内偏差。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交