doob-h-function

标签

Cards List
#doob-h-function

我们真的在倾斜吗?流模型与扩散模型中奖励引导的机制

arXiv cs.LG · 2026-06-03 缓存

本文解释了奖励引导的流模型和扩散模型中奖励作弊的根本原因,将其归因于Doob h函数的有限粒子插件估计,并提出了一种奖励阻尼调度方案,在不增加计算成本的情况下校正模态内偏差。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈