doob-h-function

#doob-h-function

我们真的在倾斜吗？流模型与扩散模型中奖励引导的机制

arXiv cs.LG ↗ · 2026-06-03 缓存

本文解释了奖励引导的流模型和扩散模型中奖励作弊的根本原因，将其归因于Doob h函数的有限粒子插件估计，并提出了一种奖励阻尼调度方案，在不增加计算成本的情况下校正模态内偏差。

0 人收藏 0 人点赞