标签
QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。
本文解释了奖励引导的流模型和扩散模型中奖励作弊的根本原因,将其归因于Doob h函数的有限粒子插件估计,并提出了一种奖励阻尼调度方案,在不增加计算成本的情况下校正模态内偏差。
介绍了约束流优化(CFO)框架,该框架通过微调生成流模型,在分子设计中最大化奖励的同时满足约束,具有理论保证和实验验证。
本文识别了组合奖励下引导流模型中的流形外漂移,并提出冲突感知加性引导(CAR),这是一种轻量级方法,可动态解决梯度冲突,从而无需重新训练即可提升生成保真度。
Flow-Direct 提出了一种用于基于流的生成模型的非参数引导场,该引导场持续累积奖励反馈,提高了反馈效率,并使得收集的样本可重复用于引导多目标生成,无需额外的奖励评估。