flow-models

#flow-models

强化学习中流策略的测试时梯度引导

Hugging Face Daily Papers ↗ · 4天前缓存

QGF 是一种强化学习算法，通过使用价值梯度来指导预训练的流策略，在测试时改进策略，避免了训练时的不稳定性，同时保持了竞争力的性能。

0 人收藏 0 人点赞

#flow-models

arXiv cs.LG ↗ · 2026-06-03 缓存

本文解释了奖励引导的流模型和扩散模型中奖励作弊的根本原因，将其归因于Doob h函数的有限粒子插件估计，并提出了一种奖励阻尼调度方案，在不增加计算成本的情况下校正模态内偏差。

0 人收藏 0 人点赞

#flow-models

arXiv cs.LG ↗ · 2026-06-01 缓存

介绍了约束流优化（CFO）框架，该框架通过微调生成流模型，在分子设计中最大化奖励的同时满足约束，具有理论保证和实验验证。

0 人收藏 0 人点赞

#flow-models

arXiv cs.AI ↗ · 2026-05-22 缓存

本文识别了组合奖励下引导流模型中的流形外漂移，并提出冲突感知加性引导（CAR），这是一种轻量级方法，可动态解决梯度冲突，从而无需重新训练即可提升生成保真度。

0 人收藏 0 人点赞

#flow-models

arXiv cs.LG ↗ · 2026-05-19 缓存

Flow-Direct 提出了一种用于基于流的生成模型的非参数引导场，该引导场持续累积奖励反馈，提高了反馈效率，并使得收集的样本可重复用于引导多目标生成，无需额外的奖励评估。

0 人收藏 0 人点赞