@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…

X AI KOLs Following 论文

摘要

一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。

一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出这些数据在我们*当前*策略(而不是收集数据的策略)下的扩散潜在步骤,因此需要对离策略数据反转扩散过程。
查看原文
查看缓存全文

缓存时间: 2026/06/18 04:03

一种全新的离策略强化学习与扩散结合的方法:如果我们有离策略数据,就需要根据当前的策略(而非收集数据时的策略)来确定这些数据对应的扩散潜步——这就要求我们对离策略数据进行扩散过程的逆转。

Aditya Oberai (@aditya_oberai): 如果我们把流步骤当作强化学习的动作会怎样?

结合我们的“流逆转”技术,这为离线流强化学习提供了一种非常简洁且强大的方案!

话题 🧵

相似文章

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

Drift Q-Learning

arXiv cs.LG

提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。