@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…
摘要
一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。
一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出这些数据在我们*当前*策略(而不是收集数据的策略)下的扩散潜在步骤,因此需要对离策略数据反转扩散过程。
查看缓存全文
缓存时间: 2026/06/18 04:03
一种全新的离策略强化学习与扩散结合的方法:如果我们有离策略数据,就需要根据当前的策略(而非收集数据时的策略)来确定这些数据对应的扩散潜步——这就要求我们对离策略数据进行扩散过程的逆转。
Aditya Oberai (@aditya_oberai): 如果我们把流步骤当作强化学习的动作会怎样?
结合我们的“流逆转”技术,这为离线流强化学习提供了一种非常简洁且强大的方案!
话题 🧵
相似文章
@svlevine: 扩散(或流)可生成出色策略,但用强化学习训练它们却出了名的困难:BPTT不稳定,RL…
新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者,使训练变得可行。
@svlevine: 流反转引导允许使用高层动作(例如来自VLM推理)来“引导”基于扩散的VLA。……
流反转引导能够使用高层动作(例如来自VLM推理)来引导基于扩散的视觉-语言-动作模型,并允许在扩散噪声空间中进行强化学习以实现任务探索。
@probablynotaz9: ICML 单作者论文警报:是否曾想用经典策略梯度对扩散 LLM 进行后训练,而无需……
这篇 ICML 单作者论文介绍了摊销式组相对策略优化(AGRPO),旨在为扩散语言模型实现高效的强化学习后训练。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
Drift Q-Learning
提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。