@aditya_oberai: 如果我们把流程步骤视为 RL 动作?结合我们的“流反转”技术,这产生了一个非常简洁且……
摘要
提出将流程步骤视为 RL 动作,并结合“流反转”技术用于流程离线强化学习。
查看缓存全文
缓存时间: 2026/06/17 20:02
若将流步骤视为RL动作会怎样?
结合我们的“流反转”技术,这为流离线RL提供了一种极其简洁且强大的方案!
系列推文
我们提出反转Q学习(RQL)。
在50个运动与操作任务中,RQL与19种其他最先进的基于流的离线RL算法相比,均取得了优异结果。
我们知道像流匹配这样的迭代生成模型,在离线强化学习(RL)中为复杂机器人策略建模非常强大。
然而,训练它们并非易事:BPTT不稳定,而单步蒸馏又会抑制表达能力。
我们提出一种新的算法思路,从流RL的简单视角出发。
流策略通过一系列细化步骤构建动作。要实施RL,我们可以将每个细化步骤视为动作,并应用标准RL算法。
我们可以直接在细化步骤上做RL,但这会将每个动作扩展为多个决策步骤,从而倍增价值学习的时间跨度。
这种扩展对离策略RL尤其不利,因为它会导致“时间跨度诅咒”。
我们认识到,可以通过从标准先验数据中构建“虚拟”流轨迹来防止价值学习时间跨度的扩展,这些轨迹非常适合多步回报。
我们通过“流反转”在扩展框架中生成轨迹,该过程沿流ODE从先验数据中的动作反向进行。
我们证明这些轨迹是确定性的且为在策略的,因此能够实现无偏、零方差的多步回报。
实现非常简单。
我们在完整动作和部分生成的动作上联合学习一个价值函数。
然后,我们可以对每个流步骤使用重参数化梯度(配合一个BC项)。
仅此而已!感谢我的合著者 @seohong_park @svlevine。
网站:http://aober.ai/rql 论文:http://arxiv.org/abs/2606.17551 代码库:http://github.com/aoberai/rql
相似文章
@seohong_park: RQL 是一种新的、简洁的(离线)流强化学习算法!其主要思想是将流步骤视为MDP步骤,并使用“反向”流来生成后见之明的轨迹…
RQL是一种用于离线流强化学习的新算法,它将流步骤视为MDP步骤,并使用反向流来生成后见之明轨迹。
@svlevine: 流反转引导允许使用高层动作(例如来自VLM推理)来“引导”基于扩散的VLA。……
流反转引导能够使用高层动作(例如来自VLM推理)来引导基于扩散的视觉-语言-动作模型,并允许在扩散噪声空间中进行强化学习以实现任务探索。
@svlevine: 扩散(或流)可生成出色策略,但用强化学习训练它们却出了名的困难:BPTT不稳定,RL…
新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者,使训练变得可行。
Reversal Q-Learning
本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。
@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…
一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。