@aditya_oberai: 如果我们把流程步骤视为 RL 动作?结合我们的“流反转”技术,这产生了一个非常简洁且……

X AI KOLs Timeline 论文

摘要

提出将流程步骤视为 RL 动作,并结合“流反转”技术用于流程离线强化学习。

如果我们把流程步骤视为 RL 动作会怎样? 结合我们的“流反转”技术,这为流程离线 RL 提供了一个非常简洁且强大的方案! Thread 🧵 https://t.co/PxE8yzH9gM
查看原文
查看缓存全文

缓存时间: 2026/06/17 20:02

若将流步骤视为RL动作会怎样?

结合我们的“流反转”技术,这为流离线RL提供了一种极其简洁且强大的方案!

系列推文

我们提出反转Q学习(RQL)

在50个运动与操作任务中,RQL与19种其他最先进的基于流的离线RL算法相比,均取得了优异结果。

我们知道像流匹配这样的迭代生成模型,在离线强化学习(RL)中为复杂机器人策略建模非常强大。

然而,训练它们并非易事:BPTT不稳定,而单步蒸馏又会抑制表达能力。

我们提出一种新的算法思路,从流RL的简单视角出发。

流策略通过一系列细化步骤构建动作。要实施RL,我们可以将每个细化步骤视为动作,并应用标准RL算法。

我们可以直接在细化步骤上做RL,但这会将每个动作扩展为多个决策步骤,从而倍增价值学习的时间跨度。

这种扩展对离策略RL尤其不利,因为它会导致“时间跨度诅咒”。

我们认识到,可以通过从标准先验数据中构建“虚拟”流轨迹来防止价值学习时间跨度的扩展,这些轨迹非常适合多步回报。

我们通过“流反转”在扩展框架中生成轨迹,该过程沿流ODE从先验数据中的动作反向进行。

我们证明这些轨迹是确定性的且为在策略的,因此能够实现无偏、零方差的多步回报。

实现非常简单。

我们在完整动作和部分生成的动作上联合学习一个价值函数。

然后,我们可以对每个流步骤使用重参数化梯度(配合一个BC项)。

仅此而已!感谢我的合著者 @seohong_park @svlevine。

网站:http://aober.ai/rql 论文:http://arxiv.org/abs/2606.17551 代码库:http://github.com/aoberai/rql

相似文章

Reversal Q-Learning

arXiv cs.LG

本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。