Reversal Q-Learning

arXiv cs.LG 论文

摘要

本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。

arXiv:2606.17551v1 公告类型:新 摘要:迭代生成建模技术(如流匹配)为有效的离线强化学习(RL)建模复杂行为提供了强大工具。在这项工作中,我们提出了一种新的离策略强化学习算法,该算法基于先验数据训练流策略。我们的思路始于“扩展”马尔可夫决策过程(MDP)框架,该框架将单个流细化步骤视为MDP中的独立动作。为了在此框架内实现离策略强化学习,我们应用了两种技术:通过“反转”流生成虚拟在策略轨迹,使该框架与先验数据兼容;同时应用偏差-方差降低技术来缓解离策略强化学习中的时域诅咒。我们将得到的算法称为Reversal Q-learning(RQL)。RQL相比之前的基于流的RL方法具有多个优势:它无需随时间反向传播,能更好地利用学习到的价值函数,并直接训练完整、表达性强的流策略。通过在50个具有挑战性的模拟机器人任务上的实验,我们表明,与最先进的基于流的离线RL算法相比,RQL实现了最佳的平均离线RL性能。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:41

# 逆转 Q 学习
来源:https://arxiv.org/html/2606.17551
###### 摘要

迭代式生成建模技术(如流匹配)为有效建模复杂行为以进行高效的离线强化学习提供了强大工具。本文提出一种新的离策略强化学习算法,该算法基于先验数据训练流策略。我们的思路源于“扩展”马尔可夫决策过程框架,该框架将单个流细化步骤视为 MDP 中的独立动作。为了在此框架中实现离策略强化学习,我们应用了两种技术:通过“逆转”流生成虚拟在策略轨迹,使该框架与先验数据兼容;并应用偏差-方差降低技术来缓解离策略强化学习中的时域诅咒。我们将最终算法称为逆转 Q 学习 (RQL)。RQL 相比先前的基于流的强化学习方法具有若干优势:它不会受时间反向传播的影响,能够更好地利用学习到的值函数,并且直接训练完整且富有表达力的流策略。通过在 50 个具有挑战性的模拟机器人任务上的实验,我们表明 RQL 与最先进的基于流的离线强化学习算法相比,实现了最优的平均离线强化学习性能。代码:https://github.com/aoberai/rql 网站:https://aober.ai/rql  机器学习,ICML

参阅图注 图 1:降低有效时域。我们降低有效 TD 时域,以利用扩展 MDP 框架进行*离策略*强化学习。我们避免了需要 F×T 次备份的朴素解决方案。相反,RQL 平均只需要 T 次备份。

## 1 引言

迭代式生成建模的最新进展,如去噪扩散 (Sohl-Dickstein 等,2015;Ho 等,2020) 和流匹配 (Lipman 等,2023;Albergo & Vanden-Eijnden,2023;Liu 等,2023),为有效的离策略强化学习提供了强大工具 (Wang 等,2023;Hansen-Estruch 等,2023;Park 等,2025c)。通过使用富有表达力的生成模型(例如,训练扩散或流策略)对离线数据集中的复杂行为进行建模,它们能够捕捉多样的行为先验,这些先验可以快速适应下游任务。虽然原则上很有前景,但使用离策略强化学习训练扩散或流策略是一个难题。这一挑战源于它们的*迭代*性质。例如,如果朴素地训练扩散策略以最大化学习到的值函数 (Lillicrap 等,2016;Wang 等,2023),梯度会通过整个迭代生成过程进行反向传播,通常会导致训练不稳定和次优性能 (Park 等,2025c)。先前的工作通过使用其他技术(如加权回归 (Zhang 等,2025)、蒸馏 (Park 等,2025c) 和拒绝采样 (Hansen-Estruch 等,2023))回避了这个问题,但这些方法有其自身的局限性 (参见第 2 节)。

在本文中,我们考虑另一种最近在基于扩散的*在策略*强化学习 (Black 等,2023;Fan 等,2023;Ren 等,2025) 中探索的范式。这个想法很简单:不再是简单地将扩散策略视为一个从状态生成动作的黑盒,而是将单个去噪步骤视为马尔可夫决策过程的一部分,从而有效地将时域扩展了 F 倍 (图 1)。这样,我们可以完全避免处理使用强化学习训练迭代策略时遇到的棘手问题,例如时间反向传播。先前的工作表明,这种扩展 MDP 范式与在策略算法(如 REINFORCE (Williams, 1992) 和 PPO (Schulman 等,2017))结合时非常有效。

不幸的是,这种扩展 MDP 框架并不直接适用于*离策略*强化学习,其目标是以样本高效的方式利用先验数据,使用强化学习训练扩散或流策略。主要原因有两个。首先,标准离线数据集仅包含原始环境中的状态-动作对,并不提供与扩展 MDP 对应的扩散或流轨迹。其次,MDP 扩展将时域增加了 F 倍,这使得由于离策略强化学习中的“时域诅咒” (Liu 等,2018;Park 等,2025b) 而难以估计准确的值。

我们在这项工作中的关键见解是,*确定性*迭代式生成模型(例如流匹配)的*可逆性*为这两个挑战提供了有效的解决方案。具体来说,我们首先通过逆转流解决逆问题,重建当前策略会为数据集中的每个状态-动作对生成的流轨迹,从而在扩展 MDP 中生成“虚拟”轨迹。然后,我们对这些虚拟轨迹应用多步回报,以减少值函数学习的有效时域。由于这些虚拟轨迹是完全确定性的且在策略上,我们可以从原本有偏的多步回报中获得无偏且零方差的回报估计 (Sutton & Barto, 2005)。我们将最终的离策略流强化学习算法称为逆转 Q 学习 (RQL),这是本文的主要贡献。

通过在 50 个模拟机器人任务上的多样化实验,我们证明 RQL 相比多个强大的基于离策略流的强化学习基线取得了最佳性能。我们表明 RQL 在具有挑战性的长时域操纵和移动环境中尤其强大。

## 2 相关工作

使用迭代生成模型的强化学习。先前的工作已经开发了多种技术,使用现代迭代生成模型(例如去噪扩散 (Sohl-Dickstein 等,2015;Ho 等,2020) 和流匹配 (Lipman 等,2023;Albergo & Vanden-Eijnden,2023;Liu 等,2023))进行数据驱动的强化学习,例如离线强化学习 (Lange 等,2012;Levine 等,2020) 和离线到在线强化学习。这些工作已将扩散或流匹配用于轨迹建模 (Janner 等,2022;Ajay 等,2023;Zheng 等,2023;Li 等,2023;Chen 等,2024)、世界建模 (Lu 等,2023a;Ding 等,2024b;Jackson 等,2024;Alonso 等,2024) 和策略学习 (Wang 等,2023;Hansen-Estruch 等,2023;Chen 等,2023;Kang 等,2023;Ren 等,2025;Park 等,2025c)。我们的工作属于最后一类。我们旨在开发一种更好的算法,利用先验数据训练用于离策略强化学习的流策略 (Ball 等,2023)。

使用扩散和流策略的强化学习。由于其迭代性质,使用强化学习训练扩散或流策略并非易事。已经提出了多种方法来指导迭代生成过程以最大化回报。这些方法基于不同的原理,例如时间反向传播 (Wang 等,2023;He 等,2023;Ding & Jin,2024;Ada 等,2024;Zhang 等,2024;Espinosa-Dice 等,2026)、回归 (Lu 等,2023b;Kang 等,2023;Hansen-Estruch 等,2023;Chen 等,2023;Ding 等,2024a;Zhang 等,2025)、蒸馏 (Park 等,2025c;Agrawalla 等,2026)、MDP 扩展 (Ren 等,2025;Gao 等,2025) 等 (Yang 等,2023;Mark 等,2024;Fang 等,2025;Wagenmaker 等,2025;Zhang 等,2026)。在本节的其余部分,我们将讨论为什么其中一些范式在实践中可能存在局限,以及我们的方法如何提供更好的替代方案。

(1) 时间反向传播。可以说,使用强化学习训练扩散策略的最直接方法是通过梯度上升直接最大化学习到的值函数,将迭代生成过程视为黑盒。虽然先前的工作表明这有时是有效的 (Wang 等,2023;He 等,2023;Ada 等,2024;Zhang 等,2024),但这种范式通常受到称为时间反向传播 (BPTT) 的问题的影响,尤其是在使用更大的迭代步数时。由于梯度通过整个迭代生成过程的长链传播,这通常会导致训练不稳定并在实践中导致次优性能 (Park 等,2025c)。相反,我们的方法不受 BPTT 问题的影响,因为我们直接将迭代细化步骤视为不同的 MDP 环境步骤。

(2) 回归。为了规避 BPTT,许多先前的工作探索了基于回归的技术,以最大化使用扩散或流策略的回报。这些方法包括加权回归 (Lu 等,2023b;Kang 等,2023;Ding 等,2024a;Zhang 等,2025)、拒绝采样 (Chen 等,2023;Hansen-Estruch 等,2023;He 等,2024;Park 等,2025b) 和过滤 (Frans 等,2025;Intelligence 等,2025)。虽然这些方法不受 BPTT 不稳定性影响,但它们仅使用值函数的零阶信息(即,它们不使用值梯度),这通常会导致次优性能(在基于加权回归或过滤的方法中)或需要大量计算(在基于拒绝采样的方法中)(Park 等,2024)。与这些基于回归的方法不同,我们通过利用值函数的一阶(梯度)信息来更好地使用值函数,我们在实践中表明这会导致更好的性能。

(3) MDP 扩展。扩散策略学习的另一种范式是将迭代细化步骤视为 MDP 步骤,并使用标准的现成强化学习算法求解这个“扩展的”MDP。这种框架的好处在于它不受 BPTT 的影响,并且可以充分利用值梯度。先前的工作表明,这个想法的变体确实在在策略强化学习设置中导致了强大的性能 (Black 等,2023;Fan 等,2023;Ren 等,2025)。然而,这种框架很少应用于离线*离策略*强化学习设置。这主要是因为 (1) 原始数据集不包含完整的扩散轨迹,以及 (2) 它使时域变长 F 倍(其中 F 是迭代细化步骤的数量),这加剧了离策略值学习中的“时域诅咒” (Liu 等,2018;Park 等,2025b)。据我们所知,唯一将 MDP 扩展应用于离策略强化学习的先前工作是 BDPO (Gao 等,2025),它涉及随机扩散策略,并采用双层层次化值函数来处理增加的时域。与 BDPO 不同,我们的方法基于确定性“逆”流,这使我们能够在不使用可能复杂的层次结构的情况下应对时域挑战。经验上,我们也表明 RQL 相比这项先前的工作带来了实质性的性能提升。

## 3 预备知识

问题设置。我们考虑一个马尔可夫决策过程,定义为 \(\mathcal{M}=(\mathcal{S},\mathcal{A},r,\mu,p)\) (Sutton & Barto, 2005)。\(\mathcal{S}\) 是状态空间,\(\mathcal{A}\) 是动作空间,\(r(s,a):\mathcal{S}\times\mathcal{A}\to\mathbb{R}\) 是奖励函数,\(\mu(s)\in\Delta(\mathcal{S})\) 是初始状态分布,\(p(s^{\prime}\mid s,a):\mathcal{S}\times\mathcal{A}\to\Delta(\mathcal{S})\) 是转移动力学核,其中 \(\Delta(\mathcal{X})\) 表示空间 \(\mathcal{X}\) 上的概率分布集合。我们还假设给定一个先验数据集 \(\mathcal{D}=\{\tau^{(n)}\}_{n\in\{1,2,\ldots,N\}}\),其中包含轨迹 \(\tau=(s_0,a_0,r_0,s_1,...,s_T)\),...

相似文章

Drift Q-Learning

arXiv cs.LG

提出了DriftQL,它结合了基于漂移的行为正则化器与评论家驱动的策略改进,用于离线强化学习,在D4RL和OGBench上优于扩散和流方法,同时保持简单性和效率。

QPILOTS: 面向流策略的高效测试时Q引导

arXiv cs.LG

QPILOTS是一种方法,通过使用从噪声中间状态投影的评论家梯度,在推理时引导流策略,在离线到在线强化学习基准上实现了最先进的性能,并在不修改基础策略的情况下改进了预训练的VLA模型。

强化学习中流策略的测试时梯度引导

Hugging Face Daily Papers

QGF 是一种强化学习算法,通过使用价值梯度来指导预训练的流策略,在测试时改进策略,避免了训练时的不稳定性,同时保持了竞争力的性能。