信任域逆强化学习:利用局部策略更新进行显式对偶上升
摘要
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
arXiv:2605.11020v1 公告类型:新论文
摘要:逆强化学习(IRL)通常被表述为在匹配专家轨迹分布的前提下最大化熵。经典的(对偶上升)IRL 保证了性能的单调提升,但需要在每次迭代中完全求解强化学习问题以计算对偶梯度。而近期更为流行的对抗性方法通过直接优化原始问题并使用判别器提供奖励,避免了这一计算成本,但牺牲了稳定性和对偶改进的单调性。在本工作中,我们通过无需在每次迭代中完全求解强化学习问题,同时实现奖励函数和策略的单调改进,从而弥合了这些方法之间的差距。我们关键的理论洞察是,针对奖励函数更新,信任域最优策略在相同方向的较小更新下可以是全局最优的。这种较小的更新使我们能够在仅依赖当前策略周围局部搜索的同时,显式地优化对偶目标。通过这种方式,我们的方法避免了对手方法的训练不稳定性,提供了性能的单调提升,并以传统 IRL 的意义学习奖励函数——即可以通过全局优化来匹配专家演示的奖励函数。我们提出的算法,信任域逆强化学习(TRIRL),在多个具有挑战性的任务中,在综合四分位均值方面以 2.4 倍的优势超过了最先进的模仿学习方法,同时恢复了能够泛化到系统动力学变化的奖励函数。
查看缓存全文
缓存时间: 2026/05/13 06:29
# 信赖域逆强化学习:利用局部策略更新进行显式对偶上升
来源: https://arxiv.org/html/2605.11020 Davide Tateo, Christopher E. Mower, Haitham Bou Ammar, Jan Peters, Oleg Arenz
###### 摘要
逆强化学习 (IRL) 通常被表述为在匹配专家轨迹分布的约束下最大化熵。经典的对偶上升 (dual-ascent) IRL 保证了性能的单调提升,但需要在每次迭代中完全求解一个强化学习问题来计算对偶梯度。最近的对抗性方法通过直接优化原始问题并使用判别器提供奖励,避免了这一成本,但牺牲了稳定性和对偶提升的单调性。在本文中,我们通过无需在每次迭代中完全求解强化学习问题,便实现了奖励函数和策略的单调改进,从而弥合了这些方法之间的差距。我们关键的理论见解是:对于奖励函数更新,一个信赖域最优策略对于同一方向上的较小更新可以是全局最优的。这种较小的更新允许我们仅依赖当前策略周围的局部搜索来显式优化对偶目标。通过这种方式,我们的方法避免了对手方法的训练不稳定性,提供了性能的单调改进,并以 IRL 的传统意义学习奖励函数——即可以通过全局优化来匹配专家演示。我们提出的算法 Trust Region Inverse Reinforcement Learning (TRIRL) 在多个具有挑战性的任务中,以 2.4 倍的聚合四分位均值优势,优于最先进的模仿学习方法,同时恢复出能够泛化到系统动态变化的奖励函数。
‡\\ddagger 逆强化学习,从演示中学习,模仿学习,奖励学习,强化学习,机器人学
## 1 引言
随着自主代理在日常环境中的普及,赋予这些系统类人行为成为一个重要的挑战。这一挑战可以通过逆强化学习 (IRL) (Ng and Russell, 2000; Russell, 1998) 来解决,这是一个机器学习框架,代理在其中以奖励函数的形式推断人类演示背后的潜在意图。通过利用强化学习优化所学到的奖励,IRL 方法可以恢复出健壮的模仿策略,并额外具备将行为转移到新环境中的优势。然而,从演示中推断出信息丰富的奖励函数具有挑战性,因此,许多方法专注于模仿学习 (Osa et al., 2018),即直接学习一个策略以在给定环境中匹配演示。
**图 1**: TRIRL(我们)与 MaxCausalEnt-IRL 风格更新的比较。要优化的拉格朗日对偶由曲线 $\mathcal{L}(\pi_r, r)$ 表示。MCE-IRL 在更新奖励函数后执行完整的 RL 优化。相比之下,TRIRL 仅在前一个 MCE 策略的信赖域内优化策略,并通过对更新后的奖励函数进行校正来考虑这一点。信赖域策略更新计算成本更低,且奖励校正确保新的策略-奖励对更接近 $\mathcal{L}(\pi, r)$ 的鞍点。因此,我们的算法具有与 MCE-IRL 相同的单调改进保证,同时能够在复杂的高维设置中收敛。
IL 仅解决了 IRL 中的策略侧问题,并未提取底层的奖励函数。它通常使用对抗性优化来解决,其中 GAIL (Ho and Ermon, 2016) 及其多种变体 (Peng et al., 2018; Kostrikov et al., 2019; Ghasemipour et al., 2020; Peng et al., 2021) 是标准方法。这些方法将 IL 表述为二人极小极大博弈,其中一个玩家(称为判别器)根据 RL 策略模仿专家的程度分配局部奖励,而策略则更新自身以最大化由判别器给出的这一局部信号。然而,对抗性 IL 本质上是不稳定且嘈杂的,因为判别器奖励仅提供局部校正信号。实际上,这些方法难以调整,且其性能高度依赖于任务。这提出了一个关键问题:我们如何以可扩展、原则性的方式学习信息丰富的奖励函数和有效策略,同时避免对抗性 IL 的不稳定性?
我们通过追溯现代对抗性 IL 在最大因果熵逆强化学习 (MCE-IRL) 框架 (Ziebart et al., 2008, 2010) 中的理论根源来回答这个问题。我们的见解激发了一种基于显式对偶上升的可扩展模仿学习和逆强化学习方法。MCE-IRL 将模仿解释为在底层马尔可夫决策过程中具有相似的占据率[^1]。如果一个模仿策略在所有诱导与专家相同占据率的候选策略中具有最大的因果熵,则该策略被认为是 MCE 最优的。这个问题通常通过优化其拉格朗日函数 $\mathcal{L}(\pi, r)$ 来解决,其中 $\mathcal{G}(r) = \mathcal{L}(\pi_r, r)$ 是其对偶,且 $\pi_r$ 是 $r$ 的最优策略。原始的 MCE-IRL 方法 (Ziebart et al., 2010) 是一种迭代鞍点算法,交替进行策略优化和奖励更新。在每次迭代中,奖励函数(对偶变量)的梯度由专家和智能体的特征计数差值给出,策略(原始变量)通过求解最大熵 RL 问题直到收敛来学习。现代对抗性 IL 算法将此对偶上升过程重构为二人极小极大博弈。然而,在此过程中,MCE-IRL 中的全局中间奖励函数被替换为基于先前策略 rollout 的局部奖励(由判别器提供)。因此,策略更新不是 MCE 最优的;相反,策略仅采取几次梯度步骤以最大化熵增强奖励。虽然这种对抗性过程与 MCE-IRL 具有相同的鞍点 (Ho and Ermon, 2016, Proposition 3.2),但它依赖于逐步的局部优化来获得解,并且不优化对应于对偶的奖励函数。最终,局部判别器奖励和次优策略使其在实践中不稳定,难以可靠且一致地进行训练。
本文提出了一种新的非对抗性 IRL 算法,解决了局部奖励和次优中间策略的问题。我们提出了 Trust Region Inverse Reinforcement Learning (TRIRL),这是一种在原始 MCE-IRL 问题上执行对偶上升的算法,从而实现性能的单调改进和稳定的学习。至关重要的是,我们的方法避免了在每个时间步运行昂贵的完整 RL 解决方案(如 MCE-IRL)或依赖近似局部优化(如 GAIL)的需求。我们的工作建立在 Arenz et al. (2016) 的先前工作之上,该工作表明,与其沿着 $\mathcal{G}(r)$ 的参数梯度下降,不如在函数空间中进行奖励更新要高效得多。给定初始最大熵对 $(\pi_r, r)$ 及其在 $r$ 上的函数空间奖励更新,我们的主要结果是证明在 $\pi_r$ 周围的反向 KL 信赖域内进行策略优化足以找到一个策略 $\pi^{\text{mce}}$,该策略对于沿同一函数空间更新方向采取较小更新步长计算出的新校正奖励函数是最大熵最优的。因此,我们可以利用 IRL 的一种新机制:与其为更新后的奖励寻找最大熵最优策略,不如为该奖励寻找信赖域最优策略,并校正奖励函数以考虑我们的策略仅进行了局部优化的事实。这产生了一个有效的最大熵对 $(\pi^{\text{mce}}_{r_{\text{corrected}}}, r_{\text{corrected}})$。这意味着我们在每次迭代 (i) 中学到的策略是校正奖励函数的全局优化器,并且 (ii) 在反向 KL 散度方面更接近专家。通过重复此过程,我们恢复了一种具有与 MCE-IRL 相同单调性能改进的 IRL 算法。我们在图 1 中说明了我们的方法。我们的算法在各种具有挑战性的连续控制任务上优于先前的工作,如 GAIL, AIRL, AMP, LSIQ, NEAR, 和 SFM (Ho and Ermon, 2016; Fu et al., 2018; Peng et al., 2021; Al-Hafez et al., 2023a; Diwan et al., 2025; Jain et al., 2025)。
#### 相关工作
行为克隆 (BC) 可以说是模仿学习最直接的方法。它将 IL 表述为一个监督学习问题,以找到与演示动作紧密匹配的策略。虽然像 Pomerleau (1991); Reddy et al. (2019) 这样的 BC 方法之前已显示出成功的模仿能力,但监督拟合存在理论局限性——即协变量偏移、泛化能力差以及对大数据集的需求——这降低了它们在现实环境中的性能。另一方面,像 MCE-IRL (Ziebart et al., 2008, 2010) 这样的逆 RL 方法使用强化学习来学习模仿策略,因此比 BC 更健壮。这种表述还可用于推导直接的 IL 方法,例如 GAIL (Ho and Ermon, 2016),它将 Ziebart et al. (2010) 的对偶上升公式重构为对抗性极小极大优化过程,以最小化智能体和专家占据率之间的 Jensen-Shannon 散度。几项其他工作在此基础上构建了这种对抗性表述。例如,Fu et al. (2018) 将 GAIL 过程修改为专注于奖励恢复的基于状态算法。Ghasemipour et al. (2020) 将其重构为一般的 $f$-散度,而 Peng et al. (2018) 利用 $\chi^2$-散度 GAN (Mao et al., 2017) 的经验优势用于对抗性 IL。Kostrikov et al. (2020) 提出了 ValueDice,一种利用逆贝尔曼算子将 GAIL 重构为基于值函数的离策略分布匹配方法的方法。几项其他工作 (Kostrikov et al., 2019; Orsini et al., 2021; Diwan et al., 2025) 揭示了重要因素,如由所学奖励函数引起的生存/终止偏差、对抗性 IL 的经验训练动态及其不稳定性的理论原因。虽然此处列出的对抗性 IL 先前工作在贡献方面多种多样,但它们都容易受到源于对抗性学习产生的局部奖励和次优策略的不稳定性的影响。
Ziebart et al. (2010) 的工作也可以表述为非对抗性技术。Arenz and Neumann (2020) 通过为反向 KL 分布匹配制定下界奖励函数并使用软演员批评 (SAC) (Haarnoja et al., 2018) 来学习 Q-函数和策略,扩展了 ValueDICE。Gar et al. (2021) 提出了 IQ-Learn,一种类似的方法,泛化到智能体和专家占据率之间的各种散度。与分别优化对偶和原始变量不同,IQ-learn 通过分布匹配学习 Q-函数,并利用这样一个事实:在离散设置中,MCE 最优策略依赖于 Q-函数的闭式形式。然而,IQ-learn 需要动态模型来从所学 Q-函数中恢复奖励函数。最近,Al-Hafez et al. (2023a) 介绍了 LSIQ,这是 IQ-Learn 的扩展,利用 $\chi^2$-散度最小化的优势并使用混合分布以提高性能。这些非对抗性 IRL 方法中的几种仍然使用离策略 RL (SAC) 进行策略学习。这使得将它们应用于更大、高度并行的环境变得具有挑战性,因为在这些环境中 SAC 面临扩展挑战。最后,Boularias et al. (2011) 之前探讨了在 IRL 中将策略更新约束在以基线策略为中心的反熵基信赖域内的想法。然而,他们的方法并未解决局部策略优化下的奖励更新问题,并继承了 Ziebart et al. (2010) 的扩展挑战,需要轨迹级采样和手动指定的特征。
[^1]: 最初,Ziebart et al. (2010) 将 MCE-IRL 正式化为一个状态访问匹配问题,但这等同于占据率匹配 (Ho and Ermon, 2016; Arenz et al., 2016)。
## 2 背景
#### 预备知识
与之前的工作类似,我们将环境建模为马尔可夫决策过程 (MDP),由元组 $(\mathcal{S}, \mathcal{A}, \mu_0, \mathcal{P}, r, \gamma)$ 定义,其中 $\mathcal{S}$ 是状态空间,$\mathcal{A}$ 是动作空间,$\mu_0$ 是初始状态分布,$\mathcal{P}(s'|s,a)$ 表示转换动态,$r(s,a) \in \mathbb{R}$ 是(未知的)奖励函数,$\gamma$ 是折扣因子。$\Pi$ 是所有将 $\mathcal{S}$ 中的状态映射到 $\mathcal{A}$ 中动作的平稳随机策略的集合。我们定义占据测度 $\rho_\pi(s,a) = \pi(a|s) \sum_{t=0}^\infty \gamma^t \mu_t^\pi(s)$,其中 $\mu_{t}^\pi(s') = \sum_{s} \mu_t^\pi(s) \sum_{a} \pi(a|s) P(s'|s,a)$ 是 $t > 0$ 时的状态分布,且 $\mu_0^\pi(s) = \mu_0(s)$。相似文章
信任区域Q伴随匹配
信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。
面向在线策略蒸馏的信任区域行为融合
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
Trust Region On-Policy Distillation
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。
通过双层优化实现交互场景的交互式逆向强化学习
本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。