通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG 论文

摘要

本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。

arXiv:2605.08131v1 公告类型:新论文 摘要:逆向强化学习(IRL)学习奖励函数和相应的策略,以最好地拟合专家的演示数据。然而,在当前的 IRL 设定中,学习者与专家隔离,只能被动观察专家的演示。这限制了 IRL 在交互环境下的适用性,在这些环境中,学习者需要主动与专家互动,并从互动中推断专家的奖励函数。为了弥合这一差距,本文研究了交互式逆向强化学习(IIRL),其中学习者旨在通过与专家的互动来学习专家的奖励函数以及与专家互动的策略。我们将 IIRL 公式化为一个随机双层优化问题,其中下层学习解释专家行为的奖励函数,上层学习与专家互动的策略。我们开发了一种双层算法,即双层交互场景逆向强化学习(BISIRL),该算法在内层解决下层问题,在外层解决上层问题。我们正式保证 BISIRL 的收敛性,并通过广泛的实验验证了我们的算法。
查看原文
查看缓存全文

缓存时间: 2026/05/12 06:48

# 通过双层优化进行交互场景的交互式逆强化学习

来源: https://arxiv.org/html/2605.08131
Yue Mao1Shicheng Liu2Siyuan Xu2Minghui Zhu2 1宾夕法尼亚州立大学机械工程系 2宾夕法尼亚州立大学电气工程系 \{ypm5140, sfl5539, spx5032, muz16\}@psu\.edu

###### 摘要

逆强化学习(IRL)旨在学习一个奖励函数及相应的策略,使其最贴合专家示范数据。然而,在当前的 IRL 设定中,学习者与专家相互隔离,只能被动观察专家的示范。这限制了 IRL 在交互场景中的应用,在这些场景中,学习者主动与专家互动,并需从交互中推断出专家的奖励函数。为了弥合这一差距,本文研究了交互式 IRL(IIRL),其中学习者旨在通过与专家的互动,学习专家的奖励函数以及用于与专家互动的策略。我们将 IIRL 表述为一个随机双层优化问题,其中下层学习一个奖励函数以解释专家的行为,上层学习一个策略以与专家互动。我们开发了一种双重循环算法,称为双层交互场景逆强化学习(BISIRL),在内层解决下层问题,在外层解决上层问题。我们从理论上保证 BISIRL 以 $O(1/\sqrt{K})$ 的速率收敛,并通过大量实验验证了该算法。

## 1 引言

逆强化学习(IRL)是一个框架,其中学习者试图恢复一个奖励函数及相应的策略,使其与专家示范的轨迹一致。IRL 已成功应用于广泛的领域,包括机器人学\[49, 24\]、网络安全\[46, 7\] 和生物学\[12, 2\]。

在这些经典的 IRL 设定中,假设学习者是专家示范的被动观察者,无法影响专家的行为。然而,许多新兴的应用场景激励了一种更具交互性的范式,即学习者主动与专家互动,并在互动过程中学习专家的奖励函数。例如,考虑一个人机协作场景\[3\],其中机器人通过打开通往不同路径的门来协助人类在迷宫中导航。人类无法独立开门,必须依赖机器人选择正确的门以到达目的地。在此设定中,机器人和人类处于同一环境,机器人的行动直接影响人类的行为。为了有效协助,机器人需要从观察到的交互中推断人类的目标,并相应地调整其行动。类似的问题也出现在网络安全应用中\[46\],其中防御者(学习者)学习攻击者(专家)的攻击目标,并在抵御攻击的同时动态调整其防御策略。在这两个例子中,学习者的行为会影响专家的行动,且学习必须通过在线交互进行。然而,现有的 IRL 框架并未设计用于处理此类交互设定,因为它们将学习者限制为被动观察,并禁止在交互过程中进行学习。

为了弥合这一差距,本文研究了交互式 IRL(IIRL),其中学习者旨在学习一个奖励函数以解释专家的行为,并学习一个策略以在与专家交互期间有效地与之互动。最近的研究探讨了完全合作的 IIRL\[25, 3, 14, 11\],其中学习者和专家共享相同的奖励函数,以及完全竞争的 IIRL\[46, 37\],其中学习者的奖励是专家奖励的负值。然而,许多现实世界的交互介于这两种极端情况之间。在此类设定中,学习者和专家具有不同且潜在不一致的目标,既非完全合作也非完全竞争。例如,在交通交互场景\[6\]中,车辆(学习者)和行人(专家)驶向不同目的地的交叉口。车辆必须礼让行人以确保安全,同时还要追求自身的导航目标。这种交互涉及部分对齐但不完全相同的奖励函数。受此类场景的启发,我们研究了学习者和专家的奖励函数为任意情况的一般情形。我们将贡献总结如下。

贡献声明。我们的贡献主要有三个方面。

首先,我们研究了一个 IIRL 问题,其中学习者学习一个奖励函数以解释专家的行为,并学习一个策略以与专家互动。我们将此设定表述为一个随机双层优化问题,其中下层学习专家的奖励函数,上层优化学习者的交互策略。

其次,我们提出了一种双重循环算法,称为双层交互场景逆强化学习(BISIRL),以解决双层优化问题。一个关键挑战在于计算上层目标的超梯度,这涉及一个难以处理的 Hessian 矩阵。为解决这一挑战,我们提出了一种基于同时扰动随机逼近(SPSA)\[33\]的超梯度近似方法。我们从理论上证明,这种近似将超梯度计算的复杂度从 $O(H^2)$ 降低到 $O(H)$,其中 $H$ 是轨迹长度。

第三,我们从理论上保证 BISIRL 以 $O(1/\sqrt{K})$ 的速率收敛,其中 $K$ 是迭代次数。我们还通过四个实验进一步验证了所提方法,表明 BISIRL 达到了与需要额外信息的基线相当的性能。

## 2 相关工作

**IRL 和多智能体 IRL (MA-IRL)。** 如\[23\]所述,IRL 面临的挑战在于示范轨迹可以由多个奖励函数解释。已提出几种方法来解决这一挑战。目前最先进的 IRL 方法包括最大边际 IRL\[23, 1\]、最大熵 IRL\[49, 48\]、最大似然 IRL\[42, 43\] 和贝叶斯 IRL\[27, 4\]。然而,这些方法都专注于单专家场景。MA-IRL 将 IRL 扩展到多专家场景,其中一个或多个学习者从多个专家的示范中恢复其奖励函数\[17, 41, 18\]。这些 MA-IRL 方法仍然假设学习者与专家相互隔离(即,它们之间没有直接交互),因此无法解决交互式 IRL 场景。

**完全合作和完全竞争的 IIRL。** 先前的 IIRL 工作主要探讨了两种情况:完全合作和完全竞争场景。在完全合作设定中,学习者和专家共享相同的奖励函数,其交互被表述为合作博弈\[25, 3, 14, 11\]。在这种情况下,学习者的目标是恢复专家的奖励函数。相比之下,完全竞争设定假设学习者的奖励是专家奖励的负值,导致零和博弈\[46, 37\]。在此,学习者旨在学习一个直接反对专家奖励的目标。这两种方法都对专家和学习者奖励函数之间的关系做出了强烈的假设,具体假设它们要么相同,要么完全相反。在本文中,学习者和专家奖励函数之间的关系是任意的。

**双层优化。** 双层优化已应用于许多机器学习问题,包括元学习\[16, 38\]、超参数优化\[26, 39\] 和 IRL\[18, 21\]。解决此类问题的经典方法是下降法\[15, 39\]。该方法通常需要计算下层目标函数的二阶 Hessian 矩阵,这一操作在我们的设定中计算成本高昂。避免显式计算 Hessian 的一种常见策略是使用有限差分进行近似\[34\]。在本文中,我们采用 SPSA 方法进一步降低了计算负担,该方法同时扰动决策变量的所有维度,因此每次迭代只需要两次目标函数评估。

## 3 模型与问题陈述

在本节中,我们介绍 IIRL 问题。

**马尔可夫博弈。** 我们将学习者与专家之间的交互建模为一个有限视界马尔可夫博弈(MG)$(S, A, P, H, r_l, r_e, \gamma)$。MG 的元素定义如下:

- • $S \triangleq S_l \times S_e$ 是状态空间,其中 $S_l$ 和 $S_e$ 分别是学习者和专家的状态空间。我们记 $s=(s_l, s_e) \in S$,其中 $s_l \in S_l$ 且 $s_e \in S_e$。
- • $A \triangleq A_l \times A_e$ 是联合动作空间,其中 $A_l$ 和 $A_e$ 分别是学习者和专家的动作空间。我们记 $a=(a_l, a_e) \in A$,其中 $a_l \in A_l$ 且 $a_e \in A_e$。
- • $P(s'|s, a)$ 是通过采取联合动作 $a$ 从状态 $s$ 转移到 $s'$ 的转移概率密度。
- • $H$ 是有限时间视界。
- • $r_l$ 是学习者的奖励函数,将状态-动作对 $(s, a)$ 映射为有界奖励。
- • $r_e$ 是专家的奖励函数,将状态-动作对 $(s, a)$ 映射为有界奖励。
- • $\gamma \in (0, 1]$ 是折扣因子。

我们记 $\pi_l(a_l|s)$ 为学习者的策略,$\pi_e(a_e|s)$ 为专家的策略。联合策略定义为 $\pi(a|s) \triangleq \pi_l(a_l|s) \times \pi_e(a_e|s)$,表示在状态 $s$ 下学习者采取动作 $a_l$ 且专家采取 $a_e$ 的概率。当执行联合策略 $\pi$ 时,MG 生成一条轨迹 $\zeta = s^0, a^0, s^1, a^1, \cdots, s^{H-1}, a^{H-1}$。

学习者旨在最大化累积奖励 $E^{\pi_l, \pi_e}[\sum_{h=0}^{H-1} \gamma^h r_l(s^h, a^h)]$ 以获得其最优策略 $\pi_l^*$。类似地,专家旨在最大化 $E^{\pi_l, \pi_e}[\sum_{h=0}^{H-1} \gamma^h r_e(s^h, a^h)]$ 以获得其最优策略 $\pi_e^*$。我们将交互策略定义为 $\pi^* \triangleq \pi_l^* \times \pi_e^*$。

**学习者的知识与目标。** 学习者无法获取专家的奖励函数 $r_e$,但可以获取任何状态-动作对 $(s, a)$ 下自身的奖励 $r_l(s, a)$。它与专家互动并可以观察相应的轨迹。基于这些轨迹,学习者旨在恢复专家的奖励函数 $r_e$ 并计算交互策略 $\pi^*$。注意,学习者不仅希望学习交互策略中的自身部分 $\pi_l^*$,还希望模仿交互策略中的专家部分 $\pi_e^*$(因为模仿专家是 IRL 的标准目标)。

## 4 问题表述

在本节中,我们将第 3 节中的学习问题表述为一个双层优化问题,其中下层优化问题学习专家奖励函数 $r_e$,上层优化问题学习交互策略 $\pi^*$。

为此,学习者使用参数化奖励模型 $r_{\theta_e}$ 和 $r_{\theta_l}$ 来估计专家的奖励函数 $r_e$ 和学习者的奖励函数 $r_l$。奖励参数满足 $\theta_e, \theta_l \in \Theta \triangleq \{\theta | \|\theta\|_2 \le 1\}$。给定奖励函数 $(r_{\theta_l}, r_{\theta_e})$,令 $\pi_{\theta_l, \theta_e}$ 表示由相应 MG 诱导的策略。该策略 $\pi_{\theta_l, \theta_e}$ 用于估计 $\pi^*$。

**图 1:整体学习流程图。** $r_l$ 的学习过程包含在上部模块中,$r_e$ 的学习过程包含在下部模块中。

**关于学习者奖励函数 $r_{\theta_l}$ 学习的备注。** 乍一看,学习 $r_{\theta_l}$ 似乎是不必要的,因为学习者可以直接观察其奖励值 $r_l(s, a)$,原则上可以通过标准强化学习(RL)学习其策略。然而,我们的目标是学习交互策略 $\pi^*$,它被定义为由具有奖励函数 $(r_l, r_e)$ 的 MG 诱导的联合策略。为了保持这种结构,我们使用由参数 $(\theta_l, \theta_e)$ 定义的 MG 诱导的 $\pi_{\theta_l, \theta_e}$ 来估计 $\pi^*$。如果学习者在不学习 $r_{\theta_l}$ 的情况下直接学习其策略 $\pi_l$,则无法保证由 $\pi_l$ 和专家策略组成的联合策略对应于任何 MG。因此,学习 $r_{\theta_l}$ 确保了学习到的策略与底层交互策略 $\pi^*$ 之间的结构一致性。

在以下上下文中,我们首先详细阐述下层优化...

相似文章

量化逆强化学习中潜在观测缺失问题

arXiv cs.LG

本文识别了逆强化学习(IRL)中观测缺失的问题,该问题可能导致专家行为看似次优,并提出了一种实用算法,用于量化使专家行为显得最优所需的最小扰动,并在合成任务、癌症治疗模拟和ICU数据上进行了验证。

AIPO:通过与主动交互学习推理

arXiv cs.CL

本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。

信任域逆强化学习:利用局部策略更新进行显式对偶上升

arXiv cs.LG

本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。

ICRL:通过强化学习内化自我批判

arXiv cs.AI

本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。

利用逆强化学习进行多目标约束推断

arXiv cs.AI

本文介绍了 MOCI,这是一种新颖的框架,能够从强化学习中的异构专家演示中推断共享约束和个体偏好,在预测性能和计算效率方面均优于现有基线。