量化逆强化学习中潜在观测缺失问题

arXiv cs.LG 论文

摘要

本文识别了逆强化学习(IRL)中观测缺失的问题,该问题可能导致专家行为看似次优,并提出了一种实用算法,用于量化使专家行为显得最优所需的最小扰动,并在合成任务、癌症治疗模拟和ICU数据上进行了验证。

arXiv:2605.12831v1 公告类型:新论文 摘要:逆强化学习(IRL)通过演示推断奖励函数,是建模和理解决策行为的重要工具。研究者已开发出多种IRL变体以捕捉人类决策的复杂性,例如主观信念、非完美规划和动态目标。然而,真实世界行为数据集中一个常被忽视的问题是:记录数据可能缺失了原始决策者当时可用的观测信息。在医疗保健等受应用启发的场景中,这会使专家行为看似次优,即使这些行为在当时可用的信息下接近最优。因此,标准IRL学习到的奖励可能具有误导性。本文识别了为使专家行为看似最优,需要对记录观测进行的最小扰动。我们针对该问题开发了一种实用算法,并通过在合成导航任务、癌症治疗模拟器和ICU治疗数据上的大量实验,展示了其在量化行为数据集中观测缺失可能程度方面的效用。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:19

# 量化逆强化学习中潜在观测缺失问题 来源:https://arxiv.org/html/2605.12831 Leo Benac 工程与应用科学学院 哈佛大学 lbenac@g\.harvard\.edu & Abhishek Sharma 工程与应用科学学院 哈佛大学 abhisheksharma@g\.harvard\.edu Alihan Hüyük 工程与应用科学学院 哈佛大学 ahuyuk@fas\.harvard\.edu & Finale Doshi\-Velez 工程与应用科学学院 哈佛大学 finale@seas\.harvard\.edu ###### 摘要 逆强化学习(IRL)通过从示范中推断奖励函数,是建模和理解决策行为的宝贵工具。人们已开发出多种IRL变体来捕捉人类决策的复杂性,例如主观信念、不完美规划和动态目标。然而,现实世界行为数据集中的一个常被忽视的问题是:记录的数据可能缺失了原始决策者当时可用的部分观测。在医疗保健等应用场景中,这可能导致专家行动看起来是次优的,而实际上基于当时可用信息它们接近最优。因此,标准IRL学到的奖励可能产生误导。本文识别出为使专家行动看似最优所需的最小平移扰动(perturbations)。我们为此问题开发了一种实用算法,并通过大量实验(包括合成导航任务、癌症治疗模拟器和ICU治疗数据)展示了其在量化行为数据集中潜在缺失程度方面的实用性。 ## 1 引言 逆强化学习(IRL)在医疗保健中的一个常见用途是分析回顾性治疗数据:给定患者生命体征(状态)和临床医生治疗(动作)的轨迹,我们能否推断出指导这些决策的隐含目标?更一般地,IRL旨在根据观察到的过去动作,确定决策者可能正在优化的奖励函数(Ng 等,2000 (https://arxiv.org/html/2605.12831#bib.bib1))。尽管IRL通常作为模仿学习(模仿某个示范者的决策策略)的中间步骤(例如 Brown 等,2020 (https://arxiv.org/html/2605.12831#bib.bib16);Ruan 等,2023 (https://arxiv.org/html/2605.12831#bib.bib28))或学徒学习(在某种真实奖励概念上匹配示范者的表现)(例如 Abbeel 和 Ng,2004 (https://arxiv.org/html/2605.12831#bib.bib17))来执行,但它也一直是建模和理解人类决策行为的宝贵工具——提供了一种有效推断专家决策者可能目标并将其简洁描述为奖励函数的方法。与这种描述性目的相一致,IRL文献侧重于解释人类决策中各种通常不在强化学习中遇到的复杂性——当专家可能对环境持有与客观真实不同的主观信念时(Reddy 等,2018 (https://arxiv.org/html/2605.12831#bib.bib18);Hüyük 等,2021 (https://arxiv.org/html/2605.12831#bib.bib19)),当他们的未来行动规划能力不完美时(Jarrett 等,2021 (https://arxiv.org/html/2605.12831#bib.bib20);Poiani 等,2024 (https://arxiv.org/html/2605.12831#bib.bib21)),或者当他们的目标可能随时间变化时(Likmeta 等,2021 (https://arxiv.org/html/2605.12831#bib.bib43);Hüyük 等,2022 (https://arxiv.org/html/2605.12831#bib.bib39)),基于奖励的专家模型。此外,最近的描述性模型利用这种专家接近最优的假设直接推断环境的未知转移动力学,而不是奖励函数(Benac 等,2024 (https://arxiv.org/html/2605.12831#bib.bib2))。然而,在IRL中分析观察行为时一个常被忽视的问题是可能存在的观测缺失——即原始决策者观察到的某些信息可能没有被记录供我们观察。¹¹¹这不应与部分观测混淆,部分观测指原始决策者和我们作为研究者都没有观察到环境状态的部分信息。 参见图注 图1:假设状态由形状和颜色组成,动作仅由颜色决定。两个回合的行为在t=4处颜色变化后开始出现差异。如果记录数据省略了颜色,传统IRL无法准确预测该时间点之后的动作。我们的方法提供了另一种视角:t=4处的一些未观测变化是使动作完全可预测所必需的。 观测缺失可能产生重大影响,尤其是从建模角度来看。例如,考虑一个医疗场景:根据某种生物标志物(比如患者血压是低还是高;假设低血压占25%),治疗A或治疗B对患者最有益。相应地,医生总是对低血压患者分配治疗A,对高血压患者分配治疗B。现在假设在治疗决策数据集中未记录血压,尽管医生在决策时可获得该信息。如果我们在这个数据集上使用传统IRL,我们可能会得出结论:治疗B具有更高的奖励,但25%的医生行为是次优的。然而,根据我们的数据,另一种同样合理的解释是:医生的行为接近最优,而使治疗A更优的因素只是没有出现在记录观测中。根据我们对情况的前信念,我们可能偏好一种解释而非另一种:前者如果我们信任数据收集过程,后者如果我们信任医生的专业知识(这是本文中的假设)。这种回顾性分析代表了医疗保健中IRL的现有用途,包括脓毒症管理、ICU低血压管理以及ICU通气和镇静决策方面的工作(Lee 等,2019 (https://arxiv.org/html/2605.12831#bib.bib11);Srinivasan 和 Doshi\-Velez,2020 (https://arxiv.org/html/2605.12831#bib.bib13);Yu 等,2019 (https://arxiv.org/html/2605.12831#bib.bib12))。我们在图1 (https://arxiv.org/html/2605.12831#S1.F1) 中提供了一个玩具示例来传达我们设置的直觉。 受IRL决策建模中这一空白启发,我们提出以下问题:需要对观测进行怎样的最小扰动,才能使相应的动作看起来是最优的?当然,要使这个问题有意义,需要仔细定义什么构成“小”扰动,这是我们要解决的关键技术问题之一。虽然回答这个问题并不能让我们恢复缺失信息本身,但它可以帮助我们衡量可能缺失了多少信息——更准确地说,是假设决策者是表现最优的专家时,所需缺失的最小程度。确定这种潜在缺失是否显著,可以为下游关于如何使用数据集的决策提供信息。例如,如果我们打算使用行为数据集进行策略评估或常规强化学习,我们可能更倾向于设计用于缓解观测缺失的算法(例如 Kallus 和 Zhou,2020 (https://arxiv.org/html/2605.12831#bib.bib23);Wang 等,2021 (https://arxiv.org/html/2605.12831#bib.bib24))。 贡献。我们的贡献有三个方面。**概念上**,我们引入了以最小扰动来量化缺失的思想,这些扰动需要使专家的动作与最优策略的动作对齐。我们在第3节 (https://arxiv.org/html/2605.12831#S3) 中将其形式化为一个新的优化问题。**技术上**,我们开发了一种能有效解决该优化问题的算法(第4节 (https://arxiv.org/html/2605.12831#S4))。**实证上**,我们证明我们能够恢复与缺失程度成比例的扰动,这种方式对不相关特征的缺失具有鲁棒性,并且学到的扰动通过根据潜在隐藏决策上下文分离轨迹,捕捉到了行为中有意义的结构。 ## 2 相关工作 模仿学习中的缺失。正如我们在引言中简要提到的,IRL通常作为模仿学习的一个中间步骤,其目标是复制示范者的决策策略。这是通过首先通过IRL推断示范者的奖励函数,然后通过常规强化学习优化该奖励函数以获得其策略来实现的。除了这种策略之外,还开发了其他模仿学习方法来完全避免推断奖励函数(例如 Ho 和 Ermon,2016 (https://arxiv.org/html/2605.12831#bib.bib25))。对于无奖励模仿,Zhang 等人(2020 (https://arxiv.org/html/2605.12831#bib.bib26));Kumor 等人(2021 (https://arxiv.org/html/2605.12831#bib.bib27))从因果角度研究了观测缺失。他们刻画了尽管底层因果结构中存在缺失变量(即存在隐藏混淆),但示范者的策略仍然可以被模仿的条件。最近,Ruan 等人(2023 (https://arxiv.org/html/2605.12831#bib.bib28))将这一工作扩展到基于奖励的模仿。我们的目标是补充性的。我们不问在隐藏混淆下模仿或奖励恢复是否仍然可能,而是问:对于一个固定数据集,要使观察到的行为在奖励模型下被解释为最优,需要多少未观测信息?这提供了潜在缺失的定量度量,并且可以定位缺失上下文重要的地方,而无需因果图或对底层因果机制的假设。 行为变异性建模。正如我们在引言中讨论的,当观测缺失时,行为在不同回合之间可能看起来是变化的,而实际上,这些变化完全可以由那些缺失观测的变化来解释。在我们之前的医疗保健例子中,我们记录的数据使得不同医生似乎分配了不同的治疗,然而这些变化仅仅是由于患者血压的差异造成的。在这个意义上,我们的方法可以被视为一种解释跨回合特定变异性的方式,因此它与其他使用IRL解释行为变异性的方法相关。多模态IRL(Wang 等人,2017 (https://arxiv.org/html/2605.12831#bib.bib29);Hsiao 等人,2019 (https://arxiv.org/html/2605.12831#bib.bib30);Myers 等人,2022 (https://arxiv.org/html/2605.12831#bib.bib31);Qiao 等人,2024 (https://arxiv.org/html/2605.12831#bib.bib32))和多任务IRL(Babes 等人,2011 (https://arxiv.org/html/2605.12831#bib.bib33);Choi 和 Kim,2012 (https://arxiv.org/html/2605.12831#bib.bib34);Ramponi 等人,2020 (https://arxiv.org/html/2605.12831#bib.bib35);Huang 等人,2021 (https://arxiv.org/html/2605.12831#bib.bib36))也解释了观察行为中的变异性,通常是通过推断K个潜在模式、决策者或奖励函数。我们的设置与之相关但提出了不同的问题:我们不引入多个专家或奖励,而是问在保留共享奖励函数的情况下,通过缺失观测可以解释多少异质性。因此,这些方法改变潜在模式的数量,而我们量化使观察动作看起来最优所需的最小未观测上下文。最后,计量经济学和统计学长期以来通过回归和治疗效果估计中的遗漏变量偏差分析来研究对缺失变量的敏感性。先前的工作使用基于可观测变量的选择来推理基于不可观测变量的选择(Altonji 等人,2005 (https://arxiv.org/html/2605.12831#bib.bib10)),系数稳定性与R^2边界来评估未观测混淆(Oster,2019 (https://arxiv.org/html/2605.12831#bib.bib9)),以及可从标准回归输出计算出的鲁棒性值或部分R^2汇总(Cinelli 和 Hazlett,2020 (https://arxiv.org/html/2605.12831#bib.bib8))。我们的工作与之精神相同,但针对的是序列决策:我们不问标量系数是否对遗漏变量鲁棒,而是问需要多少未观测的轨迹级信息,才能使观察到的决策与奖励模型下的最优行为一致。 ## 3 问题形式化 设定。我们考虑一个场景,其中智能体通过N个回合行动,索引为n∈[N],每个回合有T个时间步,索引为t∈[T]。在每个时间步,他们遇到一个状态s_nt∈S,并根据某个行为策略基于该状态采取动作a_nt∈A:a_nt∼π_behavior(s_nt),假设其接近最优。现在,假设每个状态由两部分组成:s_nt=(x_nt, x̃_nt)∈S=X×X̃。虽然智能体的动作基于完整状态s_nt,但假设只有第一部分x_nt被记录在数据集中,而第二部分x̃_nt未被记录,从而得到一个行为数据集D={x_nt, a_nt}∈(X×A)^{N×T},其中缺失观测{x̃_nt}。 目标。我们的目标是获得行为策略π_behavior的基于奖励的描述,同时考虑缺失观测{x̃_nt}。一般来说,我们无法恢复这些缺失观测,因此我们**不**追求插补;我们也不复制行为策略,因此我们**不**追求模仿。相反,我们量化在π_behavior接近最优的先验信念下(例如,因为它反映了临床医生等领域专家的决策)缺失信息的可能大小。这提供了一种评估数据集D并通知下游使用的方法:大的潜在缺失可能表明需要改进数据收集或在下游分析中谨慎对待,而小的潜在缺失则增强了对离线策略评估或离线强化学习等任务的信心。 传统IRL。作为对比,考虑仅对记录观测应用传统IRL,忽略缺失观测{x̃_nt}。给定奖励函数r_θ(x,a)及其对应的最优策略π^*_{r_θ},IRL寻求一个奖励使得记录的动作看起来最优: minimize_θ ∑_{n,t} ‖a_nt - π^*_{r_θ}(x_nt)‖。 (1) 其中‖·‖是专家动作与推断策略决策之间的距离度量。例如,在最大熵IRL(Ziebart 等,2008 (https://arxiv.org/html/2605.12831#bib.bib44))的情况下,这将是动作在推断策略下的负对数似然:‖a_nt - π^*_{r_θ}(x_nt)‖ ≐ -log π^*_{r_θ}(x_nt)[a_nt]。需要注意的是,动作与推断策略之间的良好匹配可能并不总是可能的。

相似文章

通过双层优化实现交互场景的交互式逆向强化学习

arXiv cs.LG

本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。

利用逆强化学习进行多目标约束推断

arXiv cs.AI

本文介绍了 MOCI,这是一种新颖的框架,能够从强化学习中的异构专家演示中推断共享约束和个体偏好,在预测性能和计算效率方面均优于现有基线。

当动作消失:自对弈强化学习中的对抗性动作移除

arXiv cs.LG

本文研究了自对弈强化学习中的对抗性动作掩蔽,攻击者选择性移除受害者动作集中的合法动作。实验表明,在多个环境和算法下,该攻击比随机掩蔽或扰动基线造成的损害显著更大,且受害者即使在长时间训练后也无法恢复。