通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡
摘要
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。
arXiv:2605.24345v1 公告类型:新
摘要:在在线强化学习中,数据稀缺会导致认知不确定性,这使得在学习的早期阶段鲁棒性尤为重要,而充分的探索又是学习真实环境最优策略所必需的。我们通过一个分位数贝叶斯风险感知马尔可夫决策过程(BR-MDP)来研究这种随时间变化的鲁棒性与探索的权衡,其中分位数水平控制了后验不确定性如何进入贝尔曼备份。我们通过一个关于分位数BR-MDP值与真实环境值之差的渐近正态性结果来表征这种控制。该结果表明,上/下尾分位数会引发对认知不确定性的乐观/悲观态度,并且这种乐观/悲观的程度随着数据的积累而减小。基于这一表征,我们提出了一种在线贝叶斯风险感知算法,该算法采用自适应分位数调度,早期强调鲁棒性,并逐步鼓励对较少访问的状态-动作对进行探索。我们建立了关于真实最优值和最优BR-MDP鲁棒值的次线性贝叶斯遗憾界。数值实验表明,在探索需求高和探索成本高的环境中均表现出强大的性能。
查看缓存全文
缓存时间: 2026/05/26 09:04
# 1 引言 来源:https://arxiv.org/html/2605.24345 通过分位数贝叶斯风险 MDP 演化在线强化学习中的鲁棒性-探索权衡
###### 摘要
在在线强化学习中,数据稀缺导致认知不确定性,这使得鲁棒性在学习早期非常重要,而充分的探索则是学习真实环境最优策略所必需的。我们通过一个分位数贝叶斯风险感知马尔可夫决策过程(BR-MDP)来研究这种随时间变化的鲁棒性-探索权衡,其中分位数水平控制后验不确定性如何进入贝尔曼备份。我们通过一个渐近正态性结果来刻画这种控制,该结果描述了分位数 BR-MDP 值与真实环境值之间的差异。该结果表明,上/下尾分位数会分别导致对认知不确定性的乐观/悲观态度,且这种乐观/悲观的程度随着数据积累而减小。基于这一刻画,我们提出了一种在线贝叶斯风险感知算法,该算法采用自适应分位数调度,早期强调鲁棒性,并逐渐鼓励探索较少访问的状态-动作对。我们建立了关于真实最优值和最优 BR-MDP 鲁棒值的次线性贝叶斯遗憾界。数值实验在既需要探索又探索代价高昂的环境中均展现了强劲性能。
**关键词:** 在线强化学习;贝叶斯风险优化;马尔可夫决策过程
在在线强化学习(RL)中,代理按顺序与未知环境交互,并使用收集到的数据来估计未知环境并更新后续交互中使用的策略。因此,每个动作既影响即时奖励,也影响未来决策可用的信息。有限的数据导致环境参数估计中存在认知不确定性(Der Kiureghian and Ditlevsen, 2009 (https://arxiv.org/html/2605.24345#bib.bib10))。这种不确定性是探索-利用权衡考虑的核心(Jaksch et al., 2010 (https://arxiv.org/html/2605.24345#bib.bib20), Osband et al., 2013 (https://arxiv.org/html/2605.24345#bib.bib29), Azar et al., 2017 (https://arxiv.org/html/2605.24345#bib.bib3), Ma and Lee, 2026 (https://arxiv.org/html/2605.24345#bib.bib27)):利用选择在当前估计下看似最优的动作以追求高估计累积奖励,而探索则收集信息以减少认知不确定性。虽然不确定性较高的区域提供了更大的探索动机,但在这些区域行动也存在风险,因为不可靠的估计会导致估计的最优策略在真实环境中表现不佳。这种风险在学习初期数据稀缺时最为显著。在交互预算有限的高风险场景中尤其突出(Dulac-Arnold et al., 2021 (https://arxiv.org/html/2605.24345#bib.bib14)),例如公共卫生干预问题(Liang et al., 2025 (https://arxiv.org/html/2605.24345#bib.bib23))以及需要代价高昂的试错决策的库存或服务系统。因此,除了经典的探索-利用考虑之外,交互中所用策略(本文余下部分称为交互策略)的鲁棒性在学习早期也是一个主要关注点,因为它可以规避在认知不确定性下行动所带来的风险。随着学习进行和更多数据收集,认知不确定性降低,这类不可靠估计变得不那么可能。因此,对鲁棒性的需求变得不那么重要,而探索较少访问的状态-动作对对于学习真实环境中的最优策略则变得更加迫切。这就产生了一种内在的、随时间变化的鲁棒性-探索权衡:鲁棒性在学习初期有价值,但保持固定的保守态度可能会阻碍后期探索,从而影响学习真实环境最优策略。因此,交互策略应随时间调整其对认知不确定性的处理方式:数据稀缺时更加鲁棒,信息积累后逐渐减小保守程度。
为了处理认知不确定性,一种广泛使用的方法是鲁棒和分布鲁棒 MDP 及强化学习,它优化不确定性或模糊集上的最坏情况性能(Nilim and El Ghaoui, 2005 (https://arxiv.org/html/2605.24345#bib.bib28), Iyengar, 2005 (https://arxiv.org/html/2605.24345#bib.bib19), Xu and Mannor, 2010 (https://arxiv.org/html/2605.24345#bib.bib47), Wiesemann et al., 2013 (https://arxiv.org/html/2605.24345#bib.bib45))。然而,这部分文献大多关注离线设置,其中历史数据集在整个学习过程中固定不变,或者通过生成模型或模拟器访问数据(Panaganti and Kalathil, 2022 (https://arxiv.org/html/2605.24345#bib.bib32), Zhou et al., 2021 (https://arxiv.org/html/2605.24345#bib.bib51), Panaganti et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib33), Blanchet et al., 2023 (https://arxiv.org/html/2605.24345#bib.bib6))。这些结果表明了当数据外生可用时如何学习鲁棒策略,但没有解决交互策略应如何随着数据积累同时管理鲁棒性和探索的问题。近期的在线鲁棒 RL 工作更接近当前设置(Wang and Zou, 2021 (https://arxiv.org/html/2605.24345#bib.bib44), Badrinath and Kalathil, 2021 (https://arxiv.org/html/2605.24345#bib.bib4), Dong et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib11), Lu et al., 2024 (https://arxiv.org/html/2605.24345#bib.bib26), Wang and Zhou, 2023 (https://arxiv.org/html/2605.24345#bib.bib42), Ghosh et al., 2026 (https://arxiv.org/html/2605.24345#bib.bib17), Wang and Zhou, 2025 (https://arxiv.org/html/2605.24345#bib.bib43))。其中一些研究依赖外部探索行为策略与真实环境交互(Wang and Zou, 2021 (https://arxiv.org/html/2605.24345#bib.bib44), Badrinath and Kalathil, 2021 (https://arxiv.org/html/2605.24345#bib.bib4), Wang and Zhou, 2023 (https://arxiv.org/html/2605.24345#bib.bib42))。然而,这样的行为策略在交互过程中并未考虑鲁棒性。另一类工作通过在鲁棒贝尔曼备份上添加显式的基于访问次数的奖励,然后在选择交互策略之前进行激励探索(Dong et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib11), Lu et al., 2024 (https://arxiv.org/html/2605.24345#bib.bib26), Ghosh et al., 2026 (https://arxiv.org/html/2605.24345#bib.bib17), Wang and Zhou, 2025 (https://arxiv.org/html/2605.24345#bib.bib43))。这些奖励在学习初期取值较大,因此探索对动作选择的影响可能超过鲁棒价值估计。因此,这些方法并不能直接保证交互策略是鲁棒的。此外,这些方法的目标是学习最优鲁棒策略,而我们的目标是学习真实环境中的最优策略,同时确保交互策略的鲁棒性,尤其是在学习早期。这就留下了一个开放问题:交互策略应如何随时间调整其风险态度——数据稀缺时更加鲁棒,但随着更多数据收集变得不那么保守,以便代理能够充分探索以学习真实环境中的最优策略。
贝叶斯风险感知马尔可夫决策过程(BR-MDP)为这个问题提供了一个起点。它通过后验分布对真实环境中的未知参数建模,并在每个转移步骤中对未来奖励施加风险度量,从而得到数据自适应的随机模型(Wu et al., 2018 (https://arxiv.org/html/2605.24345#bib.bib46), Lin et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib24), Wang and Zhou, 2023 (https://arxiv.org/html/2605.24345#bib.bib42), Lin and Zhou, 2025 (https://arxiv.org/html/2605.24345#bib.bib25))。最近,Wang and Zhou (2025 (https://arxiv.org/html/2605.24345#bib.bib43)) 将下尾 CVaR 作为 BR-MDP 中的风险度量,从而求解得到的 BR-MDP 产生风险规避策略。基于这一公式,他们提出了一种在线贝叶斯风险规避算法来学习贝叶斯风险准则下的最优鲁棒策略。然而,其遗憾分析也依赖于一个额外的探索奖励,该奖励在访问次数较小时取值较大。结果,交互策略可能无法在学习早期具有期望的对认知不确定性的鲁棒性。
为了严格刻画在线 RL 中的鲁棒性-探索权衡,我们首先研究以固定 α-分位数作为风险度量的 BR-MDP 公式,称为 α-分位数 BR-MDP。我们的理论分析展示了 α-分位数 BR-MDP 如何显式控制对认知不确定性的鲁棒性,同时保持探索。α-分位数 BR-MDP 的最优策略可能更鲁棒或更具探索性,具体取决于分位数水平 α。因此,我们提出自适应分位数 BR-MDP(AQ-BRMDP),它使用自适应分位数调度来响应在线 RL 中不断演化的鲁棒性-探索权衡。在学习早期,调度将分位数水平设置为强调未来累积奖励的下尾评估,从而产生更鲁棒的策略。随着更多数据收集和后验集中,调度逐渐增加分位数水平,特别是对于那些对学习真实环境最优策略仍然重要的较少访问的状态-动作对,从而鼓励探索这些对。在折扣无限时域设置中,我们通过伪情节构造实现这一思想,如 Xu et al. (2024 (https://arxiv.org/html/2605.24345#bib.bib48)) 所述,该构造将交互过程按照折扣因子划分为长度随机的区间。具体地,在每个伪情节开始时,我们更新后验信念和分位数调度,然后求解相应的 α-分位数 BR-MDP,最后执行所得策略直到下一次更新。这就产生了一个可实现的在线过程,能够根据学习阶段和收集到的数据调整对认知不确定性的处理。
我们将本文的主要贡献总结如下。
1. 我们提出 α-分位数 BR-MDP,并证明分位数水平可以显式控制鲁棒性与探索之间的权衡。我们通过一个分析结果来刻画这种权衡:α-分位数 BR-MDP 的值函数与原始值函数之间的差异是渐近正态的。该均值的幅度随着分位数水平向下尾移动而增大,从而诱导更鲁棒的策略;或者向上尾移动而增大,从而诱导更具探索性的策略。该幅度随着更多数据收集而减小,速率为 \(O(\frac{1}{\sqrt{N}})\),其中 \(N\) 是用于估计后验分布的数据点总数。
2. 我们利用上述性质设计了一种在线贝叶斯风险感知算法 AQ-BRMDP,该算法在折扣无限时域设置中将自适应分位数调度与伪情节后验更新相结合。分位数调度被设计为依赖于状态-动作对上的访问次数以及学习阶段,因此 AQ-BRMDP 能够适应在线 RL 设置中不断演化的鲁棒性-探索权衡。
3. 理论上,我们证明 AQ-BRMDP 具有关于两个基准的 \( \widetilde{O}(\sqrt{T}) \) 阶贝叶斯遗憾界,其中 \(T\) 是总交互次数。这两个基准分别是:真实环境中的最优值,以及最优鲁棒值。数值上,我们在两个环境中评估 AQ-BRMDP 的性能:一个需要持续探索,另一个探索性错误代价高昂。我们还将所提算法扩展到连续状态空间,并在连续状态环境中评估其实验性能。
### 1.1 相关工作
经典的在线强化学习研究探索-利用权衡,以高效学习真实环境中的最优策略。一大类基于乐观的方法通过乐观初始化、乐观模型、置信集或显式探索奖励来处理这种权衡(Kearns and Singh, 2002 (https://arxiv.org/html/2605.24345#bib.bib22), Brafman and Tennenholtz, 2002 (https://arxiv.org/html/2605.24345#bib.bib8), Strehl et al., 2006 (https://arxiv.org/html/2605.24345#bib.bib38), Strehl and Littman, 2008 (https://arxiv.org/html/2605.24345#bib.bib39), Jaksch et al., 2010 (https://arxiv.org/html/2605.24345#bib.bib20), Bartlett and Tewari, 2009 (https://arxiv.org/html/2605.24345#bib.bib5), Azar et al., 2017 (https://arxiv.org/html/2605.24345#bib.bib3), He et al., 2021 (https://arxiv.org/html/2605.24345#bib.bib18), Jin et al., 2018 (https://arxiv.org/html/2605.24345#bib.bib21), Dong et al., 2020 (https://arxiv.org/html/2605.24345#bib.bib12))。后验采样方法则通过从贝叶斯后验中采样模型的随机性引入探索,并通常通过贝叶斯遗憾进行分析(Osband et al., 2013 (https://arxiv.org/html/2605.24345#bib.bib29), Abbasi-Yadkori and Szepesvári, 2015 (https://arxiv.org/html/2605.24345#bib.bib1), Russo et al., 2018 (https://arxiv.org/html/2605.24345#bib.bib37), Xu et al., 2024 (https://arxiv.org/html/2605.24345#bib.bib48))。相关的后验推断和后验分位数方法也利用后验信息将探索引导至那些价值仍然不确定的动作(Tiapkin et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib41), Tarbouriech et al., 2023 (https://arxiv.org/html/2605.24345#bib.bib40), Ma and Lee, 2026 (https://arxiv.org/html/2605.24345#bib.bib27))。这类文献主要使用不确定性来改进对真实环境最优策略的学习;它并未显式控制在认知不确定性高时探索性动作的交互风险。
鲁棒和分布鲁棒强化学习起源于鲁棒 MDP 公式,其目标是在最坏情况模型或模糊集上优化性能(Nilim and El Ghaoui, 2005 (https://arxiv.org/html/2605.24345#bib.bib28), Iyengar, 2005 (https://arxiv.org/html/2605.24345#bib.bib19), Xu and Mannor, 2010 (https://arxiv.org/html/2605.24345#bib.bib47), Wiesemann et al., 2013 (https://arxiv.org/html/2605.24345#bib.bib45))。这条线已经发展出针对生成模型和离线数据设置的学习算法(Panaganti and Kalathil, 2022 (https://arxiv.org/html/2605.24345#bib.bib32), Zhou et al., 2021 (https://arxiv.org/html/2605.24345#bib.bib51), Panaganti et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib33), Blanchet et al., 2023 (https://arxiv.org/html/2605.24345#bib.bib6)),并且最近进入了具有交互式数据收集的在线鲁棒 RL(Wang and Zou, 2021 (https://arxiv.org/html/2605.24345#bib.bib44), Badrinath and Kalathil, 2021 (https://arxiv.org/html/2605.24345#bib.bib4), Dong et al., 2022 (https://arxiv.org/html/2605.24345#bib.bib11), Lu et al., 2024 (https://arxiv.org/html/2605.24345#bib.bib26), Ghosh et al., 2026 (https://arxiv.org/html/2605.24345#bib.bib17))。这些工作主要考虑了模型误设定,并旨在学习鲁棒最优策略,但它们并未直接解决行为策略应如何在鲁棒性与探索真实环境最优策略所需的探索之间取得平衡。我们的工作桥接了这两条线:作为鲁棒 RL,它处理了认知不确定相似文章
Infra-Bayesian 强化学习智能体在最坏情况鲁棒性方面优于经典 RL
本文展示了首个 infra-Bayesian 强化学习智能体的实现,证明其在最坏情况遗憾上优于经典 RL,并能最优地处理纽科姆问题,为模型误设定下的鲁棒性迈出了一步。
面向安全强化学习的鲁棒防护
提出了一种新颖的防护框架,用于鲁棒马尔可夫决策过程(RMDP),该框架在不确定的转移动态下正式保证安全性,并证明了其正确性和最优性。该方法结合了学习模型的PAC保证,使得在未知环境中实现安全强化学习成为可能。
最大熵如何使强化学习更加稳健
本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
基于重试的策略梯度强化学习中探索的涌现
本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。