效用约束策略优化

arXiv cs.LG 2026/06/15 04:00 论文

摘要

本文介绍了一种简单而强大的方法，用于效用约束马尔可夫决策过程（UCMDPs），该方法无需预先固定约束界限即可实现风险敏感约束，在Safety Gymnasium基准测试中优于基线方法。

arXiv:2606.14029v1 公告类型：新摘要：约束马尔可夫决策过程（CMDPs）是一种广泛采用的框架，用于将安全性纳入强化学习智能体；然而，该框架不支持风险敏感约束。这可能存在问题：例如，CMDPs允许的最优解为了满足风险中性约束，会混合不频繁的灾难性行为和频繁的过度保守行为。此外，先前的实证结果表明，强制执行更严格的风险敏感约束即使在风险中性评估下也能提升性能。引入风险敏感约束的自然框架是效用约束马尔可夫决策过程（UCMDPs），但此前尚未有实用的解决方案。在这项工作中，我们为UCMDPs和约束强化学习引入了一种简单而强大的方法。除了允许风险敏感约束外，我们的框架无需在训练智能体前预先固定约束界限，只要已知一个合理的范围即可。这增加了策略的灵活性，并且在实际中允许在无需额外训练成本的情况下调整这些界限。除了受益于框架的通用性外，我们的智能体在实践中表现出强大的性能，在多个Safety Gymnasium基准任务中持续匹配或超越现有基线方法。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:09

# 受效用约束的策略优化 来源：https://arxiv.org/html/2606.14029 Mehrdad Moghimi 约克大学 加拿大 多伦多 moghimi@yorku\.ca &Bernardo Ávila Pires Google DeepMind 英国 伦敦 bavilapires@google\.com ###### 摘要 约束MDP（CMDP）是将安全性纳入强化学习智能体的广泛采用框架；然而，该框架不支持风险敏感约束。这可能存在问题：例如，CMDP允许最优解以满足风险中性约束为代价，混合了不频繁的灾难性行为和频繁的过度保守行为。此外，先前的实证结果表明，即使在风险中性评估下，施加更严格的风险敏感约束也能提升性能。纳入风险敏感约束的自然框架是受效用约束的MDP（UCMDP），但此前不存在针对该问题的实用解决方案。在这项工作中，我们为UCMDP和约束强化学习引入了一种简单而强大的方法。除了允许风险敏感约束外，我们的框架不要求在训练智能体之前固定约束极限，只要已知一个合理的范围即可。这增加了策略的灵活性，并且实际上允许在不增加额外训练成本的情况下调整这些极限。除了受益于框架的通用性，我们的智能体在实践中表现出强劲的性能，在多个Safety Gymnasium基准任务中持续匹配或超越现有基线。 ## 1 引言 构建目标导向的智能体的一个重要部分是表达并强制执行对其行为的约束，因为在许多领域中都存在行为要求，形式包括操作约束、安全要求、法规、用户偏好等。强化学习（RL）（Sutton and Barto,2018 (https://arxiv.org/html/2606.14029#bib.bib1)）是设计目标导向智能体的流行框架，将约束纳入强化学习的标准方式是通过约束马尔可夫决策过程（CMDP）（Altman,1999 (https://arxiv.org/html/2606.14029#bib.bib6)）。一个常见的强化学习问题是找到最大化期望（可能折扣）奖励总和的策略，而CMDP框架纳入了对其他类似奖励信号（与标准奖励一起观察到的）的期望（可能折扣）总和的约束。尽管被广泛采用作为许多约束强化学习方法的基础（例如，(Jiet al\.,2023 (https://arxiv.org/html/2606.14029#bib.bib3),2024 (https://arxiv.org/html/2606.14029#bib.bib30))），但CMDP框架的一个重大限制是约束是风险中性的，即它们只在期望意义上被强制执行。由于风险中性，只要灾难性约束违反的频率足够低，就是可以接受的，然而这可能导致不可靠（但最优）的策略——例如，有时满足约束的策略（Rayet al\.,2019 (https://arxiv.org/html/2606.14029#bib.bib28)），或过度保守的策略（Achiamet al\.,2017 (https://arxiv.org/html/2606.14029#bib.bib2)）。我们并非最先考虑这一限制的人。Kadotaet al\. (2006 (https://arxiv.org/html/2606.14029#bib.bib52)) 将CMDP扩展为包含基于效用的目标和约束，从而实现风险敏感公式，但没有明确的实用解决方案，因为最优策略是历史依赖的，且通常难以学习。Achiamet al\. (2017 (https://arxiv.org/html/2606.14029#bib.bib2)) 提出满足约束的保守上界；Sunet al\. (2021 (https://arxiv.org/html/2606.14029#bib.bib4)) 提出每当违反约束时就终止回合；Huanget al\. (2023 (https://arxiv.org/html/2606.14029#bib.bib45)) 确保在优化目标之前频繁满足约束；Sootlaet al\. (2022b (https://arxiv.org/html/2606.14029#bib.bib24)) 向强化学习奖励中添加约束违反的惩罚，并在训练过程中增加权重（以类似障碍函数的方式）；Sootlaet al\. (2022a (https://arxiv.org/html/2606.14029#bib.bib43)) 也添加了类似的惩罚，并使用关于约束极限的课程来学习满足约束的策略（而不是类似障碍的违反惩罚）；Jianget al\. (2024 (https://arxiv.org/html/2606.14029#bib.bib27)) 添加了与约束违反成比例的惩罚，而Sikchiet al\. (2022 (https://arxiv.org/html/2606.14029#bib.bib39)) 在动作选择过程中使用基于模型规划与最坏情况代价约束。有些出人意料的是，这些解决风险中性CMDP约束的努力在约束强化学习基准上*（其中约束是风险中性的）*上带来了性能提升。这表明，如果我们能够改进风险敏感约束的满足方式，还有进一步的性能提升空间，并且我们认为可以通过合适的问题表述及其求解方法来实现这一点。

在这项工作中，我们修改了Kadotaet al\. (2006 (https://arxiv.org/html/2606.14029#bib.bib52)) 引入的受效用约束的MDP，以支持实用解决方案，并为UCMDP引入了一种实用方法。我们的提议建立在Pireset al\. (2025 (https://arxiv.org/html/2606.14029#bib.bib5)) 引入的框架之上，该框架允许通过动态规划解决具有期望效用目标的无约束MDP。我们修改的一个便利副作用是，约束极限与MDP的初始状态一起作为策略的输入，因此可以在训练智能体*之后*设置它们，类似于Sauté RL所提供的（Sootlaet al\.,2022b (https://arxiv.org/html/2606.14029#bib.bib24)）。我们引入的求解方法称为*受效用约束的策略*（UCP），一种用于UCMDP的拉格朗日深度强化学习智能体，并在Safety Gymnasium基准（Jiet al\.,2023 (https://arxiv.org/html/2606.14029#bib.bib3)）上展示其有效性。图̃1 (https://arxiv.org/html/2606.14029#S1.F1) 展示了我们的智能体在*Safety Navigation**CarGoal*（级别1）任务中的部分能力。

请参考说明(a) 不同测试时代价预算的回合回报（左）和代价（右）。对于每个种子，结果在1000个回合上取平均；然后我们报告五个种子上的均值和95%学生tt置信区间。请参考说明(b) UCP在风险敏感约束与风险中性约束下的回合回报（左）和代价（右）的经验密度。实线表示均值；虚线表示期望超额代价；虚线表示预算线。

图1：UCP在*Safety Navigation**CarGoal*（级别1）任务中的说明。

图̃1(a) (https://arxiv.org/html/2606.14029#S1.F1.sf1) 显示了UCP的回合回报和代价，作为不同代价预算的函数。我们对不同的代价预算输入使用相同的策略（即不重新训练智能体）。我们看到，正如活跃约束所预期的那样，智能体的性能随着代价预算的增加而增加。更重要的是，我们观察到随着预算增加，回报的边际收益，这可以指导选择合适的预算。智能体不仅在风险中性意义上表现出强劲的性能111据我们所知，满足期望代价预算2525的最佳先前方法是基于模型的RCEPETS (Liuet al\.,2020 (https://arxiv.org/html/2606.14029#bib.bib40); Chuaet al\.,2018 (https://arxiv.org/html/2606.14029#bib.bib41))，平均回报为29.0829.08（Jiet al\.,2024 (https://arxiv.org/html/2606.14029#bib.bib30)，表3(e)），以及无模型早期终止的TRPO (Sunet al\.,2021 (https://arxiv.org/html/2606.14029#bib.bib4))，达到22.0922.09（Jiet al\.,2024 (https://arxiv.org/html/2606.14029#bib.bib30)，表3(b)）。更多结果见第5.1节 (https://arxiv.org/html/2606.14029#S5.SS1)。，还减少了预算以上的分布尾部。图̃1(b) (https://arxiv.org/html/2606.14029#S1.F1.sf2) 说明了风险敏感约束的好处。该图显示了UCP（具有风险敏感约束）和UCP的一个变体（具有风险中性约束，类似于CMDP）的回合回报和代价的经验分布。风险中性UCP紧密满足约束（平均代价略低于预算），但经常超出代价预算，有时代价超过两倍，而风险敏感UCP仅惩罚预算以上的代价，超出预算的尾部更小（期望超额代价几乎为零，即E\[max⁡(X,b)\]≈b\\mathbb\{E\}\[\\max\(X,b\)\]\\approx b），且回合回报的下降相对较小。

贡献。
- - 我们引入了一个对UCMDP的简单修改，以支持最优马尔可夫策略和实用解决方案。这一修改允许在计算解*之后*设置约束极限——它们与MDP的初始状态一起作为策略的输入。
- - 我们引入了*受效用约束的策略*（UCP），一种用于求解UCMDP的拉格朗日算法。
- - 我们在Safety Gymnasium上进行了广泛评估，展示了UCP的强劲性能：UCP在所考虑的所有六个*Safety Velocity*任务中匹配（重叠95%置信区间）或超越基线，并且在所考虑的所有十六个*Safety Navigation*任务中以较大幅度超越所有基线。
- - 我们通过实验展示了解决两个CMDP限制的效果：UCP相对于其风险中性变体，减少了预算以上代价的期望值，并且可以在无需重新训练的情况下根据不同的代价预算执行。

## 2 背景

#### 基本记号。我们用R\\mathbb\{R\}表示实数，N\\mathbb\{N\}表示自然数，N0≐{0}∪N\\mathbb\{N\}\_\{0\}\\doteq\\\{0\\\}\\cup\\mathbb\{N\}\。I{⋅}\\mathbb\{I\}\\\{\\cdot\\\}表示指示函数，(x)+≐max⁡{x,0}\(x\)\_\{\+\}\\doteq\\max\\\{x,0\\\}\。对于集合X\\mathcal\{X\}，Δ(X)\\Delta\(\\mathcal\{X\}\)表示X\\mathcal\{X\}上的概率分布集合。对于随机变量X∼νX\\sim\\nu，我们写df(X)=ν\\mathrm\{df\}\(X\)=\\nu。

#### 马尔可夫决策过程。在标准的强化学习问题中，环境被形式化为马尔可夫决策过程（MDP）（Puterman,2014 (https://arxiv.org/html/2606.14029#bib.bib31)），由状态空间S\\mathcal\{S\}、动作空间A\\mathcal\{A\}、转移核P:S×A→Δ(S)\\mathscr\{P\}:\\mathcal\{S\}\\times\\mathcal\{A\}\\rightarrow\\Delta\(\\mathcal\{S\}\)，以及奖励核R:S×A→Δ(R)\\mathscr\{R\}:\\mathcal\{S\}\\times\\mathcal\{A\}\\rightarrow\\Delta\(\\mathbb\{R\}\)定义。在这项工作中，我们考虑一个更一般的MDP公式，其中我们将奖励信号替换为向量值的*累积量*（Suttonet al\.,2011 (https://arxiv.org/html/2606.14029#bib.bib32); Sutton and Barto,2018 (https://arxiv.org/html/2606.14029#bib.bib1)）。在这个公式中，我们有Z≐Rm\\mathcal\{Z\}\\doteq\\mathbb\{R\}^\{m\}（对于某个m∈Nm\\in\\mathbb\{N\}），我们使用*累积量核*R:S×A→Δ(Z)\\mathscr\{R\}:\\mathcal\{S\}\\times\\mathcal\{A\}\\rightarrow\\Delta\(\\mathcal\{Z\}\)而不是奖励核。我们假设累积量具有一致有界的一阶矩，我们将此类分布的集合记为P1(Z)\\mathcal\{P\}^\{1\}\(\\mathcal\{Z\}\)。我们还假设A\\mathcal\{A\}是紧致的。在每个时间步tt，智能体观察状态StS\_\{t\}，选择动作AtA\_\{t\}，并观察奖励向量Rt+1∈ZR\_\{t\+1\}\\in\\mathcal\{Z\}和下一个状态St+1S\_\{t\+1\}。直到时间步tt的历史是序列S0,A0,S1,R1,...,St,RtS\_\{0\},A\_\{0\},S\_\{1\},R\_\{1\},\\ldots,S\_\{t\},R\_\{t\}，策略是从历史到动作分布的映射。我们将基于历史的策略集合记为ΠH\\Pi\_\{\\mathrm\{H\}\}。*马尔可夫策略*是映射S×A→Δ(A)\\mathcal\{S\}\\times\\mathcal\{A\}\\rightarrow\\Delta\(\\mathcal\{A\}\)。给定折扣因子γ∈(0,1)\\gamma\\in\(0,1\)，策略π\\pi的*折扣回报*是从StS\_\{t\}开始遵循π\\pi观察到的折扣奖励之和：Gtπ≐∑k=0∞γkRt+k+1G^\{\\pi\}\_\{t\}\\doteq\\sum\_\{k=0\}^\{\\infty\}\\gamma^\{k\}R\_\{t\+k\+1\}。由于γ<1\\gamma<1以及一阶矩有界的假设，回报分布也在P1(Z)\\mathcal\{P\}^\{1\}\(\\mathcal\{Z\}\)中。我们偶尔会使用双重下标表示回报，写作Gt=(Gt,1,...,Gt,m)G\_\{t\}=\(G\_\{t,1\},\\ldots,G\_\{t,m\}\)。在标准强化学习中，我们有Z=R\\mathcal\{Z\}=\\mathbb\{R\}（m=1m=1）并且累积量具有奖励的语义；问题是找到最大化期望回报的策略，supπ∈ΠHE\[G0π\],\\sup\_\{\\pi\\in\\Pi\_\{\\mathrm\{H\}\}\}\\mathbb\{E\}\[G^\{\\pi\}\_\{0\}\]，其中Z=R\\mathcal\{Z\}=\\mathbb\{R\}。根据我们的假设，可以证明这个问题可以用马尔可夫策略解决（马尔可夫策略上的上确界等于基于历史的策略上的上确界）。

#### 分布式强化学习。分布式强化学习（Morimuraet al\.,2010 (https://arxiv.org/html/2606.14029#bib.bib29); Bellemareet al\.,2023 (https://arxiv.org/html/2606.14029#bib.bib34)）将值相关的经典强化学习结果扩展到回报分布，并提供了以每个状态、每个动作的回报分布评估策略的方法（而经典策略评估涉及标量值函数）。在实际方面，已经提出了多种方法来使用函数逼近器在分布意义上评估策略， notably，分类方法（Bellemareet al\.,2017 (https://arxiv.org/html/2606.14029#bib.bib13)）、分位数回归（Dabneyet al\.,2018 (https://arxiv.org/html/2606.14029#bib.bib14)）和基于粒子的方法（Freirichet al\.,2019 (https://arxiv.org/html/2606.14029#bib.bib36); Wiltzeret al\.,2024 (https://arxiv.org/html/2606.14029#bib.bib35)）。

#### 回报分布优化。Martheet al\. (2023 (https://arxiv.org/html/2606.14029#bib.bib33)); Pireset al\. (2025 (https://arxiv.org/html/2606.14029#bib.bib5)) 将回报分布优化（RDO）问题作为一类我们希望用动态规划优化的类似强化学习的目标。这些目标用分布泛函（除了期望之外）表示，RDO的一个特例是优化*期望效用*目标：supπ∈ΠHE\[u(G0π)\],\\sup\_\{\\pi\\in\\Pi\_\{\\mathrm\{H\}\}\}\\mathbb\{E\}\[u\(G^\{\\pi\}\_\{0\}\)\]，其中u:Z→Ru:\\mathcal\{Z\}\\rightarrow\\mathbb\{R\}是一个*效用*。除了少数效用函数（恒等函数和指数函数）外，这个问题不能通过马尔可夫策略解决（Martheet al\.,2023 (https://arxiv.org/html/2606.14029#bib.bib33)）。非正式地说，状态不包含足够的信息来做出正确的决策，需要某种形式的记忆。Pireset al\. (2025 (https://arxiv.org/html/2606.14029#bib.bib5)) 提出通过利用他们称为*存量*的历史摘要来弥补这一不足，这里记为Zt∈ZZ\_\{t\}\\in\\mathcal\{Z\}（定义如下），并将其纳入正在优化的目标和状态中，从而产生*存量增强*的RDO。此后，我们只考虑所有RDO问题都是存量增强的。我们将带有期望效用的RDO特例称为*效用优化*（UO）：
supπ∈ΠHE\[u(Z0+G0π)\],\\sup\_\{\\pi\\in\\Pi\_\{\\mathrm\{H\}\}\}\\mathbb\{E\}\[u\(Z\_\{0\}+G^\{\\pi\}\_\{0\}\)\], (1)
其中Z0Z\_\{0\}是来自初始存量增强状态 (S0,Z0)(S\_\{0\},Z\_\{0\}) 的*初始存量*。存量ZtZ\_\{t\}对于t∈N0t\\in\\mathbb\{N\}\_\{0\}递归定义为：

效用约束策略优化

相似文章

CSPO：面向安全强化学习的约束敏感策略优化

面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形

PRO-CUA：面向计算机使用代理的过程奖励优化

UDM-GRPO：面向均匀离散扩散模型的稳定高效群体相对策略优化

生成式OOD正则化的基于模型的策略优化

提交意见反馈