生成式OOD正则化的基于模型的策略优化

arXiv cs.LG 论文

摘要

介绍 GORMPO,一种密度正则化的离线强化学习算法,使用生成式密度建模将策略更新限制在高密度区域,在真实世界医疗数据集上实现17%的提升,并超越最先进的基线模型。

arXiv:2605.24405v1 公告类型:新 摘要:我们研究使用离线强化学习(RL)进行序列决策。传统的离线RL策略在训练仅依赖稀疏离线表示时,可能会导致分布外(OOD)动作。为了确保稀疏状态-动作空间中的安全离线策略,我们探索如何将密度估计模型集成到基于模型的RL方法中,以避免OOD区域。生成模型能够显式地对稀疏状态-动作空间中的密度进行建模。基于此,我们提出了生成式OOD正则化的基于模型的策略优化(GORMPO),这是一种密度正则化的离线RL算法,使用生成式密度建模将策略更新限制在数据集的高密度区域。此外,我们研究了更好的OOD检测是否对应更好的基于模型的离线策略。我们比较了(1)各种密度估计器的OOD检测能力,以及(2)它们在真实世界医疗数据集和稀疏离线RL数据集上在GORMPO框架内的性能。我们在温和假设下理论保证了GORMPO的性能。实验上,GORMPO在真实世界医疗数据集上比最先进的基线高出17%,并在离线RL数据集上提升了基础模型。我们的实验结果表明,更好的OOD检测通常会在动力学稳定的环境中产生改进的策略,而在动力学不确定时,保守惩罚与较差的密度估计更受青睐。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:06

# 基于生成式OOD正则化的模型驱动策略优化
来源:https://arxiv.org/html/2605.24405

Aysin Tumay¹, Jiahe Huang¹, Elise Jortberg², Rose Yu¹
¹加州大学圣地亚哥分校 ²Abiomed

###### 摘要

我们研究基于离线强化学习(RL)的序列决策问题。当训练仅依赖稀疏的离线表示时,传统离线RL策略可能导致分布外(OOD)动作。为了在稀疏状态-动作空间中确保安全的离线策略,我们探索了如何将密度估计模型集成到基于模型的RL方法中,以避免OOD区域。生成式模型能够显式地对稀疏状态-动作空间中的密度进行建模。基于此,我们提出了生成式OOD正则化模型驱动策略优化(GORMPO),一种基于密度正则化的离线RL算法,该算法使用生成式密度建模将策略更新限制在数据集的高密度区域。此外,我们考察了更好的OOD检测是否对应于更好的基于模型的离线策略。我们比较了(1)各种密度估计器的OOD检测能力,以及(2)它们在GORMPO框架中在一个真实医疗数据集和稀疏离线RL数据集上的性能。我们在温和假设下理论上保证了GORMPO的性能。实验上,GORMPO在真实医疗数据集上比最先进的基线方法提升17%,并在离线RL数据集上增强了基础模型。我们的实验结果表明,在动态稳定的环境中,更好的OOD检测通常能带来更好的策略;而当动态不确定时,带有保守惩罚的较差密度估计更受青睐。

## 1 引言

离线强化学习在无法与在线环境交互的安全关键控制任务中显示出巨大潜力。该问题的应用已在脓毒症(Komorowski 等, 2018;Raghu 等, 2017)、癌症预测(Eckardt 等, 2021;Tseng 等, 2020)、自动驾驶(Bansal 等, 2019)以及无人机控制(Brunke 等, 2022)等领域得到验证。然而,分布偏移是离线RL的一个重大问题,因为策略会触及分布外(OOD)区域,导致不安全的行为。离线RL还强烈依赖于数据集覆盖范围,有限的状态-动作支持会导致贝尔曼备份中的外推误差(Kumar 等, 2019)。这个问题在临床环境中尤为常见,因为大多数患者得到充分支持并保持血流动力学稳定,而治疗不足的案例很少且代表性不足,如图1所示。

图1:左图:我们医疗数据集的奖励-动作空间,灰色区域表示稀疏区域。右图:由KDE和NeuralODE建模的过渡展开分布与训练分布。虽然过渡展开显示出低似然性(指示OOD行为),但KDE在OOD区域饱和并出现大的尖峰。

离线RL的一个核心挑战是减轻分布偏移,同时避免过度保守。先前的无模型方法将学习到的策略约束为仅基于离线数据的行为分布(Fujimoto 等, 2019;Kumar 等, 2020)。然而,这些约束可能抑制那些Q函数泛化良好的有效动作(An 等, 2021)。其他无模型方法(Wu 等, 2022;Mao 等, 2023)通过基于证据下界(ELBO)显式地用行为支持正则化策略,或使用重要性采样(Mao 等, 2023)来解决这个问题,但这在高度稀疏的离线数据上可能效果不佳。一些基于模型的不确定性惩罚方法(Yu 等, 2020;Sun 等, 2023),基于模型驱动策略优化(MBPO)(Janner 等, 2019),通过用不确定性惩罚策略优化来处理分布偏移。然而,当动力学模型在稀疏数据上训练且无法可靠泛化时,用模型生成的展开数据增强数据集可能会迅速漂移到OOD状态。其他研究探索了医疗保健领域中使用核密度估计(KDE)正则化的MBPO(Yan 等, 2025;Tumay 等, 2025)。然而,与KDE相比,生成式密度估计提供了一种更原则性的替代方案,用于灵活的OOD检测,特别是在稀疏且高风险的任务如医疗保健中(Zhai 等, 2016;Melnychuk 等, 2023;Ruff 等, 2021)。在这项工作中,我们提出了生成式OOD正则化模型驱动策略优化(GORMPO),一种基于密度惩罚的离线RL算法。为了避免在动力学模型展开期间进入状态-动作空间中未覆盖的区域,我们根据下一个状态-动作密度对展开的奖励进行折扣。低密度区域受到更多惩罚,以支持策略优化过程中的分布内(ID)数据增强。此外,由于我们的流程高度灵活,我们校准了五种不同的密度估计模型,以回答“更好的OOD检测是否能在GORMPO中带来更好的离线策略?”这个问题。总之,我们的主要贡献是:

- • 我们提出GORMPO,一个即插即用的框架,适用于任何基于模型的离线RL算法,它使用生成式模型显式惩罚OOD状态-动作展开。GORMPO在我们专有的真实医疗数据集上比最先进的基线方法提升17%。
- • 我们首次全面评估了5个不同家族的密度估计器(包括四个生成式模型)在OOD检测任务上的表现。
- • 我们证明,在动态稳定的环境中,富有表现力的密度模型能带来更好的策略,而在动态不确定的环境中,则需要悲观的惩罚。

## 2 相关工作

**受约束的离线RL。** 解决分布偏移是离线强化学习的核心问题。一类重要的方法通过将学习策略约束在行为策略的支持范围内来减轻外推误差。诸如批量约束Q学习(BCQ)(Fujimoto 等, 2019)、保守Q学习(CQL)(Kumar 等, 2020)以及行为正则化演员-评论家(BRAC)(Wu 等, 2019)等方法使用散度度量来惩罚偏离离线数据集的行为。尽管这些方法在确保安全性方面有效,但基于距离的约束常常导致过度保守。通过将学习限制在观察数据的邻域,它们可能抑制那些在真实基础分布中仍然合理且可能最优的动作(An 等, 2021;Degrave 等, 2022)。为了克服这些限制,最近的工作转向离线RL中的显式正则化。无模型方法将策略正则化到行为分布(Wu 等, 2022),在优化过程中强化离线数据集中的模式。然而,估计下界只提供粗略的正则化。在无模型RL中借助显式密度估计,CPED(Zhang 等, 2023)集成了FlowGAN,突出了生成式密度模型的好处。尽管如此,在专家演示较弱的情况下依赖数据支持仍可能产生次优策略。在这种情况下,MBPO(Janner 等, 2019)证明学习动力学模型有助于在状态-动作空间中进行更广泛的探索。有些方法通过不确定性惩罚施加悲观主义(Sun 等, 2023;Yu 等, 2020),量化一组动力学模型的不确定性,并惩罚价值估计和动力学展开。LEQ(Park 和 Lee, 2025)通过降低期望分位数回归λ-回报来进一步解决模型展开中的价值高估问题。SAMBO-RL(Luo 等, 2024)引入了一种偏移感知奖励校正来减轻模型偏差。然而,当动力学模型在稀疏数据上训练且展开漂移到OOD区域时,不确定性惩罚、偏差校正和价值正则化可能仍不够,需要密度约束。

**基于模型的RL中的密度正则化。** 使用核密度估计器的方法,如OGSRL(Yan 等, 2025)和CORMPO(Tumay 等, 2025),已被证明在抑制OOD策略方面取得了成功。然而,核密度估计器在高维环境中表现力不足。对于MBPO,在稀疏状态-动作领域中,使用富有表现力的生成式模型进行过渡展开的密度正则化至关重要。

**生成式密度估计器。** 生成式密度估计通过三种主要方法论范式取得了进展。首先,归一化流(Rezende 和 Mohamed, 2015)通过一系列可逆变换从简单基础度量构建复杂分布,便于精确似然评估。其次,扩散和基于分数的生成模型(Song 等, 2021)通过前向噪声注入和学习的逆向过程对分布进行建模。最近的迭代版本,如改进的DDPM(Ho 等, 2020)和EDM(Karras 等, 2022),进一步优化了对数似然估计和样本保真度。为了解决高维数据的计算成本,潜在扩散模型(Rombach 等, 2022)和自回归方法(Xu 等, 2025)将生成过程转移到压缩的潜在空间中。第三,高容量骨干网络,如ViT(Dosovitskiy 等, 2021)和DiT(Peebles 和 Xie, 2023),在建模复杂流形方面取得了显著成功。当与连续时间框架(如神经ODE,Chen 等, 2018)结合时,它们为捕捉时间轨迹的潜在动力学提供了强大的归纳偏差。最近,统一框架如流匹配(Lipman 等, 2023)和一步法(如MeanFlow,Geng 等, 2026),试图调和流方法与扩散方法,在保持表现力密度估计的同时显著加速推理。然而,尽管生成式模型的各个类别已被孤立地应用,例如扩散用于规划(Janner 等, 2022;Wang 等, 2023)或归一化流用于策略约束(Akimov 等, 2022),但针对基于模型离线RL中OOD检测的现代密度估计器的系统评估仍未被探索。

## 3 方法论

图2:GORMPO系统图。我们通过生成式OOD正则化(红色模块)增强MBPO(蓝色模块)。我们采样动作 a_t,使用预训练的动力学模型预测下一个状态 ŝ_{t+1} 和奖励 r̂_t。然后,我们在预训练的生成式密度估计器下计算 (ŝ_{t+1}, a_t) 的似然,并在低密度区域惩罚 r̂_t,产生 r̃_t。最后,我们将 (s_t, a_t, r̃_t, ŝ_{t+1}) 存储到生成数据缓冲中。

我们提出GORMPO,一种基于生成式密度估计器的OOD正则化方法,用于基于模型的RL(见图2和附录A中的算法伪代码)。在本节中,我们阐述问题并详细说明GORMPO的组成部分。

### 3.1 问题设定

#### 马尔可夫决策过程。
我们将我们的设定建模为马尔可夫决策过程(MDP),由元组 \(\mathcal{M} = (\mathcal{S}, \mathcal{A}, T, r, \mu_0, \gamma)\) 定义,其中状态空间为 \(\mathcal{S}\),动作空间为 \(\mathcal{A}\),转移动力学为 \(T: \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\mathcal{S})\),奖励函数为 \(r(s,a): \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}\),初始状态分布为 \(\mu_0\),折扣因子为 \(\gamma \in (0,1)\)。RL算法旨在寻找一个策略 \(\pi: \mathcal{S} \rightarrow \mathcal{A}\),使得期望累积折扣奖励最大:\(\mathbb{E}_{\pi, s_0 \sim \mu_0} \left[ \sum_{t=0}^{\infty} \gamma^t r(s_t, a_t) \right]\),其中 \(s_0\) 是初始状态。最优策略定义为:
\[
\pi^* = \arg\max_{\pi} \mathbb{E}_{\pi, s_0 \sim \mu_0} \left[ \sum_{t=0}^{\infty} \gamma^t r(s_t, a_t) \right].
\]
(1)

**离线RL设定**是指算法只能访问由行为策略收集的环境数据集 \(\mathcal{D}_{\text{env}} = \{(s, a, r, s')\}_{t=1}^N\),且无法与环境交互。

#### 密度估计器的公式化。
我们的密度估计目标是概率性地建模**下一个状态 + 动作**对的密度。我们的生成式模型学习一个近似 \(p_\theta(x_t)\) 的密度,其中 \(x_t = (s_{t+1}, a_t)\) 在时刻 t,通过在训练样本上最大化期望对数似然:
\[
\max_{\theta} \; \mathbb{E}_{x_t \sim \mathcal{D}_{\text{env}}} \big[ \log p_\theta(x_t) \big].
\]
通过这样做,模型能够估计在学习的动力学分布下,候选的下一个状态和动作对的可能性有多大。

### 3.2 离线RL的基于密度的守护者

我们的目标是学习一个策略 \(\pi\),以最大化在真实MDP \(\mathcal{M} = (\mathcal{S}, \mathcal{A}, T, r, \mu_0, \gamma)\) 下的期望回报。我们将在真实动力学下的价值函数记为 \(V_{\mathcal

相似文章

Hölder策略优化

Hugging Face Daily Papers

HölderPO 引入了一种通用策略优化框架,利用 Hölder 均值进行 GRPO 中的词元级概率聚合,并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果(平均 54.9%,相对 GRPO 提升 7.2%),并在 ALFWorld 上实现了 93.8% 的成功率。

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。