深度强化学习中的性能变异
摘要
本文指出了深度强化学习中传统不确定性估计的局限性,并提出基于百分位数的统计量和可视化方法,以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。
arXiv:2606.06746v1 Announce Type: new
摘要:深度强化学习(RL)算法通常面临运行间鲁棒性低的问题,表现为相同配置的智能体在独立运行中性能差异显著。尽管这一问题在研究和实践中带来诸多挑战,但针对其评估方法的研究相对较少;RL研究反而经常报告估计平均性能中的不确定性。本文概述了传统不确定性和变异估计的局限性,特别是它们与目的的不一致以及低估风险。随后,我们提出了一种基于百分位数的替代统计量和可视化方法,分别为min-max IPR和逐运行百分位高亮。这些基于百分位数的工具易于解释,依赖于样本百分位数的标准性质,能提供丰富的运行间性能变异信息。我们通过三个案例研究进行了验证。首先,我们展示LayerNorm和倒数第二层归一化缩小了PPO的性能变异,而SAC的变异基本不变。其次,我们比较了PPO、SAC、TD-MPC和TD-MPC2,结果显示TD-MPC在四个算法中变异最小且数据效率最高。最后,在五个Atari环境上对比DQN和Rainbow,我们发现两种算法的性能变异水平相似。
查看缓存全文
缓存时间: 2026/06/08 09:18
# 深度强化学习中的性能变化 来源:https://arxiv.org/html/2606.06746 \name Haruto Tanaka\email [email protected] \addr 阿尔伯塔大学计算机科学系 阿尔伯塔机器智能研究所(Amii) \name A. Rupam Mahmood\email [email protected] \addr 阿尔伯塔大学计算机科学系 阿尔伯塔机器智能研究所(Amii) CIFAR AI 主席 ###### 摘要 深度强化学习(RL)算法常常面临较低的运行间鲁棒性,表现为相同配置的智能体在不同独立运行中性能差异显著。尽管这一问题在研究和实践中带来了一系列挑战,但很少有研究开发出评估它的方法;RL研究反而经常报告估计平均性能的不确定性。在本文中,我们概述了传统不确定性和变异性估计的局限性,特别是它们与目标的不匹配以及可能低估的风险。然后,我们提出了一种基于百分比的替代统计量和可视化方法,分别称为min-max IPR和逐运行百分比高亮。这些基于百分比的工具易于解释,并依赖于样本百分位数的标准性质,提供了关于运行间性能变化的丰富信息。我们通过三个案例研究来展示这一点。首先,我们展示了LayerNorm和倒数第二层归一化在PPO中缩小了性能变化,而在SAC中变化基本不变。其次,我们比较了PPO、SAC、TD-MPC和TD-MPC2,发现TD-MPC在四个算法中表现出最小的变化,同时数据效率最高。最后,在五个Atari环境中比较DQN和Rainbow时,我们表明两种算法表现出相似水平的性能变化。111代码和数据可在https://github.com/WINUprj/eval-perf-variation获取。 关键词:深度强化学习,性能变化,评估 ## 1 引言 尽管深度强化学习(RL)算法以学习复杂行为而闻名(例如,Mnih et al., 2015 (https://arxiv.org/html/2606.06746#bib.bib98); Bellemare et al., 2020 (https://arxiv.org/html/2606.06746#bib.bib13); Wurman et al., 2022 (https://arxiv.org/html/2606.06746#bib.bib12); Haarnoja et al., 2024 (https://arxiv.org/html/2606.06746#bib.bib10)),但它们也因在设置细微变化时表现不同而臭名昭著。在这里,我们专门考虑深度RL算法的在线学习变体,并让**性能**表示单次运行中所有在线回合的平均回报。一系列组件可能触发性能差异,包括深度神经网络的设计、独立运行、超参数配置、环境或学习动态中的随机性、硬件规格(Hausknecht and Stone, 2015 (https://arxiv.org/html/2606.06746#bib.bib89); Henderson et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib14))以及实时学习系统中的延迟(Mahmood et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib68))。 (a) 监督学习 引用caption (b) 测试准确率 引用caption (c) 测试损失 (d) 强化学习 引用caption (e) DMC 引用caption (f) ALE 图1:标准监督学习(SL)(a & b)、连续深度RL (c)和离散深度RL (d)设置中的变化。前两个图分别展示了MLP在MNIST上100次独立运行的(a)测试准确率和ResNet-18在CIFAR-10上的(b)测试损失。Adam优化器的步长在第100个epoch从3×10⁻⁴衰减到3×10⁻⁵。第三和第四图分别展示了(c) PPO在pendulum-swingup上的回合回报以及(d) DQN在BattleZone上的标准化人类分数。每组曲线旁的数字是min-max IPR-90,我们提出的分散度量(越小越好,见第5节 (https://arxiv.org/html/2606.06746#S5))。所有曲线均使用RPH绘制(见第6节 (https://arxiv.org/html/2606.06746#S6))。与深度RL设置相比,SL设置相关的曲线表现出更低的性能变化。 特别是,独立运行间的性能敏感性严重阻碍了深度RL在研究和实际应用中的进展。在研究背景下,这种脆弱性导致结果难以复现(Islam et al., 2017 (https://arxiv.org/html/2606.06746#bib.bib46))、算法间难以公平比较(Clary et al., 2019 (https://arxiv.org/html/2606.06746#bib.bib48))以及超参数调优困难(Eimer et al., 2023 (https://arxiv.org/html/2606.06746#bib.bib44); Hertel et al., 2020 (https://arxiv.org/html/2606.06746#bib.bib45))。目前确保这些方面严谨性的最佳实践是进行足够数量的独立试验(Colas et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib47); Eggensperger et al., 2019 (https://arxiv.org/html/2606.06746#bib.bib55); Patterson et al., 2024 (https://arxiv.org/html/2606.06746#bib.bib6))。然而,此类过程需要大量计算资源,从而对从大规模实验中产生科学可靠的证据设置了高门槛。独立运行中类似彩票的行为也严重削弱了深度RL驱动系统在实际任务中的实用性。无效的行为不仅徒劳无功,而且如果任务需要严格的安全措施,还可能带来安全隐患。这种现实世界的风险是为什么在线深度RL中的性能变异性相比,例如,监督学习(SL)或离线RL中的训练结果变异性更重要的主要原因之一。SL训练通常离线进行,有效减少了训练结果不佳的风险。此外,SL往往表现出较小的变异性,这降低了研究其跨运行性能变异性的重要性,正如我们在图1 (https://arxiv.org/html/2606.06746#S1.F1) 的结果中所展示的(更多示例和实验细节见附录E (https://arxiv.org/html/2606.06746#A5))。尽管如此,单个任务上跨独立运行的性能敏感性——我们称之为**性能变化**——值得为进一步开发深度RL算法进行更多研究。 尽管性能变化很重要,但在深度RL的实证研究中常常被忽视。这归因于许多近期工作侧重于整体改进所提方法相对于基线的聚合性能。这种趋势鼓励许多工作仅仅报告跨多个任务的聚合性能的不确定性。最流行的不确定性度量之一是通过自助法得到的四分位数间均值(IQM)的置信区间(Agarwal et al., 2021 (https://arxiv.org/html/2606.06746#bib.bib4))。尽管外观相似,置信区间和其他不确定性估计并不是变异性的度量(第3节 (https://arxiv.org/html/2606.06746#S3))。它们也出现在跨越许多任务的算法性能的严格比较中。因此,许多深度RL实证研究忽略了单个任务中的性能变化。有些工作报告标准差作为性能变化的度量(例如,Liang et al., 2016 (https://arxiv.org/html/2606.06746#bib.bib95); Bjorck et al., 2022 (https://arxiv.org/html/2606.06746#bib.bib3))。然而,我们认为,由于现代深度RL算法所学控制策略的性能分布具有特定特性,报告标准差来反映数据变异性存在低估风险,并会导致不准确的数据总结(第4节 (https://arxiv.org/html/2606.06746#S4))。此外,已经有统计上严格的方法用于度量性能变化,例如性能分布曲线和容忍区间(TIs)(Agarwal et al., 2021 (https://arxiv.org/html/2606.06746#bib.bib4); Patterson et al., 2024 (https://arxiv.org/html/2606.06746#bib.bib6))。虽然统计上严格的方法通常稳健且准确,但它们也常常成本高昂且难以解释(第5节 (https://arxiv.org/html/2606.06746#S5))。因此,需要能够准确捕捉单个任务上性能变异性的评估工具,同时保持易于解释性。 在本文中,我们提出了在捕捉深度RL性能变化方面实现准确性与可解释性之间适当平衡的量化与可视化方法。特别地,我们主张**min-max IPR-90**——即从第5个百分位数到第95个百分位数的最小-最大归一化百分位数间距(IPR)——是性能变化的一种实用且可靠的量化方法。我们讨论了min-max IPR-90比标准差更能稳健地捕捉性能变化,同时比容忍区间等严格选项更易于解释(第5节 (https://arxiv.org/html/2606.06746#S5))。同时,我们还提出了一种名为**逐运行百分比高亮**(RPH)的学习曲线可视化方法。该可视化技术的核心思想是突出显示对应于性能第5、第50和第95百分位数的个体学习曲线。我们展示了RPH进一步阐明每条个体学习曲线的行为方式,并允许研究者轻松检查跨运行的性能变异性(第6节 (https://arxiv.org/html/2606.06746#S6))。然后,我们在三个案例研究中展示了min-max IPR-90和RPH的使用案例(第7节 (https://arxiv.org/html/2606.06746#S7))。在第一个案例研究中,我们分析了在PPO和SAC中应用LayerNorm、倒数第二层归一化或两者结合后性能变化的变化(Bjorck et al., 2022 (https://arxiv.org/html/2606.06746#bib.bib3))。使用我们提出的方法,我们展示了归一化技术缩小了PPO中的性能变化,而在SAC中基本保持不变。在第二个案例研究中,我们使用所有DeepMind控制套件(DMC)任务系统比较了四种深度RL算法:PPO、SAC、TD-MPC和TD-MPC2(Schulman et al., 2017 (https://arxiv.org/html/2606.06746#bib.bib8); Haarnoja et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib7); Hansen et al., 2022 (https://arxiv.org/html/2606.06746#bib.bib94), 2024 (https://arxiv.org/html/2606.06746#bib.bib97))。通过我们提出的方法进行比较,我们发现TD-MPC表现出最低的性能变化和最高的数据效率。第三个案例研究对两个离散控制算法——DQN和Rainbow(Mnih et al., 2015 (https://arxiv.org/html/2606.06746#bib.bib98); Hessel et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib99))——在Atari-5任务(Aitchison et al., 2023 (https://arxiv.org/html/2606.06746#bib.bib101))上重复了与第二个案例研究相同的过程。使用我们的方法,我们发现两种算法在某些任务中均表现出显著的性能变化。 ## 2 实验设置 为了说明和检验性能变化问题,我们主要使用两个机器人控制套件上的PPO和SAC算法(Schulman et al., 2017 (https://arxiv.org/html/2606.06746#bib.bib8); Haarnoja et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib7))。对于这两种算法,我们的实现基于CleanRL(Huang et al., 2022 (https://arxiv.org/html/2606.06746#bib.bib23))。我们使用了从Gymnasium的MuJoCo环境和DeepMind控制套件(DMC)中选择的59个任务环境作为测试平台(Todorov et al., 2012 (https://arxiv.org/html/2606.06746#bib.bib26); Tassa et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib27); Towers et al., 2025 (https://arxiv.org/html/2606.06746#bib.bib91))。具体来说,我们从MuJoCo中选择了11个任务,从DMC中选择了48个任务。所有任务的每个回合时间限制为1000步。除了时间限制外,每个MuJoCo环境还有自己的终止条件。本文所用任务的详细信息汇总在表LABEL:table:rl\_tasks中。请注意,我们没有使用并行环境,尽管有时会这样做(例如,Stooke and Abbeel 2019 (https://arxiv.org/html/2606.06746#bib.bib90); Li et al. 2023 (https://arxiv.org/html/2606.06746#bib.bib92); Lee et al. 2025 (https://arxiv.org/html/2606.06746#bib.bib29)),以更好地匹配现实世界的RL设置。对于每个任务,我们使用不同的随机种子进行100次独立运行。每次运行持续1000万环境步(PPO)和100万环境步(SAC)。算法的其他超参数见附录D中的表6 (https://arxiv.org/html/2606.06746#A4.T6) 和表7 (https://arxiv.org/html/2606.06746#A4.T7)。所有学习曲线为了视觉清晰进行了分箱处理(详情见附录A (https://arxiv.org/html/2606.06746#A1))。所有PPO和SAC分箱学习曲线的可视化见附录F (https://arxiv.org/html/2606.06746#A6)。 引用caption (a) reacher-hard 引用caption (b) walker-stand 引用caption (c) pendulum-swingup 图2:一些PPO实验的性能分布与变异性可视化。每个性能分布分别呈现近似高斯、单峰偏斜和双峰形状。垂直红线、粉线和橙线分别表示平均性能±标准误差、IQM的分层自助法95%置信区间以及平均性能±标准差所覆盖的范围。绿色盒形图代表IQR,须状线代表第5个与第95个百分位数之间的范围。与其他选项不同,盒形图稳健地覆盖了大部分数据范围。 ## 3 不确定性估计不捕捉性能变化 大量的深度RL研究侧重于所提算法相对于基线的聚合性能。这自然导致许多RL研究报告聚合性能的不确定性估计。例如,经常使用置信区间或标准误差(Henderson et al., 2018 (https://arxiv.org/html/2606.06746#bib.bib14); Agarwal et al., 2021 (https://arxiv.org/html/2606.06746#bib.bib4); Tang and Berseth, 2024 (https://arxiv.org/html/2606.06746#bib.bib96))。尽管它们很流行,但这些不确定性估计并不适合捕捉性能变化。直观地说,不确定性估计反映了样本与真实统计量之间可能的差异。例如,Agarwal等人 (2021 (https://arxiv.org/html/2606.06746#bib.bib4)) 提出的IQM的95%分层自助法置信区间是一个区间估计,表示总体IQM以一定的置信度所在的区间。尽管这些值提供了关于性能样本统计量的额外信息,但它们并不反映性能分布本身的分散程度。因此,按照设计,不确定性估计并不反映变异性。此外,随着独立运行次数的增加,不确定性估计会消失。例如,标准误差最终以O(1/√n)的速率收敛到零。作为变异性的度量,这是一个不受欢迎的性质,因为数据的分散程度与数据点的数量无关。此外,由于这个性质,不确定性估计器通常会标记出比变异性测量更小的值,如图2 (https://arxiv.org/html/2606.06746#S2.F2) 所示。每条实心红色、粉色和橙色垂直线分别代表标准误差、IQM的95%分层自助法置信区间以及标准差所覆盖的范围。从视觉上看,标准误差和置信区间仅覆盖了标准差覆盖范围的一个小子区间。相比之下,标准差覆盖了更宽的范围。
相似文章
通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。
通过参数噪声实现更好的探索
OpenAI 提出了参数噪声技术,该方法向神经网络策略参数添加自适应噪声,而不是向动作空间添加噪声,使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升,代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。
深度强化学习中的安全探索基准测试
OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架,并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件,这些任务包含安全约束。
近似下一策略采样:在深度强化学习中替代保守目标策略更新
本文引入了近似下一策略采样(ANPS)作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代(SV-API)和 SV-RL,通过将训练数据与下一策略的状态分布对齐,从而实现更大且更安全的策略更新。
突破熵界:通过带拒绝采样的多 token 预测加速 RL 训练
Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。