深度强化学习何时能击败经过校准的基线？关于自适应资源控制的基准研究

arXiv cs.LG 2026/05/27 04:00 论文

摘要

一项基准研究发现，经过校准的基于规则的自动扩缩器在所有测试工作负载上成本均优于六种主流深度强化学习算法，而深度强化学习仅在突发流量模式中表现出更高成本下的优势。该论文提出了RLScale-Bench以改进评估协议和可复现性。

arXiv:2605.26418v1 公告类型：新摘要：一个经过适当校准的基于规则的自动扩缩器可以在我们测试的每一个工作负载上，在成本方面击败六种主流深度强化学习算法——那么，深度强化学习究竟何时（如果有的话）才能真正发挥作用？我们在RLScale-Bench中对此进行了研究，这是一个用于自适应资源控制的深度强化学习可复现基准测试和评估协议，其中智能体在成本和服务级别约束下将计算资源分配给动态工作负载。我们在匹配的架构、训练预算和奖励函数下，对PPO、DQN、A2C、SAC、TD3和DDPG进行了评估，并与经过校准的基于规则的基线在六种工作负载模式和五种随机种子（共240次运行）下进行了比较，在Kubernetes水平Pod自动缩放上实例化了基准测试，并探究了分布偏移的泛化能力。三个发现挑战了常见假设：（i）经过校准的控制器在所有六种工作负载上实现了最低成本，但在突发流量和闪电流量上落后于最佳的强化学习智能体；（ii）由于动作空间不匹配，离散动作算法在违反约束方面比连续动作算法好一到两个数量级；（iii）没有一种算法在所有工作负载上占据主导地位，排名变化最多可达四个位置。基于强化学习的资源控制的瓶颈不是算法选择，而是基准校准、奖励工程和现实的评估协议。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:10

# 深度强化学习何时能超越调优后的基线方法？——自适应资源控制基准研究
来源：https://arxiv.org/html/2605.26418

###### 摘要

一个经过适当调优的基于规则的自动缩放器，在所有测试的工作负载上，成本端均能击败六种主流深度强化学习（DRL）算法——那么，深度强化学习到底何时（如果有的话）能真正发挥作用？我们通过RLScale-Bench对这一问题进行了研究。RLScale-Bench是一个用于DRL在自适应资源控制任务上的可复现基准测试与评估协议。在该任务中，智能体需要在成本和服务水平约束下为动态工作负载分配计算资源。现有文献中，关于无模型强化学习是否优于精心调优的基于规则的控制器，存在着相互矛盾的论断——单随机种子实验、未调优的基线方法以及不一致的训练预算使得跨研究比较变得混乱。我们在匹配的网络架构、训练预算和奖励函数下，评估了PPO、DQN、A2C、SAC、TD3和DDPG六种算法，并与一个经过适当调优的基于规则的基线方法进行对比，覆盖六种工作负载模式和五个随机种子（共240次运行）。我们将该基准实例化到Kubernetes水平Pod自动缩放场景中，并通过在一种工作负载上训练、在五种偏移分布上部署的方式，探究分布偏移下的泛化能力。三个发现挑战了常见假设：(i) 经过调优的基于规则控制器在所有六种工作负载上实现了最低成本，并且在稳态流量下零违规，但在突发和闪崩模式上落后于最佳RL智能体；(ii) 由于动作空间不匹配，离散动作算法在约束违规方面比连续动作算法好一到两个数量级；(iii) 没有任何单一算法在所有工作负载类型上占据主导，在稳态和突发流量之间的排名变化可达四位。在突发工作负载上——这应是RL的强项——PPO相比调优后的基线方法减少了54%的约束违规，但成本增加了24%，这表明基于RL的资源控制的瓶颈不在于算法选择，而在于基线校准、奖励工程和逼真的评估协议。

关键词： 强化学习，基准测试，自适应资源控制，基线校准，可复现性

## 1 引言

请参见图1的说明。图1：RLScale-Bench流水线。六个阶段体现了我们的贡献：匹配的RL智能体（C1）、调优后的HPA基线（C2）、5种子训练和240次运行评估（C3）、在五种偏移工作负载上的部署（C4），以及三个反直觉发现（C5）。

自适应资源控制——在满足成本和服务水平约束的前提下，为动态工作负载分配计算资源——是一个典型的决策问题，它结合了基于历史轨迹的离线训练和针对动态流量模式的在线自适应。已有越来越多的研究工作将深度强化学习应用于该问题（Rossi等人，2019；Qiu等人，2020；Wang等人，2022；Toka等人，2021），通常是将单个RL算法与一个简单的基于规则的控制器在一种或两种工作负载模式上进行对比。然而，不同研究的结论差异显著：有些报告称RL可降低30%的成本，另一些则认为基于规则的控制器仍具竞争力。这种不一致性阻碍了进展：缺乏一个共享的评估协议，从业者无法判断哪些算法进步是真实的。

我们将这种不一致性追溯至当前实践中的三个缺口：

(1) **未调优的基线方法**。基于规则的控制器（如阈值驱动的自动缩放器）具有可调参数（目标利用率、冷却窗口），这些参数严重影响性能。当RL研究将一个未调优的基线方法作为比较对象时，表面的改进可能反映的是基线的弱势而非算法的增益（Dulac-Arnold等人，2021）。

(2) **单随机种子报告**。DRL训练在不同随机种子间存在高方差，许多报告中的改进实际上落在单一方法自身的噪声范围内（Henderson等人，2018；Islam等人，2017；Agarwal等人，2021）。没有跨种子的误差线，基准排名是不可靠的。

(3) **狭窄的工作负载覆盖**。大多数研究只评估一种或两种流量模式，通常是来自单一部署的日间或突发轨迹。由于工作负载特性与缩放策略之间存在强烈交互，狭窄的覆盖范围得出的结论无法推广到其他部署。

我们通过RLScale-Bench来解决这些缺口。该基准遵循Agarwal等人（2021）倡导的可复现评估原则，并将其扩展到现实世界的决策制定场景。我们将该基准实例化到Kubernetes水平Pod自动缩放——一个在大规模生产环境中部署的经典自适应资源控制问题（Kubernetes Authors，2024；Burns等人，2016）——并发布一个开源模拟器、训练好的模型和评估数据。我们的贡献包括：

- **C1.** 自适应资源控制的**基准测试与评估协议**，在PPO、DQN、A2C、SAC、TD3和DDPG之间匹配网络架构（[256,256] MLP）、训练预算（50K步）和奖励函数，消除了实现选择带来的混淆因素。
- **C2.** 一个**调优后的基于规则的基线**方法，针对实际生产环境进行调优（70%目标利用率），作为一个强比较对象而非稻草人。
- **C3.** 在5个随机种子和6种工作负载模式（常量、周期、可变、突发、斜坡、闪崩）下进行**统计严谨的评估**，共240次评估运行，并全程报告误差线。
- **C4.** 一个**分布偏移泛化研究**，在可变工作负载上训练智能体，并在五种偏移工作负载上进行部署，揭示哪些算法能自适应、哪些会崩溃。
- **C5.** 三个**反直觉发现**：(i) 调优后的基线在所有六种工作负载上实现了最低成本；(ii) 由于动作空间不匹配，离散动作算法在性能上比连续动作算法高出数个数量级；(iii) 没有任何单一RL算法在所有工作负载上占据主导。

这些发现挑战了决策制定文献中的一个普遍假设，即深度RL能够直接胜过基于规则的控制。我们认为，进展需要超越算法新颖性，转向奖励工程、环境校准以及反映现实世界部署挑战的评估协议——这正是本基准旨在支持的主题。

## 2 相关工作

#### 面向现实世界控制的决策制定基准。

越来越多的工作呼吁建立评估协议，以反映在现实、序列决策环境中部署RL所面临的挑战。Agarwal等人（2021）认为，深度RL基准中的单种子结果在统计上不可靠，并提出了分层自助法用于置信区间。Henderson等人（2018）表明，超参数选择、随机种子和实现细节可以翻转算法排名，一些报告中的增益落在单一方法的方差之内。Dulac-Arnold等人（2021）指出，弱基线是应用RL中的一个系统性问题。我们的基准将这些经验应用于自适应资源控制，在一个协议中结合了匹配的训练预算、多个种子和分布偏移评估。

#### 面向云和容器资源管理的RL。

RL在云资源管理中的应用日益复杂。Rossi等人（2019）将Q学习应用于水平与垂直容器缩放。Qiu等人（2020）提出了FIRM，用于在SLO约束下进行细粒度微服务资源管理。Wang等人（2022）引入了DeepScaling，用于大规模生产系统中的稳定CPU利用率。Toka等人（2021）将机器学习应用于Kubernetes边缘集群缩放；Zhang等人（2025a）开发了一个GPU感知的Kubernetes模拟器，并采用基于PPO的自动缩放，展示了相比仅考虑CPU的基线有75%的奖励提升；Garí等人（2021）对基于RL的云自动缩放领域进行了更广泛的调研。这些研究通常将一两种RL算法与一个粗略调优的基于规则控制器在狭窄的工作负载范围内进行比较；由于网络架构、训练预算和基线配置差异很大，跨研究比较十分困难。我们的匹配预算、多算法、多工作负载协议正是为了消除这些混淆因素而设计的。

#### 基于规则的自动缩放作为基线。

Kubernetes HPA根据观察到的CPU或自定义指标调整副本数量（Kubernetes Authors，2024），而KEDA（KEDA Authors，2024）通过外部源的事件驱动缩放扩展了HPA。虽然基于规则的控制器常被斥为“简单”，但我们表明，一个经过适当调优的HPA是一个令人惊讶的强比较对象——这与Booth等人（2023）的观察一致，即奖励设计不当和基线弱势会导致应用RL中产生误导性比较。

#### 分布偏移泛化。

现实世界RL部署的一个核心挑战是从训练分布泛化到偏移的部署条件——这一关切推动了离线到在线RL文献以及更广泛的关于分布偏移的研究。我们并未严格研究离线到在线RL（从固定离线数据集初始化并在线微调）；相反，我们通过在模拟中基于单一工作负载（*variable*）对每个智能体进行在线训练，然后不经重训练直接将其部署到五种偏移分布上来评估分布偏移泛化。我们发现，训练阶段表现最好的算法很少是部署阶段表现最佳的，这一发现与关于应用RL中分布偏移的更广泛观察相呼应。

#### RL基础设施与环境。

Gymnasium（Brockman等人，2016）和Stable-Baselines3（Raffin等人，2021）提供了标准化的环境和算法实现。微服务基准测试如DeathStarBench（Gan等人，2019）提供了真实的工作负载，但缺少集成的RL评估框架。据我们所知，RLScale-Bench是首个将逼真的自适应资源控制环境、匹配预算的多算法评估以及显式的分布偏移评估结合在单一协议中的基准。

## 3 基准设计

图1总结了基准的端到端流程；本节详细说明每个阶段。

### 3.1 环境

我们将自适应资源控制实例化为一个遵循Gymnasium接口（Brockman等人，2016）的马尔可夫决策过程（MDP），并使用Kubernetes水平Pod自动缩放作为具体的测试平台。智能体为一个处理动态请求流的服务分配计算资源（Pod副本），同时考虑基础设施成本和服务水平约束。我们选择在Kubernetes上实例化该基准以确保生产环境的逼真性——遵循先前基于模拟评估RL自动缩放器的工作（Zhang等人，2025a，b）——但该抽象广泛适用于云调度、数据库配置和边缘推理部署。

#### 状态空间。

在每个决策步骤，智能体观察一个6维状态向量：$s_t = [\text{CPU}_t, \text{Mem}_t, \text{QPS}_t, p95_t, \text{ErrRate}_t, \text{Replicas}_t]$，其中 $\text{CPU}_t \in [0,100]$ 是CPU利用率（%），$\text{Mem}_t \in [0,512]$ 是内存使用量（MB），$\text{QPS}_t$ 是当前请求率，$p95_t$ 是第95百分位延迟（ms），$\text{ErrRate}_t \in [0,1]$ 是错误率，$\text{Replicas}_t \in [1,10]$ 是当前副本数量。

#### 动作空间。

动作空间为 `Discrete(5)`，表示副本数量变化：$a_t \in \{-2, -1, 0, +1, +2\}$。这反映了物理资源分配的一个基本约束——副本是不可分割的单元，这是许多现实世界控制问题（虚拟机分配、数据库分片、硬件加速器）所共有的属性。对于连续动作算法（SAC、TD3、DDPG），我们应用了一个 `DiscreteToBoxWrapper`，将 `Box(-1,1)` 映射到 `Discrete(5)`，映射时使用均匀分箱边界 $[-0.6, -0.2, 0.2, 0.6]$。

#### 奖励函数。

奖励在基础设施成本与SLO合规性之间取得平衡：

$$
r_t = -\bigl( \underbrace{c_{\text{rep}} \cdot \text{Replicas}_t}_{\text{成本}} + \lambda \cdot \underbrace{\mathbb{1}[\text{SLO violated}]}_{\text{惩罚}} \bigr)
$$

其中 $c_{\text{rep}} = 0.01$ 美元每副本每步，$\lambda = 1.0$ 控制SLO违反惩罚。我们基于经验边界，通过最小-最大缩放将奖励归一化到 $[-1,0]$，这有助于所有六种算法的训练稳定性。

#### 工作负载生成器。

我们实现了六种工作负载模式，覆盖生产流量的多样性（表1）：

表1：工作负载类型及其特征。

### 3.2 算法

我们评估来自Stable-Baselines3（Raffin等人，2021）的六种DRL算法，涵盖三个家族：

- **同策略、离散**：PPO（Schulman等人，2017）、A2C（Mnih等人，2016）
- **异策略、离散**：DQN（Mnih等人，2015）
- **异策略、连续**：SAC（Haarnoja等人，2018）、TD3（Fujimoto等人，2018）、DDPG（Lillicrap等人，2016）

所有算法使用：(i) 相同的MLP架构，两个隐藏层，每层256个单元；(ii) 在 *variable* 工作负载上训练50,000步的训练预算；(iii) 每种算法5个随机种子以获得统计稳健性。算法特定的超参数（学习率、批量大小、缓冲区大小）遵循Stable-Baselines3的默认值，除附录中注明的情况外。

### 3.3 基线

#### 调优后的基于规则控制器（HPA）。

我们实现了符合生产环境的Kubernetes水平Pod自动缩放器，目标CPU利用率为70%：$\text{desired} = \lceil \text{current} \times (\text{CPU}/70) \rceil$，裁剪到

深度强化学习何时能击败经过校准的基线？关于自适应资源控制的基准研究

相似文章

深度强化学习中的安全探索基准测试

弥合反思差距：智能体强化学习中的免费校准奖励

自信扩展：针对自适应测试时间缩放的LLM置信度校准

从静态上下文到校准的交互式强化学习：通过对齐模拟器缓解多轮对话中的分布偏移

必须快速学习：强化学习泛化能力的新基准

提交意见反馈