近似下一策略采样：在深度强化学习中替代保守目标策略更新

arXiv cs.LG 2026/05/08 04:00 论文

摘要

本文引入了近似下一策略采样（ANPS）作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代（SV-API）和 SV-RL，通过将训练数据与下一策略的状态分布对齐，从而实现更大且更安全的策略更新。

arXiv:2605.05481v1 公告类型：新文章摘要：我们重新审视了强化学习中的一个经典“鸡生蛋还是蛋生鸡”问题：为了安全地改进策略，价值函数必须在更新后策略的状态访问分布上是准确的。然而，该状态分布是未知的，无法为了训练价值函数而对其进行采样。保守更新解决了这一问题，但代价是缩小了策略更新的幅度。本文探讨了一种替代方案——近似下一策略采样（ANPS），它通过修改训练分布而不是约束策略更新来解决该问题。如果训练数据的分布能够近似下一策略的分布，则满足 ANPS 条件。为了证明 ANPS 的可行性和有效性，我们引入了稳定值近似策略迭代（SV-API）。SV-API 修改了标准的近似策略迭代循环，在目标策略保持不变的情况下，由迭代更新的行为策略收集相关经验。它仅在满足收敛条件时才提交新策略。如果满足某些稳定性标准，则保证更新是安全的；否则，其安全性不低于标准近似策略迭代。将 SV-API 应用于 PPO 得到了稳定值 PPO（SV-PPO），它在高维离散（Atari）和连续控制基准测试中匹配或提升了性能，同时执行了大幅更大的目标策略更新。这些结果证明了 ANPS 作为解决这一经典 RL 挑战的新方案的可行性。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:31

# 替代深度强化学习中的保守目标策略更新

来源: https://arxiv.org/html/2605.05481
近似下一策略采样：替代深度强化学习中的保守目标策略更新

Dillon Sandhu, Ronald Parr

关键词：基础理论，策略改进

摘要：保守的策略更新（策略空间中的微小变化）是现代大多数强化学习算法的核心组成部分。其根源可追溯到一个经典的策略改进“鸡生蛋”问题：为了安全地改进策略，价值函数必须在更新后策略的状态访问分布上是准确的，但这一分布在训练期间是未知的。为了解决这个问题，保守方法会限制策略更新——旨在确保更新后的状态访问分布与训练数据保持相似。本文探讨了一种替代方案，我们称之为**近似下一策略采样**（Approximate Next Policy Sampling, ANPS）：将训练数据调整为与未来策略的状态分布相似。ANPS 旨在提高对策略更新最重要的状态的价值函数估计。相比之下，保守更新会限制策略停留在价值函数估计已被认为可靠的地方。我们提出了**稳定价值近似策略迭代**（Stable Value Approximate Policy Iteration, SV-API），这是对标准近似策略迭代算法的一种轻量级修改，实现了 ANPS。SV-API 保持目标策略固定，同时通过迭代更新的行为策略收集相关经验，仅在价值估计稳定后才提交策略更新。在高维离散（Atari）和连续控制任务上，SV-API 的表现不低于甚至优于现有方法，同时实现了更大幅度的目标策略更新。这证明了 ANPS 作为解决强化学习中这一经典挑战的替代方案的可行性。

贡献点：
1. 提出了近似下一策略采样（ANPS）：作为一种替代保守策略更新的方法，它明确地将训练分布与下一策略的状态访问分布对齐——而不是限制策略更新。
   背景：在实现上，ANPS 允许无约束的目标策略更新，但必须限制行为策略的更新。
2. 一个通用界限（定理 3.3 (https://arxiv.org/html/2605.05481#S3.Thmtheorem3)），隔离了下一策略分布的重要性。这表明为什么保守更新只是解决 kakade_and_langford:CPI 提出的分布不匹配问题的一种可能解决方案。
   背景：该界限直接源于性能差异引理（Performance Difference Lemma）。
3. 一个界限（定理 4.3 (https://arxiv.org/html/2605.05481#S4.Thmtheorem3)），证明我们的算法通过控制训练误差和行为分歧来保证策略改进。
   背景：与标准的相关界限（kakade_and_langford:CPI, pmlr-v37-schulman15）一样，它假设价值误差是有界的，这在深度强化学习中并不总是能保证的。
4. 一个实用的包装器（SV-RL），适用于标准的在线强化学习算法（例如，PPO），通过解耦行为策略和目标策略来实现 ANPS。我们提供了实证证据，表明这使得算法能够固定目标策略、收集相关数据并安全地执行更大的策略跳跃。
   背景：SV-RL 是 ANPS 的初步实现。它依赖于一个代理指标（价值估计的稳定性）来确定价值函数是否足够准确以更新目标策略。此外，由于引入了单独的行为策略，它需要离策略评估。

###### 摘要

我们重新审视了强化学习中的一个经典“鸡生蛋”问题：为了安全地改进策略，价值函数必须在更新后策略的状态访问分布上是准确的。然而，这一状态分布是未知的，且无法为了训练价值函数而进行采样。保守更新解决了这个问题，但代价是缩小了策略更新的幅度。本文探索了一种替代解决方案，即近似下一策略采样（ANPS），它通过修改训练分布而不是限制策略更新来解决这一问题。如果训练数据的分布近似于下一策略的分布，则 ANPS 得以满足。为了展示 ANPS 的可行性和有效性，我们引入了稳定价值近似策略迭代（SV-API）。SV-API 修改了标准的近似策略迭代循环，在迭代更新的行为策略收集相关经验的同时保持目标策略固定。它仅在满足收敛准则后才提交新策略。如果满足某些稳定性准则，更新被保证是安全的；否则，其安全性不低于标准近似策略迭代。将 SV-API 应用于 PPO 产生了稳定价值 PPO（SV-PPO），它在高维离散（Atari）和连续控制基准测试中匹配或提升了性能，同时执行了更大幅度的目标策略更新。这些结果证明了 ANPS 作为解决强化学习中这一经典挑战的新方案的可行性。

## 1 引言

策略迭代（Policy Iteration）(howard:dp) 长期以来一直是精确马尔可夫决策过程（MDP）算法中的“重型武器”，通常能在令人震惊的极少迭代次数内解决可以放入内存的 MDP。然而，将策略迭代与价值函数近似相结合，却破坏了策略迭代有效性的根本原因：单调的策略改进。各种强制每次迭代之间策略微小变化的机制已成为缓解此问题的广泛采用手段。本文提出了一种新颖的替代方案，即使在其最简单的实现中，也显示出希望。

价值函数近似误差可能导致下一策略比当前策略更差 (bertsekas1996neuro)。即使在使用在其训练集上最小化误差的“良好表现”的函数近似器时，这个问题也可能出现——事实上，这种行为本身就是问题的一部分。在当前策略下很少访问的状态可能具有高的近似误差，这可能导致在这些状态下对策略产生有害的改变。由于其他状态下的策略变化，新策略可能会频繁访问这些状态。结果是性能下降。理想情况下，且有些反直觉的是，训练当前 Q 值的最佳分布是**下一策略**的分布，但在为当前策略学习 Q 函数时，这通常不可用，从而造成了“鸡生蛋”的问题。

kakade_and_langford:CPI 引入了**保守策略迭代**（conservative policy iteration）作为处理此问题的一种方法。他们证明，通过限制策略变化，当前策略和下一策略的分布将非常接近，从而最小化了这一问题。后续工作 TRPO (pmlr-v37-schulman15) 将保守策略更新调整为演员-评论家（actor-critic）算法，其中 kakade_and_langford:CPI 的结果在 TRPO 更新推导中起着核心作用。PPO 旨在通过使用裁剪这一高效启发式方法 (schulman2017proximalpolicyoptimizationalgorithms) 来模拟 TRPO。其他现代强化学习算法也正则化策略的变化，以确保策略停留在假设 Q 值更可靠的区域 (mpo, museli)。

本文探讨了分布不匹配问题的另一种方法：而不是限制策略更新，我们的方法主动调整数据收集以匹配下一策略。我们称之为**近似下一策略采样**（Approximate Next Policy Sampling, ANPS）。由于价值函数被训练为最小化采样状态上的误差，ANPS 导致对下一策略将访问的状态（大致）产生更可靠的价值估计。如果 ANPS 成功采样了真实下一策略访问的状态，并且价值学习方法能够降低这些采样状态上的误差，那么它就解决了“鸡生蛋”问题。我们提出并分析了一种对齐分布的迭代方法，该方法可以作为对现有算法的适度修改来实现。我们表明，这一理念作为保守策略更新的有效替代方案是可行的——在某些情况下甚至超过了保守策略更新的性能。

### 1.1 相关工作

标准近似策略迭代（Approximate Policy Iteration, API）(bertsekas1996neuro) 计算相对于固定策略 $\pi_k$ 的 Q 函数估计的贪婪策略。不幸的是，无法保证每一步的策略改进，这意味着近似贪婪策略 $\pi_{k+1}$ 的性能可能比 $\pi_k$ 更差。因此，该算法可能不会收敛到局部最优策略。由于贪婪策略更新是不连续的，它可能导致状态分布的大幅偏移 (perkins_2002)。

更柔和的策略更新步骤是解决此问题的最广泛使用的解决方案。使用随机策略，并使其平滑变化。例如，带有函数近似的策略梯度方法 (Sutton2000) 通过在策略空间中使用无穷小步骤来避免分布不匹配问题。当策略变化是无穷小时，性能的变化不依赖于新的状态访问分布，而只依赖于当前策略的分布。

保守策略更新 (kakade_and_langford:CPI, pmlr-v37-schulman15) 允许离散的、非无穷小的跳跃。保守策略更新的主要原因是对于与 $\pi_{k+1}$ 相关联的状态分布下的价值函数缺乏信任。

我们引入的近似下一策略采样（ANPS）方案并不试图确保 $\pi'$ 具有与 $\pi$ 相似的分布。相反，ANPS 解耦目标策略和行为策略。给定一个预期的下一策略 $\tilde{\pi}$，ANPS 直接对其进行采样以估计在 $d^{\tilde{\pi}}$ 上的性能。这将“小策略变化”的要求从目标策略转移到了采样策略，允许在策略空间中进行更大的跳跃， reminiscent of 经典策略迭代的大幅跳跃。

## 2 预备知识

我们考虑由元组 $(S, A, P, r, \gamma, s_0)$ 定义的马尔可夫决策过程（MDP），其中 $S$ 是状态空间，$A$ 是动作空间，$P: S \times A \to \Delta(S)$ 是转移动力学，$r: S \times A \to [0, 1]$ 是奖励函数，$\gamma \in [0, 1)$ 是折扣因子，$s_0$ 是固定的初始状态。

一个静态策略 $\pi: S \to \Delta_A$ 指定了动作的条件分布。我们重载符号，有时使用 $\pi(s)$ 作为 $\pi(\cdot|s)$ 的简写。问题是找到一个最大化 $V^\pi(s_0)$ 的策略，定义为：
$$V^\pi(s_0) \doteq \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right] | s_0$$
其中下标 $\pi$ 表示期望是在由 $\pi$ 和 $P$ 共同控制的概率下计算的。**动作价值函数** $Q^\pi$ 和**优势函数**与价值函数的关系如下，我们将它们统称为价值函数：

$$
\begin{aligned}
Q^\pi(s,a) &\doteq r(s,a) + \gamma \mathbb{E}_{s' \sim P(s,a)} \mathbb{E}_{a' \sim \pi(s')} Q^\pi(s', a') \quad (1) \\
V^\pi(s) &= \mathbb{E}_{a \sim \pi(s)} Q^\pi(s,a) \quad (2) \\
A^\pi(s,a) &\doteq Q^\pi(s,a) - V^\pi(s). \quad (3)
\end{aligned}
$$

注意，价值函数是有界的：$\max_{\pi, s, a} Q^\pi(s,a) \le \sum_{i=0}^\infty \gamma^i = \frac{1}{1-\gamma}$。

表达策略性能的一种便捷方式是使用其折扣**状态-动作访问分布**。该量根据状态在未来多远进行折扣，并由 $(1-\gamma)$ 归一化以确保其和为 1。

$$d^\pi(s,a) \doteq (1-\gamma) \sum_{t=0}^\infty \gamma^t P(s_t=s, a_t=a)$$

性能差异引理（Performance Difference Lemma, PDL; kakade_and_langford:CPI）将任意策略 $\pi'$ 相对于任意策略 $\pi$ 的改进分解为 $A^\pi$ 和 $d^{\pi'}$：

$$V^{\pi'}(s_0) - V^\pi(s_0) = \frac{1}{1-\gamma} \mathbb{E}_{s,a \sim d^{\pi'}} A^\pi(s,a). \quad (\text{PDL})$$

## 3 近似策略迭代 (API)

我们现在描述 API 的分布偏移问题，推导强调对齐训练分布和下一策略分布重要性的理论界限，我们将这一概念称为**下一策略对齐**（Next Policy Alignment）。

算法 1 展示了 API 的在策略（on-policy）版本，意味着它使用 $\pi_k$ 收集数据。API 通过在**数据收集**、**策略评估**和**策略改进**之间迭代来构建策略序列 $\{\pi_k\}_{k=0}^\infty$。在每轮 $k$ 中，策略评估算子（Eval）从数据集 $\mathcal{D}_k$ 估计 $q_k^{\pi_k} \approx Q^\pi$。然后，策略改进算子（$\Gamma$）返回新策略作为 $q_k^{\pi_k}$ 的函数，可选地依赖于当前策略 $\pi_k$ 或数据批次 $\mathcal{D}_k$。

**算法 1 在策略 API**
1: API 子程序 Eval 和 $\Gamma$
2: 初始化 $\pi_0$
3: **for** $k=0, 1, 2, \dots$ **do**
4:   通过 rollout $\pi_k$ 收集数据集 $\mathcal{D}_k$
5:   $q_k^{\pi_k} \leftarrow \text{Eval}(\pi_k, \mathcal{D}_k)$
6:   $\pi_{k+1} \leftarrow \Gamma(q_k^{\pi_k}, \pi_k, \mathcal{D}_k)$
7: **end for**

**算法 2 稳定价值 API (抽象)**
1: Eval, $\Gamma$, 和稳定性准则 $\mathcal{C}$
2: 初始化 $\pi_0$, $\beta_0 \leftarrow \pi_0$
3: **for** $k=0, 1, 2, \dots$ **do**
4:   通过 rollout $\beta_k$ 收集数据集 $\mathcal{D}_k$
5:   $q_k^{\pi_k} \leftarrow \text{Eval}(\pi_k, \mathcal{D}_k)$
6:   $\beta_{k+1} \leftarrow \Gamma(q^{\pi_k}, \beta_k, \mathcal{D}_k)$
7:   **if** $\mathcal{C}(q_k^{\pi_k}, q_{k-1}^{\pi_{k-1}}, \mathcal{D}_k)$ **is True then**
8:     $\pi_{k+1} \leftarrow \beta_{k+1}$ $\triangleright$ 更新目标策略
9:   **else**
10:    $\pi_{k+1} \leftarrow \pi_k$ $\triangleright$ 保持目标策略
11:  **end if**
12: **end for**

图 1：API 的稳定价值修改。SV-API 仅在满足收敛准则 $\mathcal{C}$ 时更新目标策略 $\pi$。

在 API 文献中，**下一策略状态-动作分布**对于策略改进的重要性是众所周知的。我们提供了一种分析，强调每轮中对此的依赖性。为了量化 Eval 在训练分布 $\mu$ 下的性能，我们定义以下误差度量，类似于均方价值误差（sutton2018introduction）。

###### 定义 3.1（加权动作价值误差）。

$\mu$-加权估计误差为

$$\varepsilon(\mu, q^\pi) \doteq \sum_{s \in S} \sum_{a \in A} \mu(s,a) \| Q^\pi(s,a) - q^\pi(s,a) \|. \quad (4)$$

接下来，我们引入一个典型的策略改进算子最大化的量。

###### 定义 3.2（E...

近似下一策略采样：在深度强化学习中替代保守目标策略更新

相似文章

近未来策略优化

@SOURADIPCHAKR18：典型的RL算法和同策略蒸馏方法是盲目采样器：它们使用特权信息来评分rollouts……

面向稀疏奖励强化学习的不确定性感知LLM引导策略塑形

基于后验混合贝叶斯信念的正则化离线策略优化

StepPO：面向智能体强化学习的步骤对齐策略优化

提交意见反馈