基于Cramér距离的分布强化学习
摘要
本文介绍了C-DSAC,一种新的分布强化学习算法,该算法利用Cramér距离在机器人基准测试中提升性能与稳定性,优于标准SAC算法。
arXiv:2605.08104v1 公告类型:新文章
摘要:本文探讨了在分布强化学习框架下应用软演员-评论家(Soft Actor-Critic, SAC)算法的可能性,并提出了一种名为Cramér距离分布软演员-评论家(C-DSAC)的具体实现方案。这种新颖的方法采用分布强化学习来表示状态-动作值,并通过最小化平方Cramér距离来进行分布学习。在多种机器人基准测试中的实验结果表明,我们的算法优于基线SAC和现有的分布强化学习方法,且在复杂性较高的环境中,其性能优势愈发显著。为了阐释新方法的高效性,我们进行了分析,结果显示其优越性能部分源于**置信度驱动**的Q值更新机制:高方差的Target分布(即对Target的低置信度)会导致更保守的模型更新,从而削弱高估值的负面影响。这项工作加深了对分布强化学习的理解,为控制收敛性和价值估计的算法机制提供了有益见解。
查看缓存全文
缓存时间: 2026/05/12 06:41
# 基于 Cramér 距离的分布式强化学习
来源: https://arxiv.org/html/2605.08104
I\. NowakHAW Hamburg,ivo\.nowak@haw\-hamburg\.deE\.M\.T\. HendrixUniversidad de Málaga,eligius@uma\.es
###### 摘要
本文探讨了 Soft Actor-Critic (SAC) 算法在分布式强化学习(Distributional Reinforcement Learning)设置中的应用,并介绍了该算法的一种实现,名为基于 Cramér 距离的分布式 Soft Actor-Critic (C-DSAC)。这种新颖的方法采用分布式强化学习来表示状态-动作价值,并通过最小化平方 Cramér 距离来学习分布。在各种机器人基准测试上的实证结果表明,我们的算法优于基线 SAC 和当代分布式方法,且在复杂度高环境中性能优势愈发显著。为了解释新方法的效率,我们进行了一项分析,表明其优越性能部分归功于由置信度驱动的 Q 值更新:高方差的目标分布(对目标置信度低)导致更保守的模型更新,从而减弱了高估价值的影响。这项工作加深了对分布式强化学习的理解,为理解控制收敛和价值估计的算法机制提供了见解。
## 1 引言
在科学和技术领域,深度强化学习算法已成功应用于各种问题。一个显著的例子是 AlphaTensor (Fawzi 等人, 2022);这是一个在矩阵乘法中自动化算法发现方面表现出超人性能的框架/智能体。强化学习 (Sutton 和 Barto, 2018) 被用于当代大型语言模型中的对齐 (Ouyang 等人, 2022) 和改进模型推理 (Zhang 等人, 2025)。在机器人任务中,这种方法已被探索用于数据驱动的最优控制生成 (Gu 等人, 2017)。然而,应用强化学习面临重大挑战,主要原因是高样本复杂度以及现实场景中可用数据的有限性 (Paduraru 等人, 2021)。最初作为学习离散控制策略的有前景的方法 (Mnih 等人, 2013),并随后演变为解决一般问题并缓解各种限制 (Hasselt 等人, 2016; Lillicrap 等人, 2019; Schulman 等人, 2017a, b; Fujimoto 等人, 2018; Haarnoja 等人, 2018),似乎在无模型、样本高效的现实世界控制方面达到了发展停滞。
Bellemare 等人 (2017a, 2023) 提出的一种较新方法,扩展并形式化了强化学习的分布式视角,重新激发了该领域的兴趣,包括来自其他学科的研究者 (Muller 等人, 2021)。
在本文中,我们研究了强化学习的分布式方法,并介绍了一种使用平方 Cramér 距离进行方差逆梯度加权的新方法。我们提出了基于 Cramér 距离的分布式 Soft Actor-Critic (C-DSAC),这是一个将最大熵目标集成到分布式强化学习设置中的框架。此外,我们推导了使用神经网络实现的相应公式,并展示了在测试环境中取得最新性能水平的实验数据。为了解释新方法的效率,我们对算法的动态特性进行了彻底分析。重点在于算法在存在近似误差和系统噪声时的行为,并推导了其价值梯度的方程,显示在分布式 Q 模型方差较大(即对其价值的置信度较低)的状态-动作对处,对 Q 值的适应速度较慢。此外,我们强调这些方程如何揭示算法缓解高估偏差的固有机制。
本文组织如下。第 2 节回顾相关文献。第 3 节介绍基本概念和符号。第 4 节描述 C-DSAC 算法的理论基础及其特性。在第 5 节中,推导了使用神经网络实现的公式。第 6 节提供了数值示例,以展示 C-DSAC 与 SAC 算法相比的性能。第 7 节总结我们的发现并概述潜在的未来研究方向。
## 2 相关工作
Bellemare 等人 (2017a) 提供了强化学习中分布式方法的首次正式分析,其目标是学习回报分布而不是其期望值。他们采用 Wasserstein 度量来衡量回报分布之间的距离,建立了策略评估的收敛性保证,并分析了分布式策略改进。研究表明,在温和的假设下,分布式策略评估和改进收敛到最优策略。这项工作 culminated 于 C51 算法,这是一种仅针对离散动作空间的 critic-only 方法。然而,C51 依赖于一种启发式的投影步骤,这在理论上与分布式 Bellman 算子不一致。在 Duan 等人 (2022) 和 Ma 等人 (2020) 中,SAC 和分布式强化学习的概念首次被同时应用。前一种方法依赖 Kullback-Leibler 散度作为概率度量。这与分布式策略评估所需的属性相冲突,因为如果分布的支持集不同,距离将变为无穷大。为了解决这个问题,作者应用了激进的裁剪,这对性能产生了负面影响。此外,该工作的作者无法使用他们提供的软件复现结果。Ma 等人 (2020) 的工作通过结合基于分位回归的分布式强化学习 (Dabney 等人, 2018) 扩展了 SAC 框架。这种整合涵盖了多种基于分位的方法,从标准的 QR-DQN (Dabney 等人, 2017) 到更复杂的架构如 IQN (Dabney 等人, 2018) 和“完全参数化分位函数” (Yang 等人, 2019)。作者报告称,在 MuJoCo 基准环境中使用 IQN 配置时,其性能优于常见的强化学习算法。虽然依赖 IQN 意味着通过分位嵌入扩展参数集,但研究表明,对于本文提出的新方法来言,这种复杂性是多余的。结果表明,C-DSAC 固有的风险规避能力通过更简化的架构实现了更优越的性能。Lhéritier 和 Bondoux (2022) 的工作专注于“固定分位水平设置”下的 Cramér 距离,并未提出用于连续控制的算法。Nam 等人 (2021) 同样在分布式强化学习框架内利用平方 Cramér 距离,主要是为了提高 on-policy 算法的稳定性。他们的核心贡献,Sample-Replacement (SR($\lambda$)) 算法,建立了多步 $\lambda$-return 的原则性分布式泛化。相比之下,目前的工作从 on-policy 稳定性转向了 off-policy TD(0) 学习中固有的高估偏差这一独特挑战。
## 3 背景
我们的工作建立在最大熵和分布式强化学习之上。在以下章节中,我们将概述这些主题并介绍我们的符号。
### 3.1 强化学习
在强化学习中,智能体与其环境的相互作用被建模为 MDP $M=(S,A,r,P,\gamma)$。在此背景下,$S$ 是有限状态空间,$A$ 表示有限动作空间,$r:S \times A \rightarrow [r_{min}, r_{max}]$ 是有界奖励函数,$P:S \times A \rightarrow Pr(S)$ 定义转换概率动力学,$\gamma \in (0,1)$ 表示折扣因子。在每个时间步 $t$,智能体根据策略 $\pi$ 从状态 $s_t \in S$ 执行动作 $a_t \in A$,并收到奖励 $r(s_t, a_t)$,转换到下一个状态 $s_{t+1} \sim P(\cdot | s_t, a_t)$。一个 episode 的 MDP 考虑在有限时间内到达终止状态 $T$。在这项工作中,策略被视为随机量,建模为动作空间上的概率分布 $\pi:S \rightarrow Pr(A)$,$\Pi$ 表示此类策略的集合。动作从策略中采样,即 $a_t \sim \pi(\cdot | s_t)$。一般目标是找到一个最优策略 $\pi^*$,以最大化交互轨迹沿线的预期折扣回报,
$$
J(\pi) := E_{s_0 \sim d_0, a_t \sim \pi(\cdot|s_t) \forall t=0,...,T-1, s_{t+1} \sim P(\cdot|s_t,a_t) \forall t=0,...,T-1} \left[ \sum_{t=0}^{T-1} \gamma^t r(s_t, a_t) \right] \quad (1)
$$
$$
:= E_{\pi,P} \left[ \sum_{t=0}^{T-1} \gamma^t r(s_t, a_t) \right],
$$
其中 $s_T$ 是吸收状态。
初始状态是从分布 $s_0 \sim d_0$ 中抽取的。假设离散空间,方程 (1) 可以更明确地写为
$$
J(\pi) = \sum_{s \in S} \sum_{a \in A} \sum_{t=0}^{T-1} \Pr(s_t=s | \pi, P, s_0 \sim d_0) \pi(a|s) \gamma^t r(s, a) \quad (2)
$$
在此设置中,episode 长度为 $T$,因此 $J$ 优化有限 MDP 中的折扣回报。
最优策略可以通过策略迭代来近似,这是一个利用 Q 值进行策略评估和改进的过程。由策略 $\pi$ 诱导的 Q 值定义为
$$
Q^\pi(s_k, a_k) := E_{a_t \sim \pi(\cdot|s_t) \forall t=k+1,...,T-1, s_{t+1} \sim P(\cdot|s_t,a_t) \forall t=k,...,T-1} \left[ \sum_{t=k}^{T-1} \gamma^{t-k} r(s_t, a_t) | s_k, a_k \right] \quad (3)
$$
$$
:= E_{\pi,P} \left[ \sum_{t=k}^{T-1} \gamma^{t-k} r(s_t, a_t) | s_k, a_k \right],
$$
并满足递归的 Bellman 方程
$$
Q^\pi(s_t, a_t) = r(s_t, a_t) + \gamma E_{a_{t+1} \sim \pi(\cdot|s_{t+1}), s_{t+1} \sim P(\cdot|s_t,a_t)} [Q^\pi(s_{t+1}, a_{t+1})]. \quad (4)
$$
基于 (4),我们定义 Bellman 算子 $\mathcal{T}^\pi$,
$$
\mathcal{T}^\pi Q(s_t, a_t) := r(s_t, a_t) + \gamma E_{s_{t+1} \sim P(\cdot|s_t,a_t), a_{t+1} \sim \pi(\cdot|s_{t+1})} [Q(s_{t+1}, a_{t+1})]. \quad (5)
$$
对于策略评估,可以证明,从任意 $Q_0$ 开始,值函数序列 $Q_{k+1} := \mathcal{T}^\pi Q_k$ 随着 $k$ 的增加将迅速指数收敛到 $Q^\pi$,参见引理 A.1。
策略改进,引理 A.2,涉及利用对环境知识的利用并向更高值更新,即
$$
\pi_{k+1}(s_t) = \argmax_{\pi \in \Pi} E_{a_t \sim \pi(\cdot|s_t)} Q^{\pi_k}(s_t, a_t). \quad (6)
$$
以此方式,策略将是非递减的。通过更好地探索状态空间,可以改善状态-动作价值的估计。
在策略迭代下,向最优策略 $\pi^*$ 的收敛性是有保证的,参见引理 A.3。
### 3.2 最大熵强化学习
在此设置中,方程 (1) 中的标准目标通过增加策略熵来改善探索
$$
J_h(\pi) := E_{s_0 \sim d_0, a_t \sim \pi(\cdot|s_t) \forall t=0,...,T-1, s_{t+1} \sim P(\cdot|s_t,a_t) \forall t=0,...,T-1} \left[ \sum_{t=0}^{T-1} \gamma^t (r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot|s_t))) \right] \quad (7)
$$
$$
:= E_{\pi,P} \left[ \sum_{t=0}^{T-1} \gamma^t (r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot|s_t))) \right],
$$
其中 $\mathcal{H}(\pi(\cdot|s_t)) := E_{a_t \sim \pi(\cdot|s_t)} [-\log \pi(a_t|s_t)]$ (Haarnoja 等人, 2018)。
软策略改进涉及信息投影,并朝着新 Q 值的指数更新相似文章
ACSAC:基于因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 方法
本文介绍了 ACSAC,一种强化学习方法,它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size,该方法在操控任务中展示了最先进的性能。
Self-Distilled Agentic Reinforcement Learning
SDAR通过将自蒸馏与Sigmoid门控相结合,有选择地增强正向令牌级引导,同时减轻负面教师拒绝的影响,从而增强多轮智能体训练,在多个基准测试中相较于GRPO取得了显著提升。
RAD-2:在生成器-判别器框架中扩展强化学习
RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。
通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归
本文介绍了一种分布感知的强化学习框架,该框架利用基于批级比较的监督信号,提升了多模态大语言模型在长尾数值回归任务中的性能。
用于分布强化学习的路径耦合贝尔曼流
本文介绍了路径耦合贝尔曼流(PCBF),这是一种连续时间的分布强化学习方法,它使用流匹配来建模回报分布,而无需启发式投影。它通过将当前回报流和后续回报流通过共享的基础噪声耦合在一起,解决了以往基于流的方法中存在的边界不匹配和高方差问题。