利用快慢后继特征平衡可塑性与稳定性

arXiv cs.LG 2026/05/27 04:00 论文

continual-learning reinforcement-learning successor-features stability-plasticity synaptic-consolidation non-stationary-environments

摘要

本文研究了渐变非平稳环境下强化学习中的稳定性-可塑性困境，发现通过跨多个时间尺度的突触巩固来稳定后继特征，其效果优于专注于可塑性的方法。

arXiv:2605.26357v1 Announce Type: new 摘要：智能的一个重要标志是在非平稳环境中适应的能力，然而深度强化学习（RL）智能体在此类场景中常常表现不佳。先前的研究通过特征或动态的突然变化引入非平稳性，而现实世界环境通常通过持续漂移逐渐演变。这一区别对强化学习中的“稳定性-可塑性困境”具有重要意义，因为突然的任务变化可能比自然主义场景要求更多的可塑性。为解决这一问题，我们修改了现有的3D Miniworld和MuJoCo环境，以融入自然主义的、持续的非平稳性，并利用它们来研究在连续环境变化下稳定性和适应如何影响性能。我们发现，偏好稳定性的方法（如突触巩固）优于侧重于可塑性的方法（如参数重置）。受此结果以及先前关于后继特征（SFs）减少干扰的证据的启发，我们研究了SFs是否比Q值更适合作为巩固目标。在两个环境中，将神经启发的突触巩固应用于SFs在持续变化的环境中取得了更优的性能。此外，当SFs在多个时间尺度上得到稳定时，巩固效果最好，这些时间尺度捕捉了渐进环境变化的互补方面。综合这些结果，表明在渐变情况下，稳定性在持续学习中更为关键，而多时间尺度的预测表征巩固是一种有效的方法。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:09

# 平衡可塑性与稳定性：借助快慢时序表征的继承特征

来源：https://arxiv.org/html/2605.26357

###### 摘要

智能的一个标志是能够在非平稳环境中适应，然而深度强化学习（RL）代理在此类环境中常常难以应对。先前的研究通过特征或动态的突然变化引入非平稳性，而现实世界中的环境往往通过持续漂移逐渐演变。这一区别对强化学习中的“稳定性-可塑性困境”具有重要意义，因为突发的任务变化可能比自然场景需要更大的可塑性。为了解决这一问题，我们修改了现有的3D MiniWorld和MuJoCo环境，以纳入自然的、持续的非平稳性，并使用它们来检查稳定性和适应如何影响持续环境变化下的性能。我们发现，有利于稳定性的方法（如突触巩固）优于侧重可塑性的方法（如参数重置）。受此结果以及先前关于继承特征（SFs）能减少干扰的证据启发，我们研究了SFs是否比Q值更适合作为巩固目标。在这两种环境中，将神经启发的突触巩固应用于SFs，在持续变化的环境中取得了更优的性能。此外，当SFs跨多个时间尺度被稳定时，巩固效果最佳，因为这捕获了渐进环境变化的互补方面。这些结果表明，当变化是渐进时，稳定性在持续学习中更关键，而多时间尺度巩固预测表征是一种有效的方法。

持续强化学习，继承特征，可塑性，稳定性，突触巩固

## 1 引言

现实世界中的事件往往不断演变。因此，人类和动物必须在底层动态自然且持续变化的环境中适应。相比之下，人工智能（AI）中的许多持续学习研究侧重于突发的、任务边界的变化，其中跨任务的特征或动态存在显著差异。标准的RL技术，如Q学习，在此类条件下常常难以应对，并经常遭受灾难性遗忘（McCloskey & Cohen, 1989；French, 1999）。开发能够使深度RL代理在自然的、持续变化环境中有效学习的方法，仍然是AI研究的一个主要目标（Khetarpal et al., 2022；Abel et al., 2023；Silver & Sutton, 2025）。虽然监督持续学习方面的早期工作强调了稳定性（即保留先前获取的知识并防止灾难性遗忘的能力）（Kirkpatrick et al., 2017；Zenke et al., 2017），但RL带来了独特的挑战，因为策略的改变会改变代理遇到的样本，从而加剧环境非平稳性。在RL中，Atari（Bellemare et al., 2013）已成为顺序任务学习的标准基准之一，其中注重稳定性的方法，如弹性权重巩固（EWC）（Kirkpatrick et al., 2017）和重放（Rolnick et al., 2019），成为主导策略。最近，研究已转向可塑性（即快速适应新经验的能力）这一补充问题，使用顺序Atari任务（Abbas et al., 2023）或通过为每个任务随机采样摩擦系数在MuJoCo中创建的人工任务（Dohare et al., 2024）。稳定性主要在多任务顺序设置中被研究，而可塑性则在单任务动态中被研究，但现实世界环境很少符合这两种情况，因为自然的持续非平稳性表现为单一任务，同时仍会产生不断变化的子任务流。尽管取得了这些进展，但在更接近现实世界的环境中，当面临自然的、持续的非平稳性（代理必须在没有明确任务边界的情况下适应自然和持续的变化）时，稳定性和可塑性如何权衡仍不清楚。研究这个问题的一个自然方法是开发具有自然、持续演变动态的环境，并比较与任务无关的算法，这些算法要么增强可塑性（例如，参数重置（Nikishin et al., 2022, 2023；Sokar et al., 2023；Dohare et al., 2024；Lee et al., 2024）），要么保持稳定性（例如，保护重要参数（Kirkpatrick et al., 2017）或允许跨多个时间尺度学习的巩固（Kaplanis et al., 2018, 2019；Anand & Precup, 2023））。虽然存在其他方法，如基于重放的方法（Riemer et al., 2018；Rolnick et al., 2019；Caccia et al., 2023），但它们不太适合我们的设置，因为它们的优势依赖于存储和混合过去与最近的样本，这在没有明确任务边界时是有问题的。更广泛地说，先前的方法在Q值或策略层面解决稳定性-可塑性权衡，而表征的作用在很大程度上未被充分研究。

在本文中，我们研究在自然的、持续的非平稳性下，预测表征是否能为可塑性-稳定性困境提供原则性解决方案。我们专注于继承特征（SFs）（Barreto et al., 2017；Borsa et al., 2018；Chua et al., 2024），它捕获预测结构并能够在具有共享动态的任务之间进行迁移，并研究它们是否能同时支持快速适应和抵抗干扰。我们在两个具有持续演变动态的环境中评估这个问题：一个滑动的四房间环境，其中动作偶尔被替换；以及MuJoCo控制任务，其中代理体的质量随时间变化。这些非平稳性来源反映了动作结果（例如，湿滑或结冰的地面）和身体动态的现实变化。非平稳性通过连续随机漂移过程引入，包括有噪声的正弦动态（Xie et al., 2020），以及其非周期变体和Ornstein–Uhlenbeck（OU）漂移。

总之，我们在本文中的主要贡献是：

1. 1. **一种自然的持续非平稳性评估协议。** 我们引入了一个具有平滑、连续非平稳性且无明确任务边界的持续RL设置，在导航和连续控制领域中使用周期或非周期随机正弦函数或OU动态实例化。
2. 2. **对可塑性-稳定性权衡的受控诊断。** 通过系统比较注入可塑性的机制与保持稳定性的机制，我们提供了证据表明，在连续非平稳性下，性能下降主要是由不稳定性而非可塑性不足驱动的。
3. 3. **SFs与多时间尺度突触巩固的新颖集成。** 我们提出了一个原则性框架，将预测表征（SFs）与跨多个时间尺度的突触巩固相结合，从而在连续非平稳性下实现稳定学习，同时保持适应性。
4. 4. **跨时间尺度的预测表征可解释性。** 我们使用跨不同巩固时间尺度学习的SFs上的交叉注意力作为诊断工具来量化它们的相对贡献，从而提供关于稳定性和可塑性如何在时间维度上分布的新见解。

参考图注

图1：在自然的、持续非平稳的RL中激发稳定性-可塑性权衡，其中环境逐渐演变，而不是突然变化。为了说明，我们展示了 (a) Humanoid向前行走任务和 (b) 用于生成其质量平滑变化的有噪声正弦函数的一个示例。(c) 平均每回合回报图和 (d) 曲线下面积（AUC）表明，保持稳定性的方法（EWC, SC）优于纯可塑性方法（CBP, P-last），而巩固SFs（SF+SC，紫色）相比巩固Q值（TD3+SC，绿色）有进一步增益。TD3+P-last（黄色）的可塑性注入在训练中途进行。

## 2 相关工作

我们的工作建立在先前关于RL中稳定性或可塑性的研究之上。早期缓解遗忘的工作强调了稳定性，引入了使用重要性度量（如Fisher信息）来保护对先前任务关键参数的方法（Kirkpatrick et al., 2017；Schwarz et al., 2018），操作重放机制（Rolnick et al., 2019；Riemer et al., 2018；Kaplanis et al., 2020；Caccia et al., 2023），增强架构（Powers et al., 2022），或采用维护在不同时间尺度更新的多组参数的巩固系统（Kaplanis et al., 2018, 2019；Anand & Precup, 2023）。几种方法明确依赖任务信息，例如通过使用任务边界触发巩固（Kirkpatrick et al., 2017）或蒸馏阶段（Schwarz et al., 2018）。其他被描述为与任务无关的方法，但仍依赖辅助机制，如通过分离“新”或“重放”样本来追踪近时性（Rolnick et al., 2019），或使用触发架构适应的漂移检测机制（Powers et al., 2022）。这些假设在自然且持续演变的环境中是有问题的，因为那里没有离散的任务边界可检测，而且“新”与“旧”经验的概念也变得模糊不清。

最近，持续RL中的研究已将注意力转向可塑性丧失的问题。通过分析训练期间的神经活动、表征的有效秩和梯度动态，提出的缓解策略侧重于修改激活函数或优化器（Ben-Iwhiwhu et al., 2022；Abbas et al., 2023），使用权重衰减或归一化正则化参数（Lyle et al., 2024），以及更常见的，通过重置网络参数子集（如最后几层（Nikishin et al., 2022, 2023）或最不活跃的层（Sokar et al., 2023；Dohare et al., 2024））来注入可塑性。然而，这些方法大多仅在离散或单任务设置中，或在非平稳性是突然而非自然持续的情况下被评估。

在这些先前的方法中，我们的研究与基于巩固的方法（Kirkpatrick et al., 2017；Schwarz et al., 2018；Kaplanis et al., 2018）以及最近检查深度RL中可塑性丧失的工作（Nikishin et al., 2023；Dohare et al., 2024）最为密切相关，因为它们不需要显式或隐式的任务统计量。然而，它们尚未在自然的、持续演变的设置中进行评估，并且仍然局限于离散任务或单任务设置。此外，这些方法在应用于学习的表征（而非Q值或策略）时是否有效仍不清楚。在这项工作中，我们通过分析自然持续变化下的稳定性和可塑性，并提出一个带有SFs的突触巩固系统，该系统跨多个时间尺度巩固表征，来解决这些局限性。

## 3 预备知识

### 3.1 连续非平稳性下的强化学习

一个马尔可夫决策过程（MDP）由元组 \(\langle \mathcal{S}, \mathcal{A}, p, r, \gamma \rangle\) 定义，其中 \(\mathcal{S}\) 和 \(\mathcal{A}\) 分别表示状态空间和动作空间，\(p(s' \mid s, a)\) 是转移函数，\(r: \mathcal{S} \rightarrow \mathbb{R}\) 是奖励函数，\(\gamma \in [0,1)\) 是折扣因子（Sutton & Barto, 2018）。在每个时间步 \(t\)，代理观察到状态 \(S_t \in \mathcal{S}\)，选择动作 \(A_t \sim \pi(\cdot \mid S_t)\)，转移到 \(S_{t+1} \sim p(\cdot \mid S_t, A_t)\)，并接收奖励 \(R_{t+1}\)。标准MDP假设平稳动态，即固定的转移函数 \(p(s' \mid s, a)\)。然而，现实世界环境通常是非平稳的。先前在持续强化学习中的工作通常将这种非平稳性建模为一系列具有突然变化的离散任务。相反，我们考虑**连续非平稳性**，其中环境随时间逐渐演变。我们引入一个时变潜在参数 \(\omega_t \in \Omega\)，它调制转移动态，产生一个MDP序列：

\[
\mathcal{M}_t = (\mathcal{S}, \mathcal{A}, p_{\omega_t}, r, \gamma)
\tag{1}
\]

其中 \(p_{\omega_t}(s' \mid s, a) \equiv p(s' \mid s, a; \omega_t)\) 随 \(\omega_t\) 平滑变化。我们假设 \(\omega_t\) 根据一个连续随机过程（例如，有噪声的正弦波）演变，导致动态的渐进变化而非突然的任务切换。这种设置捕获了**自然的非平稳性**，其中代理必须在漂移条件下持续适应，同时保留先前知识。潜在变量 \(\omega_t\) 不被代理观察到，并且其演变可能会随时间重新访问相似的值，导致动态重复出现（图1b）。

利用快慢后继特征平衡可塑性与稳定性

相似文章

论结构可塑性中增长的稳定性

在顺序训练的早退出神经网络中平衡稳定性与可塑性

灾难性遗忘的机制起源：为什么RL比SFT更好地保留电路？

无反向传播的Pong：PC + 分布式赫布可塑性 vs. PPO：57% vs. 59%，约1500行从零开始 [P]

通过自适应安全约束实现非平稳环境下的安全持续强化学习

提交意见反馈