# 立场:部署的强化学习应当是持续性的 ## 摘要 强化学习(RL)通常在静态环境中进行训练,并以固定策略部署——这种范式我们称之为"一次性RL"。然而,现实世界中的部署环境往往是动态的、不断演变的,这使得一次性训练的策略随着时间推移性能逐渐退化。我们认为,部署的强化学习系统应当采用持续学习的方式,在与环境的持续交互中不断适应和改进。本文阐述了这一立场,分析了当前范式的局限性,并概述了实现持续性部署RL所需面对的挑战与机遇。 ## 1. 引言 强化学习在众多领域取得了令人瞩目的成就,从游戏竞技到机器人控制,再到推荐系统。然而,主流的RL研究与实践遵循着一种固定的模式:在模拟或受控环境中训练智能体,直至达到满意的性能,然后将固定策略部署到实际应用中。这种"训练-部署"的分离范式在许多场景下运作良好,但我们认为它在根本上与现实世界部署的本质相矛盾。 现实世界是动态的。用户偏好会改变,物理条件会波动,对抗性参与者会适应,系统本身也会因磨损或升级而发生变化。一个在部署时表现优异的策略,数周或数月后可能就变得次优甚至有害。更重要的是,部署本身就是一种持续获取真实环境数据的机会——而一次性RL完全忽视了这一宝贵资源。 我们的核心立场是:**部署的强化学习系统应当在整个运行生命周期内持续学习和适应**。这不仅仅是一种技术改进,而是对RL应如何在现实世界中运作的根本性重新思考。 ## 2. 一次性RL的局限性 ### 2.1 分布偏移问题 一次性RL面临的最根本问题是训练分布与部署分布之间的不匹配。即便使用了域随机化或其他鲁棒性技术,训练环境也无法完全覆盖真实部署条件的多样性。当环境随时间演变时,这种差距只会愈发扩大。 ### 2.2 数据利用效率低下 部署的RL系统在与环境交互时会产生大量宝贵数据,但一次性范式完全丢弃了这些信息。这是一种巨大的浪费——这些实际运行数据往往比训练数据更能反映真实世界的复杂性。 ### 2.3 无法从错误中恢复 当策略遭遇训练分布之外的情况时,一次性RL系统无法自主修正。唯一的解决方案是重新训练并重新部署,这既耗时又成本高昂,在许多实际场景中甚至不可行。 ### 2.4 错失改进机会 随着系统积累更多与真实用户和环境交互的经验,策略理应变得越来越好。一次性RL无法利用这种自然积累的经验来提升性能。 ## 3. 持续性部署RL的愿景 我们所倡导的持续性部署RL,是指系统在整个部署生命周期内: 1. **持续收集**与真实环境交互的经验数据 2. **在线更新**策略以适应环境变化和新发现的规律 3. **保持安全约束**,确保持续学习不会导致性能急剧下降或危险行为 4. **平衡探索与利用**,在不影响当前服务质量的前提下寻求改进 这一愿景与持续机器学习(Continual ML)的理念高度契合,但RL场景带来了独特的挑战:智能体的行为直接影响其所获得的数据,探索可能产生实际代价,而奖励信号往往稀疏且延迟。 ## 4. 关键挑战 ### 4.1 灾难性遗忘 持续学习最著名的挑战是灾难性遗忘——在学习新任务时忘记旧知识。在RL场景中,这意味着适应新情况可能导致在已掌握情况下的性能退化。需要开发能够在保持既有能力的同时适应新情况的算法。 ### 4.2 安全性与稳定性 部署中的持续学习引入了新的安全风险。一个正在学习的系统可能尝试危险动作,或者由于错误的梯度更新而突然性能下降。需要建立严格的安全机制,包括行为约束、性能监控和自动回滚能力。 ### 4.3 非平稳性处理 持续性RL系统必须区分真正的环境变化(需要适应)和观测噪声(不应过度拟合)。同时,系统自身的学习也会改变数据分布,造成非平稳性,给学习算法的稳定性带来挑战。 ### 4.4 样本效率 在线学习通常比离线批量学习样本效率更低。在部署场景中,每次交互都可能有实际成本,因此需要高度样本高效的算法,能够从少量新数据中快速适应。 ### 4.5 评估与监控 如何判断持续学习是否真正带来了改进?如何检测策略退化?需要建立全面的在线评估框架,能够在不中断服务的情况下持续监控系统性能。 ## 5. 现有方法与进展 研究社区已在若干相关方向取得了进展: **元强化学习**训练能够快速适应新任务的智能体,为持续适应提供了有价值的视角。**在线强化学习**研究非平稳环境中的学习,直接与持续性部署RL的需求相关。**持续监督学习**开发了多种对抗灾难性遗忘的技术,如弹性权重整合(EWC)、渐进式神经网络等,这些方法有望迁移到RL场景。**离线到在线RL**研究如何利用离线数据进行预训练,然后通过在线交互进行微调,与我们的愿景高度吻合。 然而,这些研究方向大多仍相互孤立,缺乏针对实际部署场景的整合性框架。 ## 6. 实践路径 我们建议研究社区和从业者从以下几个方向推进持续性部署RL: **建立基准**:开发专门评估持续性部署RL能力的标准化基准,包括环境非平稳性、安全约束和长期性能指标。 **算法创新**:设计原生支持持续学习的RL算法,而非将持续学习作为事后的补丁。 **系统基础设施**:构建支持持续学习的工程基础设施,包括经验回放系统、在线评估框架和安全监控机制。 **跨领域合作**:加强RL研究者与系统工程师、安全专家和实际部署从业者之间的合作。 ## 7. 结论 我们相信,将部署的RL系统从一次性范式转向持续学习范式,是释放RL在现实世界应用中全部潜力的关键一步。这不仅能提升系统的长期性能和鲁棒性,更能从根本上改变我们思考和构建智能系统的方式。 现实世界不会为我们的智能体停止演变。是时候让我们的智能体也不再停止学习了。
摘要
本立场文章认为,已部署的强化学习智能体永远不应停止学习,因为"先训练后修复"的范式在本质上无法应对现实环境中的非平稳性和分布偏移问题。作者识别出部署后非平稳性的四个来源,并倡导将持续强化学习作为已部署系统的标准方法。
arXiv:2606.04029v1 公告类型:新论文
摘要:强化学习(RL)在现实世界应用场景中正受到越来越多的关注与采用。这些系统大多遵循"先训练后固定"的范式——训练好的智能体在与世界交互时不再继续学习,直到性能下降、重新训练成为必要。在这篇立场论文中,我们认为,部署一个无法达到最优但能接收评估性奖励信号的智能体,本质上是一个持续强化学习问题。我们识别出部署后导致非平稳性的四个来源,这些来源使得永不停歇的学习成为必要,并阐明了为何最优秀的已部署智能体从不停止适应。我们分析了现实世界中持续强化学习的成功案例,并向研究社区呈现了从当前"先训练后固定"范式转型的优势与具体措施。
查看缓存全文
缓存时间: 2026/06/05 02:17
# 立场论文:已部署的强化学习应当是持续性的
来源:https://arxiv.org/html/2606.04029
###### 摘要
强化学习(RL)在现实世界应用场景中受到越来越多的关注与采用。大多数系统遵循"训练后固定"范式——训练好的智能体在与世界交互时不再继续学习,直到性能下降、重新训练成为必要。在本立场论文中,我们认为:部署一个无法达到最优但能接收评估性奖励信号的智能体,本质上就是一个持续强化学习问题。我们识别出部署后导致非平稳性的四类来源,这些来源使得永不停止的学习成为必要,并阐明为何最优的已部署智能体永远不会停止适应。我们分析了现实世界中持续RL成功落地的案例,并向学术界呈现从当前"训练后固定"范式转变的优势与实现路径。
强化学习,持续学习
## 1 引言
强化学习(RL)是从交互中学习(Sutton and Barto, 2018 (https://arxiv.org/html/2606.04029#bib.bib68))。然而,RL智能体在现实世界中部署后,通常会停止学习。策略在离线阶段训练完成(通过仿真、自我对弈、专家演示或其组合),在部署时被冻结,而世界却在持续变化。环境的复杂性远超任何有限训练阶段所能捕获的范围,重新训练因此成为必要(Dulac-Arnold et al., 2019 (https://arxiv.org/html/2606.04029#bib.bib113))。我们将这种模式称为**训练后固定**范式。
这种"训练后固定"范式贯穿了RL的发展历史。TD-Gammon通过自我对弈在西洋双陆棋上表现卓越,在参赛对弈时被冻结(Tesauro, 1995 (https://arxiv.org/html/2606.04029#bib.bib24))。AlphaGo击败了围棋世界冠军李世石(Silver et al., 2016 (https://arxiv.org/html/2606.04029#bib.bib97)),OpenAI Five击败了Dota 2世界冠军(Berner et al., 2019 (https://arxiv.org/html/2606.04029#bib.bib98)),GT Sophy超越了专业赛车手(Wurman et al., 2022 (https://arxiv.org/html/2606.04029#bib.bib129))。深度RL甚至被用于控制平流层气球(Bellemare et al., 2020 (https://arxiv.org/html/2606.04029#bib.bib111))和托卡马克装置(Degrave et al., 2022 (https://arxiv.org/html/2606.04029#bib.bib110))。在上述每个案例中,策略都经过大量离线训练,部署后保持固定。这些成就虽是该领域的里程碑,却将部署问题约束于"训练后固定"范式之内。环境要么是平稳的,要么易于精确仿真,要么部署时间短暂或范围局限,以至于训练期间人类知识与数据的分布漂移问题尚未显现。这为部署前的大量训练奠定了基础,而非选择在部署后从观测流中持续学习。
参见图1:arxiv.org上每年标题或摘要包含"持续强化学习"字样的论文数量。
历史上,我们一直将持续学习问题近似为非持续学习问题。如果我们的方法被长时间部署、暴露于未预见的分布偏移,或被要求泛化到训练分布之外,很可能会失败。"训练后固定"范式并不能解决持续学习问题,它只是将问题推后。这一观察并不新鲜(Hamadanian et al., 2022 (https://arxiv.org/html/2606.04029#bib.bib118); Khetarpal et al., 2022 (https://arxiv.org/html/2606.04029#bib.bib42))。大世界假说(Javed and Sutton, 2024 (https://arxiv.org/html/2606.04029#bib.bib38))将这一洞见形式化:现实世界的环境超出了任何智能体的表示能力上限。在部署阶段,资源约束进一步加剧了这一挑战。有限的时间、算力和数据可能使智能体即便在理论上可表示最优策略,也无法在实践中找到它。
模糊训练与部署界限的想法同样由来已久(Ring, 1994 (https://arxiv.org/html/2606.04029#bib.bib39); Thrun, 1998 (https://arxiv.org/html/2606.04029#bib.bib125))。它体现了一种将学习视为持续适应而非求解固定问题的观点(Barron et al., 2015 (https://arxiv.org/html/2606.04029#bib.bib75); Abel et al., 2024 (https://arxiv.org/html/2606.04029#bib.bib76))。许多已部署的RL智能体在部署后仍持续接收评估性反馈(通过奖励信号):推荐系统观察用户参与度,打车平台追踪订单完成情况,代码助手衡量建议被采纳的比率。当此类评估性反馈可用,且部署环境超出智能体的表示能力或可用时间与算力资源时,不利用该信号进行持续适应几乎没有合理依据。我们将此类场景称为**可测量部署**:智能体在容量与资源受限的条件下,但评估性奖励信号在部署后仍然可用。
本文中,我们论证**可测量部署本质上是一个持续强化学习问题**,因此持续学习的**解决方案**应当被应用于已部署的模型。随着理论基础日趋成熟、学术兴趣持续攀升(图1 (https://arxiv.org/html/2606.04029#S1.F1))以及工业界成功部署案例的涌现,倡导这一范式转变正当其时。
## 2 背景
### 2.1 持续强化学习
Abel et al.(2023 (https://arxiv.org/html/2606.04029#bib.bib22))将持续强化学习(CRL)问题定义为:"如果最优智能体永远不会停止学习,则该RL问题是CRL的一个实例。"这一定义与第1节 (https://arxiv.org/html/2606.04029#S1) 中已部署RL的例子形成对比——在那些例子中,智能体搜索到一个策略后,学习即告终止,固定策略随即被部署。
**传统RL理论基础的问题。** 训练阶段结束后冻结智能体这一惯例,部分源于RL问题的数学形式化。传统的马尔可夫决策过程(MDP;Bellman (https://arxiv.org/html/2606.04029#bib.bib77), 1957 (https://arxiv.org/html/2606.04029#bib.bib77); Puterman (https://arxiv.org/html/2606.04029#bib.bib46), 2014 (https://arxiv.org/html/2606.04029#bib.bib46))对智能体-环境交互的形式化未能捕捉CRL永不停止的本质。MDP由元组 $\langle\mathcal{S},\mathcal{A},P,R\rangle$ 表示,其中 $\mathcal{S}$ 和 $\mathcal{A}$ 分别是状态空间和动作空间。在每个离散时间步 $t$,智能体在状态 $S_t\in\mathcal{S}$ 中选择动作 $A_t\in\mathcal{A}$,环境转移至新状态 $S_{t+1}$,并发出标量奖励 $R_{t+1}$。MDP的目标以转移函数和奖励函数 $P:\mathcal{S}\times\mathcal{A}\mapsto\Delta(\mathcal{S})$ 和 $R:\mathcal{S}\times\mathcal{A}\mapsto\mathbb{R}$ 定义最优性,对应最优策略 $\pi^{\star}:\mathcal{S}\mapsto\Delta(\mathcal{A})$ 作为Bellman最优方程的不动点(Puterman, 1990 (https://arxiv.org/html/2606.04029#bib.bib45))存在。这种收敛到 $\pi^{\star}$ 的概念隐含着一个终止点:一旦找到最优策略,便应永久部署而无需进一步学习。这样的框架将学习视为达到目的的手段,而非一个持续进行的过程(Abel et al., 2024 (https://arxiv.org/html/2606.04029#bib.bib76))。此外,MDP关于遍历性、平稳性以及可重置或重访状态的假设在部署环境中几乎难以成立。
**历史过程形式化。** 为解决上述局限,近期研究提出以*历史过程*作为替代数学基础(Bowling et al., 2023 (https://arxiv.org/html/2606.04029#bib.bib34); Abel et al., 2023 (https://arxiv.org/html/2606.04029#bib.bib22))。在此形式化框架下,环境 $e$ 是从有限长历史与动作到有限观测空间上概率分布的映射,$e:\mathcal{H}\times\mathcal{A}\mapsto\Delta(\mathcal{O})$,其中观测空间记为 $\mathcal{O}$¹,动作空间记为 $\mathcal{A}$,历史集合 $\mathcal{H}=\bigcup_{n=0}^{\infty}(\mathcal{A}\times\mathcal{O})^{n}$ 是所有可能的有限动作-观测序列的空间。奖励函数定义在此类序列对上,$R:\mathcal{O}\times\mathcal{A}\mapsto\mathbb{R}$。
遵循 Elelemy et al.(2025 (https://arxiv.org/html/2606.04029#bib.bib33)),我们将策略 $\pi:\mathcal{S}\mapsto\Delta(\mathcal{A})$ 定义为从智能体的状态表示到动作分布的映射。$S_t\in\mathcal{S}$ 现在是智能体对其历史的压缩表示,不应与MDP形式化中的状态相混淆。智能体可表示的全部策略集合记为 $\Pi$。智能体的学习规则 $\sigma:\mathcal{H}\mapsto\Delta(\Pi)$ 将历史映射到策略集上的分布。
历史过程对环境的假设极为简约。关键在于,它不假设智能体能够重置环境或重访历史状态。一旦历史 $h_t\in\mathcal{H}$ 已经发生,智能体便永远无法将 $h_t$ 再次输入环境。它永远无法精确重访之前所处的情境,未来的交互形如 $e(h_t\cdot h,a)$,其中 $\cdot$ 表示拼接。
注意,上述形式化同时涵盖分幕式和持续式设置,因为两者都可以是持续学习问题。
### 2.2 持续学习问题与解决方案
区分持续学习**问题**(即永不停止的适应具有实用价值的问题场景)与持续学习**解决方案**或**算法**(专为解决这类问题而设计的方法)至关重要(Khetarpal et al., 2022 (https://arxiv.org/html/2606.04029#bib.bib42))。持续学习算法通常解决智能体内部函数逼近器所面临的挑战,例如灾难性遗忘(McCloskey and Cohen, 1989 (https://arxiv.org/html/2606.04029#bib.bib41))、维持可塑性(Dohare et al., 2024 (https://arxiv.org/html/2606.04029#bib.bib43)),以及平衡稳定性与适应性(Mermillod et al., 2013 (https://arxiv.org/html/2606.04029#bib.bib44))。然而,这些算法层面的挑战并不是定义一个问题是否属于持续学习问题的依据。正如 Abel et al.(2023 (https://arxiv.org/html/2606.04029#bib.bib22))所强调的,一个问题是否构成CRL实例,取决于环境本身是否具有使永不停止的学习成为必要的特征,而非实现此类学习在算法上面临的困难。我们将在第3节 (https://arxiv.org/html/2606.04029#S3) 中考察现实世界部署中使永不停止的学习成为必要的环境特征。
### 2.3 部署
本文中,**部署**一词指将训练好的策略集成到其预定运行环境中,使其在现实世界中主动做出决策的过程。部署标志着从离线开发到实际运行的转变,智能体的性能在此真正受到检验,其价值也在此得以实现(IBM, 2024 (https://arxiv.org/html/2606.04029#bib.bib96))。
## 3 可测量部署是一个持续强化学习问题
并非所有已部署系统都需要持续学习。Schaeffer et al.(2007 (https://arxiv.org/html/2606.04029#bib.bib109))的跳棋引擎已被证明完全解决了该游戏,继续学习不会提升其胜率。当环境复杂度在智能体的表示能力和可用资源范围之内时,固定策略已然足够。
许多已部署的RL系统运行在"大世界"场景中,环境复杂度超出了智能体的容量与资源上限。在这类场景中,最优策略可能无法被表示,或需要超出有限训练阶段所能提供的经验量。当部署后评估性反馈仍然可用时,它提供了缩小这一差距的途径:奖励信号揭示了智能体在所遇情境中的表现优劣。不从该信号中学习,将智能体限制为只能依靠人类知识重新训练,会白白浪费性能提升空间,正如图2 (https://arxiv.org/html/2606.04029#S3.F2) 所设想的那样。这正是**可测量**部署场景——最优智能体通过永不停止地从评估信号中学习,克服其表示能力或计算能力的局限。将此类智能体部署到具有评估奖励信号的大世界中,就是一个CRL问题。
鉴于第2.1节 (https://arxiv.org/html/2606.04029#S2.SS1) 中MDP形式化的不兼容性,我们采用历史过程形式化来阐明可测量部署为何是一个CRL问题。已部署智能体所处的世界通过以下方式发生变化:
1. **动作引发的非平稳性:** 每个历史 $h_t$ 都为未来的交互实例化出新的 $e(h_t\cdot h,a)$。智能体的策略塑造了其未来所遇历史的分布。例如,反复推荐某类内容的推荐系统(智能体)会改变用户的偏好(环境)。由于过去动作的影响,未来交互的观测分布不同于当前分布。其他例子包括:生成模型适应更新后的安全/对齐策略,或市场对自动化交易策略的响应²。
2. **环境动态的变化:** 环境也可能因智能体控制范围之外的因素而改变(季节变化、硬件老化、市场变动、监管调整)。这些变化可以是周期性的(如昼夜或季节性的多时间尺度模式),也可以是随机的(不可预测的动态偏移)。
3. **目标的演变:** 在奖励假说框架下,智能体的"目标与意图"通过奖励函数来表达(Sutton, 2004 (https://arxiv.org/html/2606.04029#bib.bib127); Littman, 2017 (https://arxiv.org/html/2606.04029#bib.bib128))。该函数可能随时间变化,即便底层环境动态保持稳定,也会改变何为理想行为的定义。在历史过程形式化中,奖励函数导出智能体对历史的偏好关系(Bowling et al., 2023 (https://arxiv.org/html/2606.04029#bib.bib34))。在部署阶段,随着利益相关方优先级的转变、法规的修订、安全约束的更新,或已部署系统新能力的加入,这种偏好关系可能随之演变。该挑战在多目标场景中尤为突出——智能体必须在多个相互竞争的目标之间寻求平衡,而目标集合及其相对重要性在训练阶段难以预见地会在部署过程中持续演变。与环境或动作引发的非平稳性不同,目标的演变往往由人类设计者或利益相关方主动施加,这使其在现实世界部署中尤为重要——我们希望智能体实现的目标与意图本身就处于变化之中。
4. **涌现……**
---
¹ 这些观测不必满足马尔可夫性,因此历史过程既可以描述MDP,也可以描述部分可观测MDP(Monahan, 1982 (https://arxiv.org/html/2606.04029#bib.bib78); Cassandra et al., 1994 (https://arxiv.org/html/2606.04029#bib.bib47))。
² 这与*表现性预测*(performative prediction)文献密切相关,该文献研究预测如何影响其预测目标(Perdomo et al., 2020 (https://arxiv.org/html/2606.04029#bib.bib35))。这一现象与部署密切相关,值得应用RL社区进一步深入研究。相似文章
通过自适应安全约束实现非平稳环境下的安全持续强化学习
提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。
@charles_irl: 恰当的后训练强化学习,广泛部署,是迈向未来软件系统能悄然自我改进、适应人类需求的关键一步。
Modal 在其平台上宣布了一个开源的强化学习库,通过可扩展的部署解决后训练强化学习中的基础设施挑战。
从离散到连续:连续环境中神经强化学习的动力学
本文提出了一个用于连续环境中深度强化学习的理论框架,利用随机控制理论将其建模为连续时间随机过程。作者刻画了在两层网络无限宽极限下的演员-评论家算法的动力学,并推导了一个在极小的学习率下状态分布无穷小变化的方程。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。
@blc_16: 如果你想了解为什么强化学习在处理长视界智能体任务时表现不佳,这是一个很好的解释。核心问题在于……
该帖子解释了强化学习因奖励稀疏而在长视界任务中遇到的困难,并介绍了 GEPA 这一方法。GEPA 利用轨迹层级的文本反思来保留更丰富的反馈信号,以优化学习过程。