从离散到连续：连续环境中神经强化学习的动力学

arXiv cs.LG 2026/06/04 04:00 论文

摘要

本文提出了一个用于连续环境中深度强化学习的理论框架，利用随机控制理论将其建模为连续时间随机过程。作者刻画了在两层网络无限宽极限下的演员-评论家算法的动力学，并推导了一个在极小的学习率下状态分布无穷小变化的方程。

arXiv:2606.04275v1 公告类型：新摘要：我们通过将问题建模为连续时间随机过程，借鉴随机控制的理论，提出了一种用于连续环境中深度强化学习的新颖理论框架。在前人工作的基础上，我们引入了一个可行的演员-评论家算法模型，该模型同时包含探索和随机转移。对于单隐层神经网络，我们证明了环境状态可以表述为两时间尺度过程：环境时间和梯度时间。在此框架内，我们刻画了表示环境状态和累积折扣回报估计的时变随机变量如何在梯度步上演变，且是在两层网络的无限宽极限下。利用随机微分方程理论，我们首次在连续强化学习中推导了一个方程，该方程描述了在极小的学习率下每个梯度步上状态分布的无穷小变化。总体而言，我们的工作为研究过参数化神经演员-评论家算法提供了一种新颖的非参数化表述。我们通过一个玩具连续控制任务实证验证了我们的理论结果。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:24

# 从离散到连续：连续环境中神经强化学习的动力学
来源：https://arxiv.org/abs/2606.04275
查看 PDF (https://arxiv.org/pdf/2606.04275)

> 摘要：我们提出了一种针对连续环境中深度强化学习（RL）的新型理论框架，通过将问题建模为连续时间随机过程，借鉴了随机控制的相关见解。在已有工作的基础上，我们引入了一个可行的演员-评论家算法模型，该模型同时包含了探索和随机转移。对于单隐层神经网络，我们证明环境状态可以表述为两个时间尺度的过程：环境时间和梯度时间。在该框架下，我们刻画了代表环境状态和累积折扣回报估计的时变随机变量，如何在两层网络的无限宽度极限下随梯度步骤演化。利用随机微分方程理论，我们首次在连续强化学习中推导出一个方程，描述了在极小的学习率下，每个梯度步骤中状态分布的无穷小变化。总体而言，我们的工作为研究过参数化神经演员-评论家算法提供了一种新颖的非参数化表述。我们通过一个简单的连续控制任务实证验证了理论结果。

## 提交历史

来自：Saket Tiwari [查看邮箱](https://arxiv.org/show-email/badea599/2606.04275)  
**[v1]** 2026年6月2日星期二 23:02:54 UTC（1,617 KB）

相似文章

@svlevine: 扩散（或流）可生成出色策略，但用强化学习训练它们却出了名的困难：BPTT不稳定，RL…

X AI KOLs Following

新论文展示了如何通过用单位矩阵近似流去噪过程的雅可比矩阵来优化用于强化学习的流匹配行动者，使训练变得可行。

# 立场：部署的强化学习应当是持续性的 ## 摘要强化学习（RL）通常在静态环境中进行训练，并以固定策略部署——这种范式我们称之为"一次性RL"。然而，现实世界中的部署环境往往是动态的、不断演变的，这使得一次性训练的策略随着时间推移性能逐渐退化。我们认为，部署的强化学习系统应当采用持续学习的方式，在与环境的持续交互中不断适应和改进。本文阐述了这一立场，分析了当前范式的局限性，并概述了实现持续性部署RL所需面对的挑战与机遇。 ## 1. 引言强化学习在众多领域取得了令人瞩目的成就，从游戏竞技到机器人控制，再到推荐系统。然而，主流的RL研究与实践遵循着一种固定的模式：在模拟或受控环境中训练智能体，直至达到满意的性能，然后将固定策略部署到实际应用中。这种"训练-部署"的分离范式在许多场景下运作良好，但我们认为它在根本上与现实世界部署的本质相矛盾。现实世界是动态的。用户偏好会改变，物理条件会波动，对抗性参与者会适应，系统本身也会因磨损或升级而发生变化。一个在部署时表现优异的策略，数周或数月后可能就变得次优甚至有害。更重要的是，部署本身就是一种持续获取真实环境数据的机会——而一次性RL完全忽视了这一宝贵资源。我们的核心立场是：部署的强化学习系统应当在整个运行生命周期内持续学习和适应。这不仅仅是一种技术改进，而是对RL应如何在现实世界中运作的根本性重新思考。 ## 2. 一次性RL的局限性 ### 2.1 分布偏移问题一次性RL面临的最根本问题是训练分布与部署分布之间的不匹配。即便使用了域随机化或其他鲁棒性技术，训练环境也无法完全覆盖真实部署条件的多样性。当环境随时间演变时，这种差距只会愈发扩大。 ### 2.2 数据利用效率低下部署的RL系统在与环境交互时会产生大量宝贵数据，但一次性范式完全丢弃了这些信息。这是一种巨大的浪费——这些实际运行数据往往比训练数据更能反映真实世界的复杂性。 ### 2.3 无法从错误中恢复当策略遭遇训练分布之外的情况时，一次性RL系统无法自主修正。唯一的解决方案是重新训练并重新部署，这既耗时又成本高昂，在许多实际场景中甚至不可行。 ### 2.4 错失改进机会随着系统积累更多与真实用户和环境交互的经验，策略理应变得越来越好。一次性RL无法利用这种自然积累的经验来提升性能。 ## 3. 持续性部署RL的愿景我们所倡导的持续性部署RL，是指系统在整个部署生命周期内： 1. 持续收集与真实环境交互的经验数据 2. 在线更新策略以适应环境变化和新发现的规律 3. 保持安全约束，确保持续学习不会导致性能急剧下降或危险行为 4. 平衡探索与利用，在不影响当前服务质量的前提下寻求改进这一愿景与持续机器学习（Continual ML）的理念高度契合，但RL场景带来了独特的挑战：智能体的行为直接影响其所获得的数据，探索可能产生实际代价，而奖励信号往往稀疏且延迟。 ## 4. 关键挑战 ### 4.1 灾难性遗忘持续学习最著名的挑战是灾难性遗忘——在学习新任务时忘记旧知识。在RL场景中，这意味着适应新情况可能导致在已掌握情况下的性能退化。需要开发能够在保持既有能力的同时适应新情况的算法。 ### 4.2 安全性与稳定性部署中的持续学习引入了新的安全风险。一个正在学习的系统可能尝试危险动作，或者由于错误的梯度更新而突然性能下降。需要建立严格的安全机制，包括行为约束、性能监控和自动回滚能力。 ### 4.3 非平稳性处理持续性RL系统必须区分真正的环境变化（需要适应）和观测噪声（不应过度拟合）。同时，系统自身的学习也会改变数据分布，造成非平稳性，给学习算法的稳定性带来挑战。 ### 4.4 样本效率在线学习通常比离线批量学习样本效率更低。在部署场景中，每次交互都可能有实际成本，因此需要高度样本高效的算法，能够从少量新数据中快速适应。 ### 4.5 评估与监控如何判断持续学习是否真正带来了改进？如何检测策略退化？需要建立全面的在线评估框架，能够在不中断服务的情况下持续监控系统性能。 ## 5. 现有方法与进展研究社区已在若干相关方向取得了进展：元强化学习训练能够快速适应新任务的智能体，为持续适应提供了有价值的视角。在线强化学习研究非平稳环境中的学习，直接与持续性部署RL的需求相关。持续监督学习开发了多种对抗灾难性遗忘的技术，如弹性权重整合（EWC）、渐进式神经网络等，这些方法有望迁移到RL场景。离线到在线RL研究如何利用离线数据进行预训练，然后通过在线交互进行微调，与我们的愿景高度吻合。然而，这些研究方向大多仍相互孤立，缺乏针对实际部署场景的整合性框架。 ## 6. 实践路径我们建议研究社区和从业者从以下几个方向推进持续性部署RL：建立基准：开发专门评估持续性部署RL能力的标准化基准，包括环境非平稳性、安全约束和长期性能指标。算法创新：设计原生支持持续学习的RL算法，而非将持续学习作为事后的补丁。系统基础设施：构建支持持续学习的工程基础设施，包括经验回放系统、在线评估框架和安全监控机制。跨领域合作：加强RL研究者与系统工程师、安全专家和实际部署从业者之间的合作。 ## 7. 结论我们相信，将部署的RL系统从一次性范式转向持续学习范式，是释放RL在现实世界应用中全部潜力的关键一步。这不仅能提升系统的长期性能和鲁棒性，更能从根本上改变我们思考和构建智能系统的方式。现实世界不会为我们的智能体停止演变。是时候让我们的智能体也不再停止学习了。

arXiv cs.LG

本立场文章认为，已部署的强化学习智能体永远不应停止学习，因为"先训练后修复"的范式在本质上无法应对现实环境中的非平稳性和分布偏移问题。作者识别出部署后非平稳性的四个来源，并倡导将持续强化学习作为已部署系统的标准方法。

从离散到连续：连续环境中神经强化学习的动力学

相似文章

@svlevine: 扩散（或流）可生成出色策略，但用强化学习训练它们却出了名的困难：BPTT不稳定，RL…

通过自适应安全约束实现非平稳环境下的安全持续强化学习

迈向连续时间因果基础模型

通过深度强化学习的连续时间最优停止

提交意见反馈