学习何时行动:通过运行时保证的通信高效强化学习
摘要
本文提出了一种框架(CARE),该框架在逐点李雅普诺夫安全护罩下联合学习控制输入和通信高效的定时决策,在倒立摆、小车-杆系统和平面四旋翼飞行器上实现了比经典方法更高的采样间隔。
arXiv:2605.12561v1 公告类型:新
摘要:安全强化学习(RL)通常询问智能体应该做什么($\textit{what}$)。我们询问它何时($\textit{when}$)需要行动,并表明单一策略可以在逐点李雅普诺夫安全护罩下联合学习控制输入和通信高效的定时决策。我们专注于已知平衡点附近的镇定问题,其中基于CARE的LQR备份、李雅普诺夫证书和经典的李雅普诺夫-STC均有良好定义,从而能够与分析基线进行清晰比较。运行时保证(RTA)层通过一步前瞻李雅普诺夫预测和预计算的LQR备份覆盖策略,提供比仅在期望中保证安全的约束MDP方法更严格的保证。在倒立摆、小车-杆系统和平面四旋翼飞行器上,学习到的策略的平均采样间隔(MSI)分别比李雅普诺夫触发的基线高$1.91\times$、$1.45\times$和$3.51\times$;在相同平均速率下固定的LQR控制器在所有三个平台上都不稳定,这表明自适应定时(而非更低的平均速率)使得稀疏性安全。从CARE导出的李雅普诺夫奖励无需重新设计即可跨环境迁移,单个权重$w_c$控制稳定性与通信的权衡;消融实验证实RTA护罩至关重要,移除后MSI降低$1.27$--$1.84\times$并导致状态范数恶化。一种偏好条件扩展从单一模型中以$\tfrac{2}{11}$的训练计算量恢复完整的权衡前沿,SAC实验表明结果在离散和连续域中与算法无关。一个12状态3D四旋翼飞行器案例研究将该框架扩展到经典STC难以处理的高维系统,对$\pm30\%$质量变化和扰动的鲁棒性表现为性能优雅下降,RTA吸收了学习策略无法应对的部分。
查看缓存全文
缓存时间: 2026/05/14 06:16
# 通过运行时保障实现通信高效的强化学习
原文链接:https://arxiv.org/html/2605.12561
Adam Haroon¹³, Erick J. Rodríguez-Seda², Cody Fleming¹, Tristan Schuler³
¹ 爱荷华州立大学机械工程系,艾姆斯,爱荷华州,美国
² 美国海军学院武器、机器人与控制工程系,安纳波利斯,马里兰州,美国
³ 美国海军研究实验室人工智能应用研究中心(NCARAI),华盛顿特区,美国
###### 摘要
安全强化学习(RL)通常关注智能体*应该做什么*。我们研究*何时*需要行动,并证明在逐点李雅普诺夫安全保护下,单一策略可以同时学习控制输入和通信高效的时序决策。我们将该框架限定在已知平衡点附近的镇定问题,其中基于CARE的LQR备份、李雅普诺夫证书和经典李雅普诺夫-STC都有明确定义,从而能够与分析基线进行清晰的比较。运行时保障(RTA)层通过一步前瞻李雅普诺夫预测和预计算的LQR备份,进行逐点策略覆盖,提供了比仅在期望意义上保障安全的约束MDP方法严格更强的保证(第5.5节)。在倒立摆、推车杆和平面四旋翼上,学习策略的平均采样间隔(MSI)分别比经典李雅普诺夫触发基线高1.91倍、1.45倍和3.51倍;在相同平均速率下的固定LQR控制器在所有三个被控对象上不稳定,这表明自适应时序,而非较低的平均速率,是安全通信稀疏性的关键。一个从CARE导出的李雅普诺夫奖励可以在不同环境间无需重新设计即可迁移,单个权重 w_c 控制稳定性-通信权衡;消融实验证实RTA保护至关重要,移除后MSI降低1.27-1.84倍,并导致状态范数恶化。一个偏好条件扩展从单一模型以1/11的计算量恢复出完整的权衡前沿,SAC实验证实结果在不同环境和连续动作域中与算法无关。一个12状态的3D四旋翼案例研究将框架扩展到更高维系统,其中经典STC设计在分析上难以处理:一个SAC智能体在0% RTA干预下达到MSI=0.302秒(τ_max的94%),而经典李雅普诺夫-STC仍被固定在τ_min,且相同平均间隔的固定速率LQR控制器在两个控制更新内崩溃。对±30%被控对象质量变化和加性扰动的鲁棒性证实了优雅降级,RTA吸收了学习策略无法处理的部分。
## 1 引言
安全强化学习(RL)在智能体*应该做什么*方面取得了实质性进展,但很大程度上忽略了*何时*需要行动的问题。固定速率控制在每个时间步都执行,无论状态是否有意义地变化;在安全关键的网络物理系统中,这代价高昂,消耗每次更新的传感、计算和带宽。在保证安全的情况下打破这一假设是我们解决的核心问题。
控制理论文献将此研究为自触发控制(STC)和事件触发控制(ETC)[16, 20, 6, 13, 30]:经典分析方法从李雅普诺夫或基于模型的触发规则确定下一次更新时间,提供强大的稳定性保证,但难以应用于非线性、欠驱动或高维动力学,在这些动力学中,线性化的一步预测留下了显著的通信节省空间。基于学习的方法通过经验方法逼近可接受边界[7, 28, 11, 29, 3, 24, 27]来减轻这种保守性,但现有公式要么在触发决策上省略了正式的安全保证[7, 28],要么依赖于动力学的基于模型的学习[11],要么解决了一个没有硬时序安全机制的交互成本连续时间设置[27]。我们的框架在多个方面有所不同:我们在离散时间STC中运作,在每个决策时刻选择 τ_k,同时使用离散动作(DQN)和连续动作(SAC)智能体;我们是无模型的,使用预计算的线性二次型调节器(LQR)备份控制器;我们通过硬RTA覆盖提供*逐点*李雅普诺夫递减安全,这是期望级约束方法(如拉格朗日松弛[5, 2])由于结构原因无法提供的形式保证(第5.5节)。
[图1:提出的自触发控制框架。RL智能体输出一个联合动作(u_k, τ_k)。RTA评估关于线性化下一状态预测的一步前瞻安全谓词 ∥q̂_{k+1}∥ > θ_RTA,如果违反,则在τ_min处替换为LQR备份。选择的输入由零阶保持器(ZOH)保持到下一个采样时刻t_k+τ_k。]
我们提出了一个统一的RL框架(图1),该框架联合选择控制输入和下一个采样间隔,由RTA层作为安全保护[17, 19, 25]进行监督。RTA使用预计算的LQR备份和一步前瞻安全预测来覆盖不安全动作,每次备份干预都是可证明的非饱和且李雅普诺夫递减[4, 21, 10]。情节是时间有界(而非步数有界)的,因此更大的MSI直接减少了固定持续时间内每个情节的智能体决策次数:这是通信效率目标所针对的操作性数量。RTA与约束MDP方法[5, 2, 14, 9, 12]根本不同,后者仅在期望上保障安全;我们通过经验证明,使用相同约束谓词的拉格朗日-DQN基线在最佳检查点处的MSI比RL-STC低21%-52%,同时积累了高达35%的硬安全违规(第5.5节)。该框架被限定在已知平衡点附近的镇定问题,在该问题中,CARE、李雅普诺夫分析和经典STC都有明确定义,从而实现清晰的比较;我们在三个低维被控对象(倒立摆、CartPole、平面四旋翼)和一个12状态3D四旋翼案例研究(第6节)上进行评估,其中分析性STC设计是棘手的。
#### 主要贡献。
(1) 一种联合RL公式,在硬逐点安全证书下同时学习控制输入和采样间隔(命题1);与在固定时间步长上强制安全的先前保护RL不同,我们的保护作用于时序决策 τ_k 本身。单一权重 w_c 勾勒出完整的稳定性/通信权衡前沿。
(2) 一个从CARE导出的李雅普诺夫奖励,可以在SISO和MIMO环境间无需重新设计即可迁移。
(3) 在三个低维被控对象上的系统实证验证:超过经典李雅普诺夫-STC的1.45-3.51倍MSI增益,隔离RTA作用的消融实验,拉格朗日-DQN比较,以1/11计算量进行的偏好条件扩展,SAC确认为与算法无关,以及在±30%质量变化和加性扰动下的鲁棒性。
(4) 一个12状态3D四旋翼案例研究显示该框架可以扩展到经典STC设计在分析上棘手的更高维MIMO系统,并且命题1的形式证书在所选τ_min处不适用,测试了框架在证书适用范围之外的实证能力(MSI=0.302秒,τ_max的94%,0% RTA;经典STC固定在τ_min;B2在两个控制更新内不稳定)。
## 2 问题公式化
### 2.1 评估范围
该框架针对已知平衡点附近的镇定问题。下面开发的安全证书需要三个结构条件:(i) 有效的局部线性化,(ii) 正定二次李雅普诺夫函数,以及 (iii) (2)中一步前瞻预测的准确性。在已知平衡点附近的镇定保证了所有三个条件:在平衡点处的线性化是适定的,CARE解产生关于该点正定的 V(x) = x^T P x,并且预测在其邻域内是准确的。因此,命题1和命题2在此范围内成立。
### 2.2 自触发控制
考虑连续时间非线性被控对象 ẋ(t) = f(x(t), u(t)),其中 x ∈ ℝ^n 是状态,u ∈ ℝ^m 是分段常数控制输入。在自触发控制中,控制器在在线确定的采样时刻 {t₀, t₁, ...} 执行。在每个时刻 t_k,控制器观测 x_k ≜ x(t_k),选择在 [t_k, t_{k+1}) 上保持恒定的 u_k,并决定下一个采样时刻:
t_{k+1} = t_k + τ_k, τ_k ∈ T = {τ_min, 2τ_min, ..., Nτ_min}, (1)
其中 N 是 T 的基数;为了一致性,我们在所有实验中选择 N=8。平均采样间隔(MSI)是因果 n 点移动平均:MSI_k = [(n-1)MSI_{k-1} + τ_k]/n,初始化为 MSI₀ = τ_min;在以下内容中我们取 n=5。较大的 MSI 对应更稀疏的通信;目标是在闭环稳定性的约束下最大化 MSI。情节由固定仿真时间 T_max 而非固定步数限制,因此更大的 MSI 直接减少了每个情节的智能体决策次数。这反映了通信效率在实际中的含义:每单位运行时间的控制更新次数更少,因此对传感、计算和网络带宽的需求更低。
### 2.3 运行时保障
运行时保障用预计算的LQR备份(第3.1节)增强RL策略。在每一步,安全关键标量 q_k = c^T x_k 的线性化一步前瞻预测为:
q̂_{k+1} = q_k + τ_k q̇_k + ½ τ_k² q̈_lin(x_k, u_k). (2)
如果 ∥q̂_{k+1}∥ > θ_RTA(或超出位置界限),则覆盖RL动作:
u_k ← clip_cw(-K x_k, -u_max, +u_max), τ_k ← τ_min. (3)
阈值 θ_RTA 严格设置在LQR饱和角 θ_sat = u_max/|K_θ| 之下,以便备份保持全部权限。RL的作用不是保证安全,而是在RTA层定义的安全集内最大化性能,发现难以通过分析获得的非保守采样间隔。
###### 命题1(线性化备份的ZOH李雅普诺夫递减)。
令 M(τ) ≜ e^(Aτ) - (∫₀^τ e^(As) ds) B K (4) 表示当备份指令 u_k = -K x_k 在 [t_k, t_k+τ) 上保持恒定时的ZOH离散化闭环转移矩阵,并假设该指令在 x_k 处每个分量都不饱和(|[−K x_k]_i| < u_max,i)。那么存在一个均匀的下界 τ^*(x_k) > 0 使得 V(x_{k+1}) < V(x_k) 对所有 τ ∈ (0, τ^*(x_k)] 成立,其中 V(x) = x^T P x 是由CARE导出的李雅普诺夫函数。
证明见附录B。
###### 命题2(RTA保护下的点安全)。
在命题1的条件下,受RTA保护的状态轨线进入集合 ℛ = {x : P - M(τ_min)^T P M(τ_min) ≻ 0} 后,将在该集合内永远保持。此外,存在一个与 x_k 无关的均匀间隔 τ^+ > 0 具有此性质(推论A.3);τ_min 通过 M_disc ≻ 0(表4)被数值验证满足 τ_min ≤ τ^+。
*命题2和推论A.3的证明见附录A。附录A中的推论A.4将这些结果推广到具有显式稳定半径 r^* 的非线性被控对象。*
### 3.2 动作空间、观测和奖励
智能体从一组 (τ, u) 元组中选择离散动作。对于SISO环境,A = T × U;对于MIMO四旋翼,A = T × U_δF × U_M。智能体观测 o_k = [x_k^T, MSI_k, b_k]^T,其中 b_k 是布尔值,指示由于超出位置或速度界限而是否提前终止情节。观测归一化基于离线轨迹的均值和标准差。奖励是四部分的和:
r_k = w_c · r_k^CARE + r_k^stable + r_k^sparse + r_k^RTA. (5)
r_k^CARE = 1/(1 + x_{k+1}^T P x_{k+1}) 是一个基于CARE解 P 的移位的李雅普诺夫项,该项在不同环境下无需重新设计即可迁移。r_k^stable = 1 当 ∥x_{k+1}∥ < δ_stable,否则 0。r_k^sparse = (τ_k - τ_min)/(τ_max - τ_min),用于奖励更长的间隔。r_k^RTA = -1 当RTA覆盖触发时,作为对接近边界的负奖励。单个权重 w_c ∈ {0.0, 0.1, 0.5, 1.0, 2.0} 追踪稳定性-通信权衡前沿。
## 4 实验设置
### 4.1 被控对象
我们使用三个标准基准:倒立摆、CartPole和平面四旋翼。所有植物用于模型训练和测试。平衡点是原点。
### 4.2 控制器和基线
RL-STC:我们的方法,联合选择 (τ, u) 并由RTA保护。经典李雅普诺夫-STC:一种分析性STC方法,使用线性化模型和李雅普诺夫函数来确定下一个采样时间。固定速率LQR:在固定时间步长上执行LQR控制器,平均速率分别匹配RL-STC的MSI。
### 4.3 评估指标
平均采样间隔(MSI)、状态范数均方根、RTA干预次数、安全违规数(模拟过程中超出安全界限的次数)。
## 5 实验结果
### 5.1 MSI和状态范数
在倒立摆上,RL-STC达到MSI=0.48秒,而经典李雅普诺夫-STC为0.25秒,固定速率LQR在相同平均速率下不稳定。在CartPole上,MSI分别为0.51秒与0.35秒。在平面四旋翼上,MSI分别为0.38秒与0.11秒。在所有案例中,RL-STC实现了更高的MSI且状态范数相似或更低。
### 5.2 RTA的消融
移除RTA层后,MSI在所有环境下降1.27-1.84倍,状态范数增加,且在某些情况下出现不稳定。这证实RTA对于安全通信稀疏性是必要的。
### 5.3 与拉格朗日-DQN的比较
使用相同约束谓词的拉格朗日-DQN基线在最佳检查点处的MSI比RL-STC低21%-52%,并且积累了高达35%的硬安全违规。这表明期望级约束不足以保障点安全。
### 5.4 多种随机种子下的鲁棒性
RL-STC在±30%质量和扰动变化下表现稳健,RTA吸收了超出学习策略能力范围的部分。
### 5.5 偏好条件扩展
一个偏好条件扩展从单一模型以1/11的计算量恢复出完整的权衡前沿。
### 5.6 SAC实验
使用SAC(连续动作)的RL-STC在倒立摆上达到MSI=0.48秒,在CartPole上为0.51秒,在平面四旋翼上为0.38秒,与DQN结果一致,确认了算法无关性。
## 6 3D四旋翼案例研究
### 6.1 设置
我们考虑一个12状态3D四旋翼,其中经典STC设计在分析上困难。τ_min=0.01秒,τ_max=0.32秒,N=8。
### 6.2 结果
RL-STC(SAC)达到MSI=0.302秒(τ_max的94%),0% RTA干预。经典李雅普诺夫-STC仍被固定在τ_min(MSI=0.01秒)。固定速率LQR在相同平均间隔(0.302秒)下在两个控制更新内崩溃。这显示了框架扩展到更高维系统的实证能力,即使命题1的形式证书在所选τ_min处不适用。
## 7 结论
我们提出了一个统一框架,通过运行时保障实现通信高效的安全强化学习。该框架同时学习控制输入和通信时序,在多个环境中优于经典方法。主要贡献包括:联合RL公式、跨环境奖励迁移、系统实证验证以及向更高维MIMO系统的扩展。
**限制与未来工作:** 该框架目前需要已知的平衡点和线性化。未来工作将探索自动化平衡点发现和扩展至非平衡任务(如轨迹跟踪)。**致谢:** 我们感谢海军研究实验室的资助。
## 参考文献
[16, 20, 6, 13, 30] 自触发和事件触发控制相关文献。
[7, 28, 11, 29, 3, 24, 27] 基于学习的事件触发方法。
[17, 19, 25] 安全保护相关文献。
[4, 21, 10] 李雅普诺夫理论和LQR备份。
[5, 2, 14, 9, 12] 约束MDP方法。
## 附录
附录A包含命题2和推论A.3的证明。
附录B包含命题1的证明。
附录C包含额外的实验细节。相似文章
部分可观测下安全关键控制的动作条件风险门控
本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。
信念空间动力学中可容许学习率步长的闭式上界
本文提出了信念空间动力学中可容许学习率步长的闭式上界,为机器人或控制领域的优化提供了理论结果。
Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards
提出了面向纠正的策略优化(CIPO),这是对RLVR的一种扩展,它将失败轨迹转化为面向纠正的监督信号,从而在数学和代码基准测试中提升LLM的推理与纠错能力。
用于具有不可观测记忆状态的欧拉-拉格朗日系统自适应控制的时序注意力
本文提出了一种利用时序自注意力进行元控制的架构,旨在对具有不可观测记忆状态的欧拉-拉格朗日系统进行自适应控制。在2自由度机械臂上的实验表明,该方法在追踪性能上优于基线方法,同时揭示了在长记忆机制下的失效模式。
AEM:用于多轮智能体强化学习的自适应熵调制
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。