从累积约束到自适应运行时安全控制用于非平稳强化学习

arXiv cs.LG 论文

摘要

提出CPSS,一种运行时安全机制,将累积成本约束转换为自适应状态级阈值,用于非平稳环境中的安全强化学习,在高速公路合流场景中展示了违规次数的减少。

arXiv:2605.18841v1 公告类型: 新 \n 摘要: 安全强化学习通常通过累积成本约束来指定,但这些轨迹级保证并不能直接防止不安全的个体决策,尤其是在非平稳条件下。在持续和非平稳设置中,难度被放大,因为相同动作的风险可能因上下文而异,而固定的状态级阈值可能过于保守或过于宽松。我们提出Constraint Projection Safety Shield (CPSS),一种运行时机制,在执行过程中将累积安全预算转换为自适应状态级控制约束。CPSS跟踪剩余安全预算,将其投影为时变可接受风险阈值,并过滤预测安全成本超过当前阈值的策略动作。该阈值使用上下文信号在线调整,使得在高要求或快速变化的模式下执行变得更严格,而在可用安全预算充足时限制较少。我们分析了最终的屏蔽策略,并表明该机制保证了已执行动作的每状态阈值满足,诱导出有限范围累积成本界,并在干预频率和每步奖励失真方面给出了性能退化界。我们在使用highway-env的非平稳高速公路合流场景中评估了CPSS。在多个随机种子下,CPSS显著减少了基于接近度的安全违规,增加了间距裕度,同时选择性干预而非主导学习策略。这些结果支持自适应预算到阈值投影作为将累积安全规范转化为持续强化学习系统有效局部安全控制的实用方法。
查看原文

相似文章

通过自适应安全约束实现非平稳环境下的安全持续强化学习

arXiv cs.LG

提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。

可配置奖励模型用于平衡安全对齐

arXiv cs.CL

本文介绍了一种可配置安全奖励模型(CSRM),该奖励模型可根据需求配置,以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果,并改善了有用性与安全性之间的权衡。

部分可观测下安全关键控制的动作条件风险门控

arXiv cs.LG

本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。