标签
本文提出VLM-Safe-RL框架,该框架将冻结的视觉语言模型集成到约束MDP的拉格朗日更新中,为高速视觉控制任务的安全强化学习提供预测性成本信号。该方法在Safety-Gymnasium FormulaOne L2上优于标准约束感知基线,并能泛化到未见过的环境。
提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。
本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。
本文提出了一种框架(CARE),该框架在逐点李雅普诺夫安全护罩下联合学习控制输入和通信高效的定时决策,在倒立摆、小车-杆系统和平面四旋翼飞行器上实现了比经典方法更高的采样间隔。