标签
本文提出了一种用于噪声物联网环境中自适应交通信号控制的主动推理控制器,在传感器遮挡和恶劣天气条件下,空闲时间和CO2排放均优于DQN。
提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。