标签
本文提出了一种面向自动驾驶的不确定性感知强化学习框架,通过自适应不确定性阈值和承诺-冷却策略引导的专家建议,提升了安全性和效率。在CARLA模拟器上的实验表明,相较于IQN基线,成功率提高了5%-7%。