自动驾驶中基于不确定性感知与时间规制的专家建议强化学习

arXiv cs.AI 论文

摘要

本文提出了一种面向自动驾驶的不确定性感知强化学习框架,通过自适应不确定性阈值和承诺-冷却策略引导的专家建议,提升了安全性和效率。在CARLA模拟器上的实验表明,相较于IQN基线,成功率提高了5%-7%。

arXiv:2605.30576v1 公告类型:新 摘要:自动驾驶中的强化学习探索本质上是危险的:智能体必须通过体验新行为来学习,但探索可能导致碰撞或偏离道路。我们提出了一种不确定性感知框架,利用专家建议引导探索,同时避免长期依赖。当认知不确定性或偶然不确定性超过由滚动缓冲区导出的自适应阈值时,会触发建议,确保建议随着智能体的置信度动态调整。采用带有随机早停启发式的承诺-冷却策略来调节引导的持续时间和频率,使智能体能够体验连贯的操作,同时避免过度消耗建议预算。在离线策略隐式分位数网络(IQN)主干中,专家和智能体的经验被合并到共享回放缓冲区中,实现了专家轨迹的高效复用。在CARLA中的实验表明,我们的方法优于IQN基线,将成功率提高了5%-7%并减少了失败,证明了风险敏感的不确定性与规制的专家集成相结合,能够为基于传感器的强化学习策略在无信号交叉口导航中实现更安全、更高效的探索。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:23

# 自动驾驶强化学习中考虑不确定性且受时间调节的专家建议  
来源:https://arxiv.org/html/2605.30576  

Ahmed Abouelazm¹,², Felix Klingebiel², Philip Schoerner¹,², and J. Marius Zöllner¹,²  
¹作者单位:德国FZI信息技术研究中心,邮箱:[email protected]  
²作者单位:卡尔斯鲁厄理工学院,德国  

###### 摘要  

自动驾驶强化学习中的探索本质上是不可靠的:智能体必须经历新行为才能学习,但探索可能导致碰撞或偏离道路行驶。我们提出一个考虑不确定性的框架,利用专家建议引导探索,同时避免长期依赖。当认知不确定性或随机不确定性超过由滚动缓冲区得出的自适应阈值时,触发建议,确保建议随着智能体的置信度而演变。一种带有随机早期停止启发式的承诺-冷却策略规范了指导的持续时间和频率,使智能体在不过度消耗建议预算的情况下,接触到连贯的操纵行为。专家和智能体的经验被合并到一个共享的 replay buffer 中,采用离策略的隐式分位数网络(IQN)作为主干,从而实现对专家轨迹的高效重用。在 CARLA 中的实验表明,我们的方法优于 IQN 基线,成功率提高了 5–7%,并且减少了故障,证明了风险敏感的不确定性结合受调节的专家集成,能够为基于传感器的强化学习策略学习实现更安全、更高效的探索,尤其是在无信号交叉口导航任务中。  

## I. 引言  

端到端(E2E)已成为自动驾驶(AD)的一种有前景的范式,它将原始传感器输入直接映射到控制动作,减少了对手工构建模块化管线的依赖[6]。在 E2E 方法中,强化学习(RL)特别有吸引力:与依赖专家演示的模仿学习(IL)不同,RL 使智能体能够通过与环境的直接交互来适应[32]。通过探索不同的行为并通过奖励获得反馈,RL 智能体可以处理复杂情况,如遮挡、异常驾驶以及数据集中代表性不足的罕见事件。然而,RL 在样本效率和安全性方面也提出了根本性挑战[14]。学习过程由探索(智能体有意采样新颖动作以获取新知识)和利用(应用当前策略以最大化预期奖励)之间的相互作用驱动[32]。探索对于避免次优策略和发现有效驾驶策略是必不可少的,但它本质上涉及不安全或不受欢迎的行为[36]。同时,广泛的探索会导致样本效率低下,因为智能体在收敛到可靠策略之前需要大量的交互[12]。这些局限性凸显了对约束或修剪探索机制的需求,将智能体引向状态空间中的信息丰富区域,同时防止不必要的操作。  

**研究空白。** 现有关于 AD 中 RL 安全探索的工作遵循了几个方向。正式方法如约束马尔可夫决策过程(CMDP)[17]和 李雅普诺夫函数[25]明确地编码了安全性,但它们需要手工定义风险,涉及复杂优化,并且没有提供引导策略走向更安全操作的机制。为了解决这些局限性,专家知识通过演示被引入。基于演示的预训练[7]加速了收敛,但使智能体容易受到不安全探索的影响,并且没有提供纠正反馈;而人在环系统[18]允许有针对性的干预,但不可扩展,并且与智能体的内部决策过程脱节。更具可扩展性的替代方案是用基于规则的[38]或学习的[41]专家策略替代人类,基于预定义的启发式规则自动进行干预。虽然有效防止了不安全 rollout,但基于规则的触发过于保守且依赖于上下文,而学习型专家则假设强大的泛化能力,当这个假设失败时,可能会用糟糕的动作覆盖正确的动作。最近的进展将控制权转移给智能体,允许其通过诸如状态不确定性[8]和状态新颖性[19]等触发器在需要时查询专家建议。然而,这些方法仍然主要是以状态为中心的,忽略了智能体探索行为带来的风险,并且缺乏调节建议频率和影响的机制。为了解决这些缺陷,需要扩展不确定性估计以捕捉与动作相关的风险的方法,并结合自适应机制来调节建议并将安全性嵌入到学习到的策略中。  

**贡献。** 这项工作提出了一个用于 AD 的 RL 框架,通过将不确定性估计扩展到考虑与动作相关的风险,并通过自适应机制集成专家输入,从而提高了探索安全性。主要贡献如下:  
- **考虑不确定性的专家指导:** 智能体在认知或随机不确定性高的状态下请求建议,并将专家和智能体的转换都存储在一个共享的缓冲区中进行训练。  
- **不确定性估计:** 随机不确定性(环境风险)来自回报方差,而认知不确定性(知识有限)通过自助聚合进行测量,从而能够检测高风险和未充分探索的状态。  
- **承诺-冷却策略:** 通过短时应用专家动作并强制冷却来规范建议的使用,确保有效指导而不产生过度依赖。  

## II. 相关工作  

AD 中的安全 RL 具有挑战性,因为需要在效率和安全性之间取得平衡。一种常见的方法是通过约束或学习目标来规范探索。CMDP 公式将累积风险限制在预定阈值以下[39, 17],而基于李雅普诺夫的方法通过要求李雅普诺夫函数沿轨迹递减来强制执行稳定性[25, 11]。控制障碍函数(CBF)定义前向不变安全集,并强制执行约束以保持轨迹在这些集合内[33, 34],而分布式 RL 则优化风险敏感回报,例如条件风险价值(CVaR)[3, 21]。尽管存在差异,但这些方法共享关键局限性:它们求解复杂的优化问题,依赖于手动定义的成本或稳定性条件,或者依赖于在训练初期尤其嘈杂的学习目标,并且关键是,它们缺乏主动引导策略走向更安全操作的机制。这促使了专家知识和演示的使用,这些在探索过程中提供了更直接、更有效的信号。几项工作利用演示来预训练策略,这加速了收敛,但使智能体容易受到不安全探索的影响,并且在训练过程中不提供纠正反馈[7, 31]。早期的集成策略交替使用专家和智能体策略收集 episodes[13, 5],这提高了鲁棒性,但仍将专家输入限制在整个 episodes 而非针对性干预。由于这些 episodes 主要捕获正常驾驶,很少说明如何从不安全状态恢复,这些方法未能教会智能体在最需要指导的情况下如何行动。这一局限性推动了对更主动系统的兴趣,这些系统中专家可以干预,或者智能体选择性地查询建议。一种常见的主动专家干预形式是在环训练[30, 18],其中监督员监控环境并提供纠正动作,引导智能体脱离不安全状态。虽然有效,但这种方法对于长时间训练不可扩展,在何时以及如何干预方面引入了偏差,并且仍然与智能体的决策过程脱节,因为人类无法完全观察智能体的意图,并且可能过早地覆盖潜在的恢复动作。这些挑战已将注意力转向替代性专家策略,这些策略可以在训练期间提供更可扩展且一致的干预。  

对于此类替代策略,需要明确的干预信号来决定何时修剪不安全的探索。一个方向依赖于基于规则的风险定义,如果与智能体行为相关的风险超过阈值[27, 21]或通过安全分析将该行为识别为不安全[38, 35],则进行干预。虽然有效避免了不安全的角色,但这些定义通常复杂、依赖于上下文,并且可能限制探索并阻碍策略改进。为了克服基于规则专家的僵化性,最近的工作采用了学习型专家策略。如果智能体的动作在专家策略下具有低似然[29],或者专家的价值函数认为该动作不安全[37],或者它与专家的最优动作显著偏离[41],则这些专家会进行干预。尽管更加灵活,但这些方法假设专家策略能够在状态空间上可靠地泛化。当这个假设失败时,干预可能会用糟糕的动作覆盖合理的智能体动作,导致次优行为。这为以下方法开辟了道路:智能体选择性地查询专家建议,而不是被迫干预。  

专家建议赋予智能体更多控制权,允许其决定何时查询专家。几项工作基于从智能体学习过程中得出的信号触发建议,例如状态不确定性[22, 8]、状态新颖性[19, 40]或与不安全状态的相似性[4]。虽然这些方法提供了一个更主动的框架,但它们主要关注基于状态的度量,忽略了智能体行为引起的风险,缺乏调节建议影响或频率的机制,并且通常依赖固定阈值来决定何时干预。这些空白激发了我们的选择性专家建议框架,该框架将不确定性估计扩展到明确考虑与动作相关的风险,并采用自适应触发来提供有针对性的指导,使指导在训练期间内化到策略中。  

## III. 方法论  

我们的框架如图 1 所示,引入了一种建议机制,当智能体的策略对状态不确定(认知不确定性)或由于其动作而可能不安全(随机不确定性)时,智能体请求指导。一种自适应触发策略规定了建议何时以及适用多长时间,确保干预加速学习而不产生长期依赖。  

### III-A 问题形式化  

我们将 AD 的策略学习形式化为一个部分可观察马尔可夫决策过程(POMDP),由元组 \(M = \langle S, A, P, r, O, \gamma \rangle\) 定义,其中 \(S\) 和 \(A\) 表示状态和动作空间,\(P(s' | s, a)\) 是转移模型,描述了在状态 \(s\) 下采取动作 \(a\) 到达状态 \(s'\) 的概率。奖励 \(r(s, a)\) 指定了在状态 \(s\) 下采取动作 \(a\) 的即时反馈,而 \(\gamma \in [0, 1)\) 是折现因子,平衡短期和长期回报。与 MDP 不同,智能体无法直接访问底层状态 \(s_t\)。相反,在执行动作 \(a_t\) 后,它接收到一个观测 \(o_{t+1} \sim O(s_{t+1}, a_t)\),该观测通过传感器模型从隐藏状态 \(s_{t+1}\) 生成。  

图 1:所提出的考虑不确定性的专家指导框架概述。一个集成的分布式架构提供认知和随机不确定性估计。当任一不确定性超过从滚动缓冲区派生的自适应阈值时,智能体查询专家。一种承诺-冷却机制调节建议的频率和持续时间。  

除了其自身的策略 \(\pi_\theta\) 之外,智能体还可以访问一个专家策略 \(\pi_E\),该策略可以被查询建议,但受限于全局预算 \(B\),该预算限制了总请求次数,并反映了实际约束,例如人类监督的有限可用性或计算成本较高的专家控制器。我们将专家视为一个黑箱预言机,不对其最优性或一致性做任何假设;我们仅要求它能够为给定的观测或状态提供动作。为了规范何时请求建议,我们引入了一个建议决策策略 \(\phi: O \times A \to \{0, 1\}\)。为方便起见,记 \(\phi_t = \phi(o_t, a_t)\),其中 \(\phi_t = 1\) 表示在时间 \(t\) 查询专家策略 \(\pi_E\),而 \(\phi_t = 0\) 表示智能体遵循其自身策略 \(\pi_\theta\)。  

### III-B 策略学习算法  

我们的框架需要一个能够将专家建议与智能体经验相结合的学习算法。这激发了一种离策略方法,其中经验在行为策略 \(\pi_b\) 下收集,并用于优化目标策略 \(\pi_\theta\)。这种解耦允许专家动作与智能体的 rollout 一起插入到共享的重放缓冲区中,确保建议可以在多次更新中重复使用。相比之下,在策略方法将数据收集和优化耦合在一起,因此专家覆盖会产生有偏的梯度估计。此外,这些方法在每次更新后丢弃 rollout;专家纠正无法重复使用,其效果是短暂的。  

部分可观察性进一步使 AD 复杂化,因为决策必须在认知(知识有限)和随机(传感器噪声和遮挡)不确定性下做出。传统的基于价值的方法仅优化期望回报,这无法捕获这些不确定性。为了解决这个问题,我们采用了一种分布式

相似文章

通过自适应安全约束实现非平稳环境下的安全持续强化学习

arXiv cs.LG

提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。

面向部分可观测环境下自动驾驶的统一风险地图学习

Hugging Face Daily Papers

提出了一种面向部分可观测环境的自动驾驶统一风险地图建模框架,该框架通过时空建模和基于扩散的场景生成,整合了交通流风险和碰撞风险。在Waymo Open Motion数据集上,该方法优于最先进的遮挡感知基线。

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。