ScenePilot: 可控的边界驱动型自动驾驶关键场景生成
摘要
ScenePilot 提出了一个可行性引导的、边界驱动的框架,用于为自动驾驶生成安全关键场景,通过约束多目标强化学习来生成物理上有效但会诱发失败的场景。
arXiv:2605.21168v1 公告类型: 新
摘要: 安全关键场景对于评估自动驾驶系统至关重要,然而它们在自然驾驶日志中十分罕见,这使得基于仿真的压力测试不可或缺。大多数场景生成方法将周围交通参与者视为对手,但它们要么 (i) 在未显式建模车辆-道路物理极限的情况下诱发失败,产生视觉上极端但物理上不可解的碰撞,要么 (ii) 孤立地强制物理可行性或策略可行性,这可能导致过度关注激进驾驶行为或局限于依赖控制器的能力边界。我们提出了 ScenePilot,一个可行性引导的、边界驱动的框架,瞄准边界带:那些原则上物理可解但仍会导致已部署的自动驾驶系统失败的情景。我们将生成问题建模为约束多目标强化学习,结合基于RSS的物理可行性评分 $\sigma$ 和在线学习的自动驾驶风险预测器 $\Phi$,并引入步级可行性感知屏蔽,使探索保持在可行性边界附近,同时避免不可行的伪影。在 SafeBench 上使用多个规划器进行的实验表明,ScenePilot 在保持物理有效性的同时,实现了显著更高的碰撞率(+6.2 个百分点),并且在这些边界带场景上进行对抗性微调能持续降低下游碰撞率。代码可在 https://github.com/QiyuRuan/ScenePilot 获取。
查看缓存全文
缓存时间: 2026/05/22 08:50
# ScenePilot:面向自动驾驶的可控边界驱动关键场景生成 来源:https://arxiv.org/html/2605.21168 ###### 摘要 安全关键场景是评估自动驾驶系统的核心,但由于其在自然驾驶日志中极为罕见,基于仿真的压力测试不可或缺。大多数场景生成方法将周围智能体视为对手,但它们要么(i)在未明确建模车辆-道路物理极限的情况下诱导失败,产生视觉上极端但物理上不可解的碰撞,要么(ii)孤立地强制物理可行性或策略可行性,这可能导致过度关注激进操作或局限于依赖控制器的能力边界。我们提出ScenePilot,一个可行性引导的边界驱动框架,目标锁定在边界带:即原则上物理上可解但仍导致部署的自动驾驶堆栈失败的场景。我们将生成问题建模为约束多目标强化学习,结合从RSS衍生的物理可行性分数σ与在线学习的自动驾驶风险预测器Φ,并引入步骤级可行性感知屏蔽,使探索保持在可行性边界附近,同时避免不可行的伪影。在SafeBench上使用多个规划器的实验表明,ScenePilot在保持物理有效性的同时,实现了显著更高的碰撞率(+6.2个百分点),并且在这些边界带场景上进行对抗性微调能够持续降低下游碰撞率。代码已开源在https://github.com/QiyuRuan/ScenePilot。 场景生成,自动驾驶,强化学习 ## 1 引言 安全关键场景在真实交通中很少见,但对自动驾驶车辆(AV)却至关重要。大规模自然驾驶日志覆盖了日常交互,但真正高后果的事件仅占数据的一小部分(图1(a))(Liu and Feng, 2024)。因此,在被动回放中表现可靠的自动驾驶堆栈仍可能在罕见但关键的边界情况中失败。尽管交通规则合规性和在线验证可以检查自动驾驶行为是否满足形式化规则或在执行过程中保持在可达安全集内(Althoff et al., 2025;Althoff and Dolan, 2014),但它们主要作为运行时保证机制,而非发现多样性失效交互的主动工具。这促使基于仿真的场景生成成为一种补充评估工具,用以系统性地暴露罕见且信息丰富的安全关键场景(Sun et al., 2021)。 参见图注 图1:四种交互制度的示意图(相对于自动驾驶控制器和物理可行性)。 在仿真中,关键场景生成通常被建模为对抗性问题:将周围车辆视为扰动主车走向失败的智能体,并通过强化学习或生成模型进行训练,以诱导超出自然回放频率的碰撞(Wachi, 2019)。虽然有效增加了失败次数,但许多方法隐含地优化单一目标——让主车发生碰撞——而不控制生成的失败是否具有信息性甚至物理意义(Ding et al., 2020;Lu et al., 2022;Niu et al., 2023)。特别是,当未显式建模车辆-道路物理极限时,对手可能利用不现实的加速度、时机或几何结构,制造视觉上激烈但物理上无法挽救的碰撞,即没有任何可接受的控制能够避免碰撞(Ghodsi et al., 2021;Rempe et al., 2022)。这些情况测试了数值鲁棒性,但混淆了“难度”与“物理无效性”,使得失败是否揭示了自动驾驶堆栈的真正缺陷变得不明确。 一个自然的回应是将“物理可行性”纳入场景生成。物理约束方法将对抗性扰动限制在物理上可实现的行为内。AdvSim(Wang et al., 2021)在保持物理上合理的运动和一致的传感器观测的同时扰动智能体的轨迹,ACERO(Song et al., 2023)则搜索能够在闭环仿真中可靠触发失败的现实且可执行的操作。这些方法排除了明显不现实的交互,并产生了合理的压力测试(图1(b))。然而,将物理可行性作为主要引导约束可能导致生成坍缩到靠近物理极限的极端边界推进操作,从而产生高度对抗性样本的偏斜集合,未能充分代表更典型的近边界交互(Stoler et al., 2025)。更广泛地说,过度依赖此类高度对抗性样本可能损害标称性能,且不一定能转化为改进部署自动驾驶堆栈的可操作见解(Raghunathan* et al., 2019)。 与物理约束生成互补,另一条工作线通过“自动驾驶策略能力”来约束对抗性(图1(c))。例如,FREA(Chen et al., 2025)利用策略可行性信号将生成引导至堆栈能力边界附近的失败。这种控制器感知的视角对于诊断特定堆栈具有可操作性,但它将生成锚定到依赖于控制器的边界,并未揭示自动驾驶在环境物理极限附近的运行情况。特别是,部署堆栈认为不可恢复的状态在允许的动力学子下可能仍然是物理上可解的,因此策略约束生成可能遗漏信息最丰富的区域,即失败“原则上可避免”但因堆栈限制而持续存在的情况。 本文采用一个简单的组织观点:场景难度由两个因素决定——车辆-道路交互的物理可行性和部署自动驾驶堆栈的自动驾驶策略能力。它们的相互作用定义了四个区域(图1):(a) 远离两个极限的标称交互;(b) 物理约束生成产生的物理可行但不一定具有信息性的对抗案例;(c) 策略约束生成产生的控制器受限案例;(d) 一个特别有信息量的边界带,其中交互保持物理上可解,但仍能破坏部署堆栈。我们认为这个边界带最能隔离能力差距:失败并非由物理定律注定,而是源于当前自动驾驶堆栈的限制。 基于这一观点,我们提出ScenePilot,一个可行性引导的对抗性场景生成框架,目标锁定在边界带(图1(d))。ScenePilot通过使用RSS衍生的分数σ量化物理可行性,并使用在线学习的风险预测器Φ估计堆栈脆弱性,显式分离了这两个因素。我们将对抗性场景生成建模为约束多目标马尔可夫决策过程,并引入“步骤级可行性感知屏蔽”,当对手接近不可行交互时优先恢复可行性,同时保持对高风险失败的压力。为了系统性地探索近边界区域,避免坍缩到一小组极端操作,我们进一步采用带有ε的“可行性阈值扫描”,控制生成运行到物理可行性边界的接近程度,并将样本集中在物理可行但策略不可行的带上。 总之,我们的贡献如下: - •我们提出了一种可行性引导的公式,将物理可行性与自动驾驶策略能力解耦,并瞄准它们的边界带,即场景物理上可解但仍诱导部署自动驾驶堆栈失败的区域。 - •我们开发了一个约束多目标对抗性生成器,将物理和策略信号(σ, Φ)与步骤级可行性感知屏蔽和可行性阈值扫描相结合,集中在物理可行但策略不可行的近边界场景上。 - •在带有多个规划器和控制器的SafeBench上,ScenePilot生成了更多安全关键场景,同时保持不可行交互罕见,并且对边界带场景进行对抗性微调能够持续降低下游碰撞率。 ## 2 相关工作 ### 2.1 基于场景的安全测试与生成 基于场景的测试是评估自动驾驶安全的关键方法(Neurohr et al., 2020)。现有的构建安全关键场景的方法通常分为三类:数据驱动、对抗性和基于知识的生成(Ding et al., 2023)。数据驱动方法在大规模自然数据集或仿真器中回放或扰动真实轨迹(Li et al., 2019;Yang et al., 2023;Feng et al., 2021),从而提供强真实性,但受到长尾稀有性和关键事件收集成本的限制(Lu et al., 2026)。对抗性方法直接操纵周围车辆以诱导近碰撞或碰撞(Ding et al., 2021;Jia et al., 2024),提高了被动日志的效率,但通常优化失败频率而不严格执行车辆-道路物理(Chen et al., 2021)。基于知识的方法将交通规则和专家先验编码为场景模板或约束系统(Ding et al., 2025),提高了可控性但依赖手工覆盖。总体而言,先前工作强调真实性、对抗性或规则覆盖,一些方法融入了物理可行性约束(Dong et al., 2025)。然而,现有方法往往偏向于无约束的失败最大化或高度物理聚焦的边界情况,未能充分探索物理上可解但自动驾驶策略失效的近边界带。我们通过显式采用边界聚焦观点并瞄准这一近边界可行带来补充这些工作线。 ### 2.2 用于场景生成的强化学习 强化学习(RL)是场景生成的自然工具,因为自动驾驶和周围智能体在顺序决策过程中交互。基于RL的方法训练对抗性智能体以控制附近车辆或修改交通配置,从而合成安全关键遭遇(Liu et al., 2024;Wei et al., 2024)。许多目标直接鼓励碰撞或近碰撞,这能快速暴露失败,但也可能驱动对抗智能体走向物理上不合理或琐碎不可行的行为,降低了所得场景的诊断价值(Kuutti et al., 2020)。为了提高物理有效性,一些工作(Hao et al., 2023;Cai et al., 2024)将物理感知约束建模融入RL。然而,这种设计可能使生成偏向极端、贴近边界的可行交互,而非更广泛的近边界带——后者保持物理上可解同时暴露算法弱点。Chen等人(Chen et al., 2025)进一步通过为给定自动驾驶控制器定义最大可行区域(LFR)并将对抗塑造引导向其边界,提出了边界感知公式。但LFR依赖于控制器,混合了控制器可恢复性与物理可行性。我们转而瞄准与控制器无关的物理可行性边界,并专注于近边界带中物理可解但自动驾驶策略失效的场景。 ## 3 方法 参见图注 图2:我们的ScenePilot框架概述。我们用自动驾驶风险信号和物理可行性信号表征每次rollout,并训练场景策略以产生集中在物理可行但自动驾驶策略不可行边界带上的场景。 ScenePilot是一个对抗性场景生成框架(图2),其中可学习的场景策略控制非主车智能体,以评估主车自动驾驶策略在挑战性交互下的表现。我们用每个步骤的两个信号表征每次rollout:自动驾驶风险信号和基于物理的可行性信号。场景策略被训练以将rollout集中在物理可行但超出主车控制器能力(自动驾驶策略不可行)的边界带上,而非产生琐碎案例或物理上不可能的碰撞。 ### 3.1 问题形式化 对抗性MDP。我们将关键场景生成形式化为一个对抗性折扣多目标MDP ⟨S, A, P, r, γ⟩,其中可学习的场景策略 π(·|s_t) 控制所有非主车智能体。在时间步 t,驾驶环境处于状态 s_t ∈ S,场景策略采样 a_t ∼ π(·|s_t),其中 a_t 表示非主车智能体集合的联合动作。主车遵循固定的驾驶策略 π^ego 并融入环境动力学,因此转移满足 s_{t+1} ∼ P(·|s_t, a_t)。每次转移附带一个二维奖励向量信号 r_t = (φ_t, σ_t)。 双信号目标与边界带。r_t 的两个组成部分扮演互补角色。自动驾驶风险信号 φ_t 衡量主车接近失败的程度(越大风险越高),而 σ_t 是基于运动学极限的物理可行性。具体来说,σ_t ≥ 0 表示物理可行的帧,σ_t < 0 表示物理不可行(即不可避免碰撞)的帧。我们定义折扣目标 J_φ(π) = E_π[∑_{t=0}^{T-1} γ^t φ_t] 和 J_σ(π) = E_π[∑_{t=0}^{T-1} γ^t σ_t]。我们的目标是生成物理可行但自动驾驶策略不可行的场景。因此,我们聚焦于 (J_φ, J_σ) 平面中诱导的边界带,B ≜ {π | J_σ(π) ≥相似文章
面向行人行为不确定性的安全自动驾驶的多智能体强化学习
本文提出了一种多智能体强化学习框架,该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人,与单智能体方法相比,碰撞率降低了30%,并展示了更真实的交互场景。
面向部分可观测环境下自动驾驶的统一风险地图学习
提出了一种面向部分可观测环境的自动驾驶统一风险地图建模框架,该框架通过时空建模和基于扩散的场景生成,整合了交通流风险和碰撞风险。在Waymo Open Motion数据集上,该方法优于最先进的遮挡感知基线。
自动驾驶中基于不确定性感知与时间规制的专家建议强化学习
本文提出了一种面向自动驾驶的不确定性感知强化学习框架,通过自适应不确定性阈值和承诺-冷却策略引导的专家建议,提升了安全性和效率。在CARLA模拟器上的实验表明,相较于IQN基线,成功率提高了5%-7%。
RAD-2:在生成器-判别器框架中扩展强化学习
RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。
NVIDIA OmniDreams:用于闭环自动驾驶仿真的实时生成式世界模型
NVIDIA推出OmniDreams,这是一个基于Cosmos扩散模型构建的生成式世界模型,用于实时动作条件视频生成,能够在复杂的未见场景中实现自动驾驶策略评估的闭环仿真。