面向行人行为不确定性的安全自动驾驶的多智能体强化学习

arXiv cs.LG 2026/05/21 04:00 论文

摘要

本文提出了一种多智能体强化学习框架，该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人，与单智能体方法相比，碰撞率降低了30%，并展示了更真实的交互场景。

arXiv:2605.20255v1 公告类型：新摘要：基于仿真测试的自动驾驶汽车通常依赖于脚本化或简化的行人模型，这些模型无法捕捉真实人类过街行为的异质性和不确定性。这限制了安全评估的真实性，尤其是在涉及乱穿马路的场景中，而乱穿马路受车辆无法观测的潜在人格特质支配。我们假设，通过多智能体强化学习（MARL）联合训练行人和自动驾驶汽车，相比针对固定行人策略训练自动驾驶汽车，能够产生更真实的交互场景，并且可预测与不可预测过街之间的行为差距可以直接从轨迹中衡量。本文描述了一个多智能体强化学习环境，其中使用多智能体近端策略优化（MAPPO）联合训练一辆自动驾驶汽车和12个行人。行人移动遵循脚本化的Dijkstra路径规划，而强化学习策略控制高层级的走/停决策。乱穿马路概率取决于每个行人在回合开始时采样且对自动驾驶汽车隐藏的人格特质。在500个回合的评估中，联合训练的自动驾驶汽车实现了78%的目标完成率和14%的碰撞率，而最佳基于规则的基线仅达到35%的目标完成率和33%的碰撞率。一个速度差异指标显示，在近距离（0-3米）内，自动驾驶汽车在乱穿马路者附近比在斑马线用户附近行驶速度快2.65米/秒，表明乱穿马路遭遇未被预判。乱穿马路占过街事件的13%，却与62%的碰撞相关。与单智能体强化学习相比，使用多智能体强化学习行人进行联合训练使碰撞减少了30%，因为行人学会了在自动驾驶汽车高速接近时等待。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:20

# 面向行人行为不确定性的安全自动驾驶多智能体强化学习 ††感谢：本研究由SNSF SwarmOps项目（编号200021_219732）资助。
来源：https://arxiv.org/html/2605.20255
###### 摘要

基于仿真的自动驾驶汽车测试通常依赖于脚本化或简化的行人模型，这些模型无法捕捉真实人类过街行为的异质性和不确定性。这限制了安全评估的真实性，尤其是在涉及乱穿马路（这种行为受车辆无法观测的潜在人格特质支配）的场景中。我们假设，使用多智能体强化学习（MARL）联合训练行人和自动驾驶汽车，比针对固定行人策略训练自动驾驶汽车能产生更真实的交互场景，并且可预测与不可预测过街之间的行为差距可以直接从轨迹中测量。本文描述了一个MARL环境，其中一辆自动驾驶汽车和12名行人使用多智能体近端策略优化（MAPPO）进行协同训练。行人运动遵循脚本化的Dijkstra路径规划，而RL策略控制高层级的“走/等”决策。乱穿马路概率取决于每个行人在回合开始时采样的人格特质，该特质对自动驾驶汽车隐藏。在500回合评估中，协同训练的自动驾驶汽车达到了78%的目标完成率，碰撞率为14%，而最佳基于规则的基线分别为35%和33%。一个速度差异指标显示，在近距离（0–3米）范围内，自动驾驶汽车在乱穿马路者附近比在横道线使用者附近行驶速度快2.65米/秒，表明乱穿马路遭遇未被提前预判。乱穿马路占过街事件的13%，但却与62%的碰撞相关。与单智能体RL相比，使用MARL行人进行协同训练将碰撞减少了30%，因为行人学会了在自动驾驶汽车高速接近时等待。

## I 引言

行人-车辆交互是城市碰撞的常见来源，自动驾驶汽车必须在训练和评估中考虑这一点。现有的基于仿真的自动驾驶汽车测试通常依赖于脚本化的行人运动或简化的过街规则，这些规则未能反映真实人类行为的异质性[16,2]，这引发了一个自动驾驶汽车评估问题：我们是否在训练和测试自动驾驶汽车时，使用的行人模型足够真实，足以暴露诸如乱穿马路等潜在意图情况？我们假设，使用多智能体强化学习（MARL）协同训练行人和自动驾驶汽车，并引入一个对车辆隐藏的、由人格特质驱动的乱穿马路机制，比单智能体训练能产生更真实的交互场景，并且可预测与不可预测过街之间的差距可以从轨迹中测量。我们通过多智能体近端策略优化（MAPPO）[26]实现了这一想法。

以往关于行人-车辆交互的研究涵盖了针对乱穿马路遭遇的风险感知RL[29]、基于社会力的仿真[7,16]，以及关于自动驾驶车辆附近乱穿马路的调查证据[4]。MARL已被应用于交叉口的协同驾驶[27,28]。然而，这些工作要么固定了行人模型，要么孤立地训练自动驾驶汽车；没有工作协同训练行人和自动驾驶汽车，并引入明确的、由特质驱动的行为不确定性。

参考图注 (a) 与乱穿马路者碰撞
参考图注 (b) 成功避让

图1：我们环境中的两种结果。蓝色矩形表示自动驾驶汽车，彩色圆点表示行人（颜色编码人格特质，黄色线段表示活跃的乱穿马路行为），灰色区域是道路，绿色条带是人行道。目标显示为红色瞄准星。(a) 自动驾驶汽车与乱穿马路的行人相撞。(b) 自动驾驶汽车绕过乱穿马路者并到达目标。当自动驾驶汽车中心与行人中心距离在1.5米以内时，即判定为碰撞，这个安全边界旨在考虑车辆占地面积和行人身体尺寸。本文做出以下贡献。*第一*，我们描述了一个用于行人-自动驾驶汽车协同训练的MARL环境，其中乱穿马路由对自动驾驶汽车隐藏的潜在人格特质驱动，扩展了以往每个场景最多使用少数脚本化行人的MARL交叉口工作[27]。*第二*，我们引入了一个速度差异指标，可以直接从轨迹中量化自动驾驶汽车对可预测的横道线遭遇和不可预测的乱穿马路遭遇的不同反应。*第三*，我们通过实验表明，即使单智能体自动驾驶汽车后来与MARL行人策略配对，协同训练也会在行人中产生涌现的协作等待行为，并且相比单智能体RL将碰撞减少了30%。

## II 相关工作

多智能体RL。协作式MARL方法包括MADDPG[13]、QMIX[17]、COMA[6]和IPPO[24]。MAPPO[26]基于PPO[21]和GAE[20]，采用CTDE范式[14]：训练时使用集中式评论家，执行时使用分散式演员。我们采用MAPPO，并共享一个集中式评论家。

行人行为。社会力模型[7]仍然是行人仿真的基础。人格特质已被整合到异质性行人模型中[25]，最近的工作将感觉运动约束整合到基于RL的行人策略中[23]。轨迹预测方法如Social LSTM[1]和Trajectron++[19]预测行人路径，但不建模过街决策。Khuzam等人[11]通过马尔可夫博弈研究乱穿马路，而Zhang等人[29]提出了针对乱穿马路者交互的风险感知RL，自动驾驶汽车在孤立环境中训练。

不确定性与仿真测试。Kendall和Gal[10]区分了偶然不确定性和认知不确定性，Hoel等人[8]将不确定性估计应用于战术驾驶，Wang等人[22]综述了自动驾驶汽车的不确定性量化方法。标准的自动驾驶汽车测试平台包括CARLA[5]和SUMO[12]。Birchler等人[2]表明，基于仿真的自动驾驶汽车测试并不总是与人类对安全性和真实性的感知一致，这促使在自动驾驶汽车评估中使用更丰富的行人模型。基于JAX[3]的GPU加速RL已由JaxMARL[18]和CleanRL[9]展示。表I总结了比较。

表I：与相关系统的比较参考图注图2：系统架构。(a) CTDE：集中式评论家在训练时使用全局状态，执行时丢弃。(b) 行人演员、自动驾驶汽车演员和共享评论家的网络架构。(c) 层次化分解：RL控制“走/等”和“加速/转向”；脚本化的Dijkstra处理运动（自动驾驶汽车绕过此层）；物理引擎处理运动。(d) 智能体-环境循环，人格特质输入环境。
## III 系统设计

图2展示了系统架构。环境、训练和推理均在单个GPU上通过JAX运行，使用`jax.vmap`（512个并行环境）和`jax.lax.scan`（轨迹收集）。

### III-A 环境

环境覆盖一个120×120米的城市地图，包含一个四向交叉口和一个T型交叉口，有3个道路段、20个人行道段和6条横道线。场景设计包含两种不同的交叉口拓扑，使得单个50秒的回合同时涵盖四向交叉口和T型交叉口穿越。仿真以`dt=0.1`秒（10 Hz）运行，每回合500步（50秒）。

行人。环境包含12个行人智能体，远多于最近基于CARLA的MARL交叉口研究[27]中使用的至多3个背景行人。选择这个数量是为了在每回合中维持多个并发的行人-自动驾驶汽车交互，而非单一遭遇。行人通过Dijkstra最短路径算法在一个40节点的导航图（34个人行道航点加6个横道线中点）上导航。RL策略输出一个二元的“走/等”决策。当策略选择“走”时，一个由人格特质驱动的掷骰决定行人是通过指定横道线过街还是乱穿马路：

P(jaywalk|go) = τ_j × 0.25  (1)

其中τ_j ∈ [0,1]是乱穿马路倾向，在回合开始时均匀采样，且自动驾驶汽车*不可观察*。这种基于特质的行人异质性参数化，与先前AV-行人交互的社会力仿真中使用的冒险型、谨慎型和分心型行人类型[16]精神一致。步行速度范围为1.0至2.0米/秒。

自动驾驶汽车。自动驾驶汽车使用运动学自行车模型[15]，轴距2.5米，最大速度8.33米/秒（30公里/小时），最大转向角0.52弧度。一个硬约束将自动驾驶汽车保持在道路上，边缘余量0.5米。回合在碰撞（自动驾驶汽车-行人中心距离低于1.5米）、到达目标（距离低于3.0米）或超时时终止。

### III-B MAPPO训练

算法1概述了训练循环。我们使用带GAE的裁剪PPO目标和共享集中式评论家，遵循常见的MAPPO设计[26]。更新次数（5,000）通过监控所有三个网络的学习曲线直到它们在保留种子上趋于平缓而经验性地确定；结合512个并行环境和256步轨迹，对应总共6.55×10^8个环境步。集中式评论家观察一个58维全局状态（所有行人位置、速度、乱穿马路倾向和自动驾驶汽车状态）。20维的行人观察包含自身状态、特质、航点方向、表面类型和自动驾驶汽车相对状态。34维的自动驾驶汽车观察包含自身状态、目标、道路和车道信息，以及最近的6个行人。所有12个行人共享演员参数，这是同质MARL智能体的标准做法[26]。表II列出了完整配置。

算法1 MAPPO协同训练
1: 初始化行人演员 π_θ^p，自动驾驶汽车演员 π_φ^s，共享评论家 V_ψ
2: for 更新次数 = 1 to 5,000 do
3:   在512个并行环境中收集256步轨迹
4:   for 每个环境步 do
5:     行人观察 ← 局部（20维）；自动驾驶汽车观察 ← 局部（34维）
6:     行人动作 ∼ π_θ^p；自动驾驶汽车动作 ∼ π_φ^s
7:     环境步进；记录 (o, a, r, d)
8:   end for
9:   使用带全局状态（58维）的评论家计算 V(s)
10:  计算GAE优势（γ=0.995, λ=0.95）
11:  使用裁剪PPO（ε=0.2, 4个epoch, 8个小批量）更新 π_θ^p, π_φ^s, V_ψ
12: end for

表II：系统配置和超参数评论家训练时使用混合奖励（50%平均行人奖励加50%自动驾驶汽车奖励），反映协作目标。行人奖励包括航点进度（+2.0⋅Δd）、到达航点（+5.0）、碰撞（-25.0），以及智能等待奖励（在快速接近的自动驾驶汽车8米内等待时+0.3）。自动驾驶汽车奖励包括目标进度（+2.0⋅Δd）、到达目标（+50.0）、碰撞（-50.0）、在占用横道线和乱穿马路者附近超速惩罚、车道居中以及航向对齐。停车没有正向奖励，这防止自动驾驶汽车通过无限期等待来累积让行奖励。

### III-C 不确定性量化

我们从自动驾驶汽车的角度区分两种遭遇类型：*可预测*（横道线过街，可从横道线接近程度和轨迹预判）和*不确定*（乱穿马路，由自动驾驶汽车不可见的潜在特质τ_j支配）。我们通过一个*速度差异*指标来量化不确定性。对于每个时间步，当类型c∈{cw, jw}的行人位于自动驾驶汽车的距离区间[d1, d2]内时，我们记录自动驾驶汽车速度v_sdc：

v̄_c(d1,d2) = (1/|T_c|) ∑_{t∈T_c} v_sdc(t), T_c = {t: d_t^c ∈ [d1, d2]}  (2)

差值Δv = v̄_jw - v̄_cw 衡量自动驾驶汽车在乱穿马路者附近比在横道线使用者附近特定距离上快多少。正的Δv表明自动驾驶汽车没有预判乱穿马路遭遇。我们还测量*碰撞归因*：每种行人类型造成的碰撞比例，按遭遇频率归一化。

## IV 实验

所有结果均使用500回合评估，并采用跨方法共享的固定种子集。我们报告目标完成率和碰撞率，这是基于RL的自动驾驶汽车评估的标准安全与成功指标（CARLA使用类似指标[5]）。图1中的场景种子是通过固定的程序化遭遇接近度标准选择的，而非手动挑选。

### IV-A 基线比较

图3将MARL自动驾驶汽车与四种非学习基线和一种单智能体RL自动驾驶汽车在500回合上进行对比。协同训练的自动驾驶汽车达到了78%/14%（目标完成率/碰撞率）。最佳基于规则的方法（全油门）达到了35%/33%；反应式制动没有帮助，因为它只能制动但不能转向。单智能体RL自动驾驶汽车达到了65%/20%。

参考图注图3：各方法的目标完成率和碰撞率（每种方法500回合）。单智能体RL使用脚本化行人进行训练。
### IV-B 不确定性结果

图4显示了来自(2)的速度差异。在0–3米范围内，

面向行人行为不确定性的安全自动驾驶的多智能体强化学习

相似文章

结构化强化学习在贝叶斯劝导中的应用：面向智能交互驾驶

自动驾驶中基于不确定性感知与时间规制的专家建议强化学习

面向部分可观测环境下自动驾驶的统一风险地图学习

通过世界模型从人类偏好和理由中学习安全智能体行为

学习社会规范增强动态人机协调中的兼容性

提交意见反馈