操作设计域迁移下自动驾驶汽车责任险的可信度加权定价

arXiv cs.LG 论文

摘要

本文提出了一种层次贝叶斯可信度框架,用于在操作设计域(ODD)迁移下对自动驾驶汽车责任险进行定价,通过学习得到的ODD相似性核函数,将城市和软件版本间的稀疏经验进行合并。在Waymo碰撞数据上的实验表明,该方法优于无合并方法,并解决了自动驾驶系统的前瞻性费率制定挑战。

arXiv:2606.17451v1 公告类型:新 摘要:自动驾驶系统的部署带来了一项基础性的费率制定挑战:经验稀疏、操作设计域不断变化,以及软件版本间的非平稳风险。我们提出了一种层次贝叶斯可信度框架,通过学习得到的ODD相似性核函数,将城市、软件版本和地区之间的经验进行合并,并将Buhlmann-Straub模型作为极限情况纳入其中。在来自NHTSA常设一般命令数据库的648起Waymo已确认介入碰撞(覆盖美国四个大都市区,对应1.16亿匹配英里)上的实验表明,城市聚合可信度权重适中(0.12-0.46),部分合并明显优于无合并,并且功效分析显示,当部署城市数量达到约十二个时,学习得到的核函数的优势变得可检测。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:38

# 运行设计域变化下自动驾驶汽车责任的可信度加权定价
来源:https://arxiv.org/html/2606.17451
\(2026年6月\)

运行设计域变化下自动驾驶汽车责任的可信度加权定价

Doyeon Jang

摘要

自动驾驶系统的部署带来了一项根本性的费率制定挑战:稀疏的经验数据、不断变化的运行设计域,以及跨软件版本的非平稳风险。我们提出了一个层次贝叶斯可信度框架,通过学习的ODD相似性核,跨城市、软件版本和区域进行联合池化,并将Bühlmann–Straub作为其极限情况嵌套其中。基于美国国家公路交通安全管理局(NHTSA)《常规命令》数据库中,Waymo在四个美国大都市区经过核实的648起碰撞事故,对应1.16亿匹配里程的实证研究表明,城市层面的可信度权重适中(0.12–0.46),部分池化显著优于无池化,且功效分析显示,所学习核的优势在约十二个部署城市时变得可检测。

关键词:自动驾驶系统,可信度理论,层次贝叶斯模型,表征学习,远程信息处理,费率制定,运行设计域

## 1. 引言

### 1.1. 研究背景

2024年,Waymo的自动驾驶系统在2530万全自动驾驶英里中记录了9起第三方财产损失索赔和2起人身伤害索赔——相较于同一运营区域内的人类驾驶车辆群体,降低了88%至92%(Di Lillo 等人,2024b)。使用警方报告的碰撞数据也报告了类似的幅度(Kusano 等人,2024)。对于精算行业而言,这些发现既引人注目又令人不安。引人注目,是因为它们表明保险公司定价的风险池正在经历结构性转变。令人不安,是因为费率制定的标准工具——可信度理论、区域相对系数、损失发展——是为这样一个世界而构建的:在这个世界里,风险暴露充足,被保险风险大致平稳,驾驶的地理分布反映了被保险人的居住地。这些假设对于ADS部署而言均不成立。

### 1.2. 目标

回顾性基准测试文献做了有价值的工作,确定了ADS性能与HDV性能存在显著差异,并开始应对诸如报告门槛错位和ODD混杂等方法论陷阱(Scanlon 等人,2024b;Chen 等人,2024)。然而,这些文献尚未解决前瞻性定价问题。当ADS运营商进入迈阿密,或者当新运营商在一个没有ADS经验的商业城市开始服务时,保险公司必须制定一个费率。回顾性基准测试告诉我们旧金山、凤凰城、洛杉矶和奥斯汀发生了什么;但它们并未告诉我们如何将这些经验转移到一个具有不同道路几何形状、行人密度和信号配时的城市。经典可信度理论根据自身经验的体量做出反应:当一个城市积累了足够多的事件时,其自身的费率就是可信的;否则,估计值会向组合均值收缩。ADS场景中的新困难在于,即使总的自身经验很丰富,它也集中在少数几个城市,而真正驱动费率的单元——某个给定软件版本、在某个给定时期、在某个给定区域——仍然稀疏。

本文提出了一个解决该转移问题的框架。我们将层次贝叶斯可信度与从机器学习表征学习文献中借鉴的学习型ODD相似性度量相结合。该相似性度量基于公开可用的地理空间和HDV索赔数据进行训练,并用于控制可信度在城市、软件版本以及城市内区域之间的流动。我们表明,所得框架将经典的Bühlmann–Straub作为特例嵌套其中,同时获得了纳入ADS定价所需的更丰富协变量结构的灵活性,并且我们通过实证表明,它为新的部署产生了合理、可解释且校准良好的后验预测。

本文的贡献有三方面。首先,我们将ADS定价问题形式化为一个关于城市、ODD和软件版本的层次部分池化问题,并推导出一个后验可信度权重,其在极限情况下简化为经典的Bühlmann–Straub形式;完整推导见附录B。其次,我们引入了一个学习型ODD相似性度量,通过监督对比学习在地理空间道路网络和风险暴露特征上构建,并将其作为高斯过程核嵌入层次先验中,用于控制跨区域的可信度流动;未观测城市的后验预测分布成为一个条件高斯分布,其矩明确依赖于该城市与已部署城市的相似性(附录C)。第三,我们在NHTSA SGO数据上实证展示了该框架,量化了SGO到责任报告门槛的差距,并为迈阿密、波士顿和丹佛的假设性新部署产生了前瞻性频率估计。

### 1.3. 论文结构

本文其余部分组织如下。第2节回顾了经典可信度理论、ADS安全基准测试文献以及机器学习和精算科学交叉领域的最新进展。第3节形式化了前瞻性定价问题。第4节发展了层次可信度模型并推导了其简化为Bühlmann–Straub的形式。第5节介绍了学习型ODD相似性度量及其与可信度模型的整合。第6节展示了实证演示,包括通过留一城市外的预测对数似然将所提框架与基线进行比较。第7节讨论了对费率制定、准备金和监管环境的影响。第8节总结。附录包含了NumPyro实现、Bühlmann–Straub极限推导、新城市后验的条件高斯分布以及实证部分使用的数据汇编协议。

## 2. 背景与方法

### 2.1. 经典可信度理论

可信度理论为在自身经验不足时将单位自身的索赔经验与组合均值相结合提供了精算基础。Bühlmann(1967)模型假设一个风险单位的组合,用i=1,...,K索引,每个单位观察T_i期,风险暴露为w_it,纯保费为X_it。每个单位有一个从结构分布中抽取的潜在风险参数θ_i,单位i预期纯保费的可信度估计值采取自身经验与总均值之间的加权平均形式。Bühlmann-Straub(1970)扩展考虑了单位间风险暴露的异质性,得到可信度权重

Z_i = w_i· / (w_i· + K),其中 K = E[σ²(θ)] / Var[μ(θ)] (2.1)

w_i· = Σ_t w_it。更多的风险暴露使Z_i趋近于1,更大的单位间方差相对于单位内方差使Z_i趋近于1,其他情况则向总均值收缩。

Klugman, Panjer, 和 Willmot (2012) 以及 Bühlmann 和 Gisler (2005) 的现代处理将这一结构推广到层次模型,其中风险单位被分组到更大的集体中,并在层次的每一层推导出可信度权重。然而,对于ADS定价而言,问题是标准层次可信度模型将同一层次内的单位视为可交换的。凤凰城的地面街道里程和假设的迈阿密地面街道里程受到相同的收缩,尽管它们底层ODD在行人密度、交叉口几何形状和天气暴露方面存在显著差异。我们需要一个依赖于我们从哪些其他单位借用的可信度权重。

经典方法在ADS背景下的第二个局限性是它假定潜在风险参数θ是平稳的。在人类驾驶车辆的费率制定中,这一假定大致有效:驾驶人群只是逐渐演变。相反,对于ADS,每个软件版本都是被保险风险的间断性变化。2023年中期的Waymo Driver与2024年中期的Waymo Driver风险不同,而经典可信度机制没有内在机制来表达这一事实。因此,我们在第4节中用显式的软件版本随机效应来增强层次结构。

### 2.2. ADS安全基准测试

回顾性ADS安全基准测试文献已经迅速成熟。早期工作由Favarò等人(2017)分析了加州自动驾驶测试车辆的脱离和碰撞报告。Chen和Shladover(2024)比较了旧金山内四个群体的碰撞率:Uber网约车、受监督自动驾驶汽车、无驾驶人Waymo和无驾驶人Cruise。Kusano等人(2024)将这一比较扩展到警方报告的碰撞数据库,涉及710万Waymo英里,并对车辆类型、道路类型和漏报进行了修正,报告了警方报告碰撞率降低55%,任何受伤报告碰撞率降低80%。

Di Lillo等人(2024a)引入了使用第三方责任保险索赔作为比较安全指标。在最初的380万自动驾驶英里中,他们观察到相对于邮政编码校准的HDV基准,财产损失和人身伤害索赔频率均大幅降低。Di Lillo等人(2024b)将这一分析扩展到旧金山、凤凰城、洛杉矶和奥斯汀的2530万英里,并引入了一个最新一代HDV基准,捕捉配备现代高级驾驶辅助系统(ADAS)的车辆。Waymo ADS在两个基准中都表现出统计显著性:相对于总体驾驶人群,财产损失和人身伤害索赔分别降低88%和92%;相对于最新一代HDV基准,降低86%和90%。

Waymo公开报告的里程里程碑为当前演示提供了风险暴露基础。运营商的《安全影响》披露报告显示,截至2025年12月,在四个已部署大都市区累计行驶1.707亿仅乘客里程,并于2026年2月达到2亿英里里程碑(Waymo, 2026)。我们使用这些累积披露数据,插值到SGO观测窗口,来构建SGO碰撞计数的风险暴露分母(第6.1节)。

### 2.3. 精算科学中的机器学习

机器学习融入费率制定和准备金的过程在过去十年中加速发展。Wüthrich和Buser(2025)对精算学习的统计基础进行了严谨处理,包括广义线性模型、神经网络以及Wüthrich和Merz(2019)提出的混合GLM-神经网络。基于嵌入的分类特征表示已被证明有效——Richman(2021)用于死亡率,Delong等人(2021)用于开发伽马混合密度网络以建模索赔金额。

在这个文献中,与我们方法最接近的先例是使用学习嵌入来定义精算区域。传统的区域定义依赖于手工聚合(邮政编码、县、评级区域),这可能无法捕捉风险的潜在结构。相比之下,学习嵌入将每个地理单元放置在一个距离反映风险相似性的向量空间中。我们将其扩展到ADS定价,通过训练ODD相关特征(道路几何形状、交叉口密度、行人暴露)上的嵌入,并使用相似性度量在贝叶斯层次模型中控制可信度流动。

我们的对比目标借鉴了SimCLR(Chen等人,2020),但秉承Khosla等人(2020)的精神,通过辅助结果(HDV索赔频率)的相似性来定义正对,而不是通过数据增强;所得嵌入作为核的输入,该核对随机效应上的高斯过程先验进行参数化。

## 3. 问题形式化

考虑一家保险公司为ADS部署的第三方责任保险定价。令c索引城市(或更一般地,运营区域),v索引ADS软件版本,t索引时间段。令N_{c,v,t}表示第三方责任索赔计数,E_{c,v,t}表示以百万自动驾驶英里计量的风险暴露。遵循碰撞频率建模的标准实践,我们假设

N_{c,v,t} | λ_{c,v,t} ~ Poisson(λ_{c,v,t} · E_{c,v,t}) (3.1)

其中λ_{c,v,t}是每百万英里的预期索赔频率。定价问题是在目标部署(c*, v*, t*)处为λ_{c*, v*, t*}产生一个点估计或后验分布,其中直接经验可能为零或接近零。

三个特征使这个问题区别于标准费率制定。首先,风险暴露集中:在当前演示中,SGO窗口承载约1.16亿英里的四城市仅乘客里程,但超过90%的里程落在仅仅三个大都市区,而在一个大都市区内,它们又稀疏地分布在软件版本和季度之间。其次,随着车队扩张,运行设计域发生变化:新城市部署并非从与现有城市相同的风险分布中抽取。第三,被保险风险本身是非平稳的:每次软件更新都可能改变底层索赔频率,打破了经典可信度理论中稳定θ的假设。

精算师的任务是通过从三个来源借用强度来构建\hat{λ}_{c*, v*, t*}:(a) 运营商自身在其他城市和软件版本的ADS经验,(b) 在类似c*区域的HDV索赔经验,以及(c) 捕捉配备ADAS车辆的最新HDV经验,它代表了人类驾驶车队的技术前沿。第4节和第5节开发的框架使这种借用变得明确且有原则。

## 4. 层次可信度模型

### 4.1. 模型设定

我们指定一个层次贝叶斯泊松广义线性模型,在城市、软件版本以及城市-版本交互层面包含随机效应:

N_{c,v,t} | λ_{c,v,t} ~ Poisson(λ_{c,v,t} · E_{c,v,t}) (4.1)

log λ_{c,v,t} = β_0 + x_{c,v,t}^T β + α_c + γ_v + δ_{c,v} (4.2)

固定效应协变量x_{c,v,t}捕捉可观测的ODD属性:道路等级组合(主干道、集散道、地方道路里程比例)、每平方公里交叉口密度、信号交叉口比例、天气暴露(在雨或雾中的运营小时比例)以及运营小时的时间段组合。随机效应编码层次结构:

α_c ~ N(0, τ_c²), γ_v ~ N(0, τ_v²), δ_{c,v} ~ N(0, τ_cv²) (4.3)

对标准差的超先验需要谨慎。层次模型文献中一个标准的弱信息默认是每个尺度上的半正态(0,1)。在ADS体制下,这个默认值被证明过于激进。

相似文章

面向部分可观测环境下自动驾驶的统一风险地图学习

Hugging Face Daily Papers

提出了一种面向部分可观测环境的自动驾驶统一风险地图建模框架,该框架通过时空建模和基于扩散的场景生成,整合了交通流风险和碰撞风险。在Waymo Open Motion数据集上,该方法优于最先进的遮挡感知基线。

通过反事实推理路径减少信用分配方差

arXiv cs.LG

提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。