基于LSTM的结构性变化检测在财产保险损失准备金中的应用：一种气候知情方法

arXiv cs.LG 2026/06/11 04:00 论文

lstm structural-breaks loss-reserving climate-risk insurance catastrophe-modeling machine-learning

摘要

本白皮书提出使用LSTM神经网络检测由气候驱动的灾难引起的财产保险损失准备金中的结构性变化，旨在将准确性比Chain Ladder等传统方法提高15-20%。

arXiv:2606.11463v1 公告类型：新摘要：准确的损失准备金是保险公司偿付能力的基础，然而加速的气候驱动灾难系统地破坏了传统精算方法所依赖的稳定性假设。本白皮书提出了一项研究计划，测试长短期记忆（LSTM）神经网络是否能够比Chain Ladder、Bornhuetter Ferguson和Cape Cod方法更快、更准确地检测和适应这些结构性变化。利用来自佛罗里达州和路易斯安那州超过15年的监管发展三角数据，并辅以NOAA飓风强度指数和海面温度，我们假设在灾难暴露年份中，准备金准确性将针对性提高15-20%，这一阈值既基于先前的神经网络准备金文献，也基于本文推导的形式收敛结果。除了实证验证，我们还开发了一个理论框架，将LSTM结构性变化检测建立在概率术语基础上，提供了形式化的性能保证，以弥补测试期间灾难事件数量有限的问题。本文记录了研究设计、方法、预期贡献以及对局限性的坦诚评估。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:47

# 1. 气候波动世界中的准备金问题  
来源：https://arxiv.org/html/2606.11463 白皮书⋅\cdot2025年8月  
基于LSTM的财产保险损失准备金结构断裂检测：一种气候知情方法  
Thomas Mbrice || Shashwat Panigrahi  
石溪大学 || 计算机科学系  

关键词：损失准备金 · 结构断裂 · LSTM · 巨灾建模 · 气候风险 · 精算科学 · 机器学习  

**执行摘要**  
准确的损失准备金是保险公司偿付能力的基础，然而加速的气候驱动型巨灾系统性地违反了传统精算方法所依赖的稳定性假设。本白皮书提出了一项研究计划，旨在检验长短期记忆（LSTM）神经网络是否能够比链梯法、Bornhuetter-Ferguson法和Cape Cod法更快、更准确地检测并适应这些结构断裂。利用来自佛罗里达州和路易斯安那州超过15年的监管发展三角数据，并辅以NOAA飓风强度指数和海面温度，我们假设对于巨灾暴露年份，准备金准确率有望提升15–20%，这一阈值既基于先前的神经网络准备金文献，也基于本文所发展的形式化收敛结果。除了实证验证，我们还发展了一个理论框架，以概率术语为LSTM的结构断裂检测奠定基础，提供形式化的性能保证，以弥补测试周期内巨灾事件数量有限的不足。我们记录了研究设计、方法论、预期贡献以及对局限性坦诚的评估。  

损失准备金是财产-意外险中最关键的功能之一，直接决定保险公司的财务稳定性和监管地位。传统方法依赖于损失发展模式在事故年之间保持稳定的假设。气候变化从根本上破坏了这种稳定性。在2017年至2023年间，佛罗里达州和路易斯安那州的多家财产保险公司在遭受飓风损失后破产，这些损失既超出了理赔能力，也超出了用于预测它们的精算模型。飓风伊恩（2022年）造成了超过500亿美元的保险损失，并引发诉讼激增，使发展时间线远超历史常态。飓风艾达（2021年）造成了360亿美元的损失，并导致基础设施崩溃，从而将结算延迟了数年。依赖历史平均值的传统方法在多个发展期过去之前，无法有效检测到这些模式变化。  

### 1.1 四个结构断裂驱动因素  
- **严重性冲击**：由供应链中断和劳动力短缺驱动的重建成本通胀。  
- **频率变化**：建筑规范改进和人口迁移改变风险状况。  
- **发展模式变化**：诉讼和利益转让滥用延长了结算期。  
- **理赔处理中断**：巨额的理赔数量减缓处理速度并损害模式识别。  

{callout}  
**传统方法为何失效**  
链梯法需要3–5个发展期才能识别制度变化（Shapland, 2016 (https://arxiv.org/html/2606.11463#bib.bib16)）。重大巨灾后准备金误差超过30%已被记录（Meyers, 2015 (https://arxiv.org/html/2606.11463#bib.bib13)）。Bornhuetter-Ferguson法和Cape Cod法均未纳入外部气候信号。检测滞后恰好就在准备金最为关键时造成了系统性资金不足。  

## 2. LSTM的机会  
长短期记忆（LSTM）网络是一种特殊类型的循环神经网络，通过门控机制选择性保留或丢弃信息，以维持短期和长期记忆。这一架构直接对应于结构断裂问题：当历史模式不再能预测未来发展时，LSTM可以学会对陈旧信息降低权重，并比任何固定平均规则更快地吸收新兴信号。  

### 2.1 关键架构优势  
- **遗忘门**：在新数据表明制度变化时，选择性丢弃历史模式。  
- **输入门**：控制新分布信息被纳入的速度。  
- **双向层**：允许模型从两个方向学习发展上下文。  
- **注意力机制**：在发展阶段上产生可解释的权重，识别哪些季度推动了准备金估计。  

注意力层对于监管接受尤为重要。通过暴露注意力权重，该架构使得哪些发展时期对任何给定准备金估计影响最大可视化，这是一种与精算标准相符的可解释性形式。  

## 3. 理论框架：LSTM结构断裂检测的形式化基础  
本研究面临的一个核心挑战是有限的经验数据：测试周期仅包含四次重大巨灾事件。为弥补这一限制，我们发展了一个概率理论框架，形式化地刻画了当存在结构断裂时，LSTM网络何时以及为何优于静态线性估计器。下面的证明确立了在何种条件下，基于LSTM的准备金在断裂后能更快地收敛到真实最终损失，且与经验样本大小无关。  

### 3.1 设定与符号  
令\{Lt\}t=1T\\\{L\_\{t\}\\\}\_\{t=1\}^\{T\}表示给定事故年在发展阶段t=1,...,Tt=1,\\ldots,T上的累积已付赔款序列，其中TT是最终发展年龄。令θA\\theta\_\{A\}和θB\\theta\_\{B\}分别表示断裂前和断裂后的真实损失发展参数，令θt∈\{θA,θB\}\\theta\_\{t\}\\in\\\{\\theta\_\{A\},\\theta\_\{B\}\\\}表示在时期tt控制过程的参数。  

###### 定义3.1 (结构断裂)。在时间τ∈\{1,...,T\}\\tau\\in\\\{1,\\ldots,T\\\}处的一个*结构断裂*是这样的事件：数据生成过程满足  
Lt∣θt=\{f(Lt−1,...,L1;θA)t<τf(Lt−1,...,L1;θB)t≥τL\_\{t\}\\mid\\theta\_\{t\}=\\begin\{cases\}f\(L\_\{t\-1\},\\ldots,L\_\{1\};\\,\\theta\_\{A\}\)&t<\\tau\\\\ f\(L\_\{t\-1\},\\ldots,L\_\{1\};\\,\\theta\_\{B\}\)&t\\geq\\tau\\end\{cases\}  
其中θA≠θB\\theta\_\{A\}\\neq\\theta\_\{B\}且ff是一个可测的发展函数。断裂的大小为Δθ=‖θB−θA‖2\\Delta\\theta=\\\|\\theta\_\{B\}\-\\theta\_\{A\}\\\|\_\{2\}。  

###### 定义3.2 (链梯估计器)。通过时期tt观察到的LTL\_\{T\}的链梯估计器为  
L^TCL(t)=Lt⋅∏s=tT−1f^s,f^s=∑i=1nLi,s+1∑i=1nLi,s,\\widehat\{L\}\_\{T\}^\{\\,\\mathrm\{CL\}\}\(t\)=L\_\{t\}\\cdot\\prod\_\{s=t\}^\{T\-1\}\\hat\{f\}\_\{s\},\\qquad\\hat\{f\}\_\{s\}=\\frac\{\\sum\_\{i=1\}^\{n\}L\_\{i,s\+1\}\}\{\\sum\_\{i=1\}^\{n\}L\_\{i,s\}\},  
其中nn是事故年数，Li,sL\_\{i,s\}是事故年ii在年龄ss时的累积损失。  

###### 定义3.3 (LSTM准备金估计器)。一个LSTM准备金估计器是一个参数化映射ΦW:Rt×d→R\\Phi\_\{\\mathbf\{W\}\}:\\mathbb\{R\}^\{t\\times d\}\\to\\mathbb\{R\}，它将dd维特征序列(x1,...,xt)(x\_\{1\},\\ldots,x\_\{t\})映射到一个标量最终损失估计，其中W\\mathbf\{W\}是学习到的权重。每一步的隐藏状态更新由标准LSTM门控方程控制：  
ft\displaystyle f\_\{t\}=σ(Wfxt+Ufht−1+bf)\displaystyle=\\sigma\(W\_\{f\}x\_\{t\}+U\_\{f\}h\_\{t-1\}+b\_\{f\}\)   (1)  
it\displaystyle i\_\{t\}=σ(Wixt+Uiht−1+bi)\displaystyle=\\sigma\(W\_\{i\}x\_\{t\}+U\_\{i\}h\_\{t-1\}+b\_\{i\}\)   (2)  
c~t\displaystyle\\tilde\{c\}\_\{t\}=tanh⁡(Wcxt+Ucht−1+bc)\displaystyle=\\tanh\(W\_\{c\}x\_\{t\}+U\_\{c\}h\_\{t-1\}+b\_\{c\}\)   (3)  
ct\displaystyle c\_\{t\}=ft⊙ct−1+it⊙c~t\displaystyle=f\_\{t\}\\odot c\_\{t-1\}+i\_\{t\}\\odot\\tilde\{c\}\_\{t\}   (4)  
ot\displaystyle o\_\{t\}=σ(Woxt+Uoht−1+bo)\displaystyle=\\sigma\(W\_\{o\}x\_\{t\}+U\_\{o\}h\_\{t-1\}+b\_\{o\}\)   (5)  
ht\displaystyle h\_\{t\}=ot⊙tanh⁡(ct)\displaystyle=o\_\{t\}\\odot\\tanh\(c\_\{t\}\)   (6)  
其中σ\\sigma表示sigmoid函数，⊙\\odot表示逐元素乘法。  

### 3.2 核心理论结果  
我们现在建立三个结果：(i) 链梯法在结构断裂后收敛延迟，(ii) 具有足够容量的LSTM可以任意好地表示断裂后的分布，(iii) 在覆盖制度的预训练条件下，LSTM的检测速度至少比链梯法快k−1k-1个时期。  

###### 假设3.4 (断裂后平稳性)。在τ\\tau处的断裂后，在参数θB\\theta\_\{B\}下，断裂后过程\{Lt\}t≥τ\\\{L\_\{t\}\\\}\_\{t\\geq\\tau\}是平稳且遍历的，具有有限方差σB2<∞\\sigma\_\{B\}^\{2\}<\\infty。  

###### 假设3.5 (链梯平均窗口)。链梯估计器使用最近kk个事故年的体积加权平均，其中k≥2k\\geq 2。  

###### 假设3.6 (断裂前损失水平优势)。在感兴趣的发展年龄ss处，断裂前制度下的期望累积损失至少与断裂后制度下的一样大：μsA≥μsB>0\\mu\_\{s\}^\{A\}\\geq\\mu\_\{s\}^\{B\}>0。  

###### 引理3.8 (断裂后链梯的偏差)。在假设3.4 (https://arxiv.org/html/2606.11463#S3.Thmtheorem4)、3.5 (https://arxiv.org/html/2606.11463#S3.Thmtheorem5)和3.6 (https://arxiv.org/html/2606.11463#S3.Thmtheorem6)下，对于发展阶段s≥τs\\geq\\tau，链梯年龄-年龄因子估计f^s\\hat\{f\}\_\{s\}的偏差满足  
|E[f^s]−fsB|≥(k−m)k⋅|fsA−fsB|\bigl\|\\mathbb\{E\}\[\\hat\{f\}\_\{s\}\]\-f\_\{s\}^\{B\}\\bigr\|\\geq\\frac\{(k-m)\}\{k\}\\cdot|f\_\{s\}^\{A\}-f\_\{s\}^\{B\}|  
其中m<km<k是窗口内包含断裂后事故年的数量。  

###### 注3.9。(引理3.8的直观理解)。链梯因子f^s\\hat\{f\}\_\{s\}对kk个事故年取平均。在断裂后的前mm个发展期，只有m<km<k个事故年服从新的参数θB\\theta\_\{B\}。因此平均因子仍然被最多k−mk-m个断裂前事故年所主导，导致加权平均偏向fsAf\_\{s\}^\{A\}而不是fsBf\_\{s\}^\{B\}。只有当m=km=k（即所有kk个事故年都来自断裂后制度）时，偏差才消失。  

###### 定理3.10 (LSTM的普适逼近)。设X⊂Rt×d\\mathcal\{X\}\\subset\\mathbb\{R\}^\{t\\times d\}是特征序列的紧致集。对于任意ε>0\\epsilon>0和任意目标函数g∈Fg\\in\\mathcal\{F\}表示断裂后条件期望g(x1:t)=E[LT∣x1:t;θB]g(x\_\{1:t\})=\\mathbb\{E\}\[L\_\{T\}\\mid x\_\{1:t\};\\theta\_\{B\]，存在一个隐藏维度HH足够大的LSTM，其权重W\\mathbf\{W\}使得  
supx1:t∈X|ΦW(x1:t)−g(x1:t)|<ε。\\sup\_\{x\_\{1:t\}\\in\\mathcal\{X\}\}\\bigl\|\\Phi\_\{\\mathbf\{W\}\}\(x\_\{1:t\}\)\-g\(x\_\{1:t\}\)\\bigr\|<\\epsilon。  

**证明**。该结果遵循Schäfer和Zimmermann (2006 (https://arxiv.org/html/2606.11463#bib.bib15))建立的循环神经网络普适逼近定理。具体而言，由于σ\\sigma（sigmoid）和tanh\\tanh是连续的非多项式激活函数，方程(1 (https://arxiv.org/html/2606.11463#S3.E1))–(6 (https://arxiv.org/html/2606.11463#S3.E6))中的LSTM隐藏状态转移在X\\mathcal\{X\}上定义了一个连续映射。根据Stone-Weierstrass定理，足够宽的LSTM可表示的函数类在C(X)C(\\mathcal\{X\})中在sup范数下是稠密的。由于g∈F⊂C(X)g\\in\\mathcal\{F\}\\subset C(\\mathcal\{X\})（根据假设）且X\\mathcal\{X\}是紧致的，通过增加HH可以使近似误差任意小。∎  

###### 假设3.11 (覆盖制度的预训练分布)。LSTM在数据分布Dtrain\\mathcal\{D\}\_\{\\mathrm\{train\}\}上训练，该分布覆盖了类似于制度B的动态。形式上，存在一个子集DB⊆Dtrain\\mathcal\{D\}\_\{B\}\\subseteq\\mathcal\{D\}\_\{\\mathrm\{train\}\}，使得在DB\\mathcal\{D\}\_\{B\}中(x1:t,LT)(x\_\{1:t\},L\_\{T\})的边际分布相对于θB\\theta\_\{B\}下断裂后的数据生成过程是绝对连续的。该条件可以通过(i)包含与断裂后制度相关的气候特征C\\mathcal\{C\} (参见推论3.15 (https://arxiv.org/html/2606.11463#S3.Thmtheorem15))来满足，或(ii)通过迁移学习其他发展动态与θB\\theta\_\{B\}重叠的巨灾事件来满足。  

###### 定理3.13 (断裂后LSTM与链梯的更快收敛)。在假设3.4 (https://arxiv.org/html/2606.11463#S3.Thmtheorem4)、3.5 (https://arxiv.org/html/2606.11463#S3.Thmtheorem5)、3.6 (https://arxiv.org/html/2606.11463#S3.Thmtheorem6)和3.11 (https://arxiv.org/html/2606.11463#S3.Thmtheorem11)下，设τ\\tau为结构断裂。定义方法M的检测时间为  
TdetM=min{t≥τ:|L^TM(t)−E[LT;θB]|<δ}T\_\{\\det\}^\{M\}=\\min\\Bigl\\{t\\geq\\tau:\\bigl\|\\widehat\{L\}\_\{T\}^\{M\}(t)-\\mathbb\{E\}\[L\_\{T\};\\theta\_\{B\}\]\\bigr\|<\\delta\\Bigr\\}  
对于容差δ>0\\delta>0。则  
E[TdetCL]−E[TdetLSTM]≥k−1。\\mathbb\{E\}\\bigl\[T\_\{\\det\}^\{\\mathrm\{CL\}\}\\bigr\]-\\mathbb\{E\}\\bigl\[T\_\{\\det\}^\{\\mathrm\{LSTM\}\}\\bigr\]\\;\\geq\\;k-1。  

**证明**。**链梯的下界**。根据引理3.8 (https://arxiv.org/html/2606.11463#S3.Thmtheorem8)和注3.9 (https://arxiv.org/html/2606.11463#S3.Thmtheorem9)，对于任何m<km<k，我们有|E[f^s]−fsB|>0\|\\mathbb\{E\}\[\\hat\{f\}\_\{s\}\]-f\_\{s\}^\{B\}\|>0。如果对于至少一个年龄ss有|fsA−fsB|≥c>0|f\_\{s\}^\{A\}-f\_\{s\}^\{B\}|\\geq c>0，则偏差跨发展阶段乘性传播，并且准备金估计L^TCL\\widehat\{L\}\_\{T\}^\{\\mathrm\{CL\}\}无法满足检测准则|L^TCL−E[LT;θB]|<δ\|\\widehat\{L\}\_\{T\}^\{\\mathrm\{CL\}\}-\\mathbb\{E\}\[L\_\{T\};\\theta\_\{B\}\]\|<\\delta，直到m=km=k。这要求窗口中至少有kk个断裂后事故年，因此  
E[TdetCL]≥τ+k。\\mathbb\{E\}\\bigl\[T\_\{\\det\}^\{\\mathrm\{CL\}\}\\bigr\]\\geq\\tau+k。  

**LSTM的上界**。根据假设3.11 (https://arxiv.org/html/2606.11463#S3.Thmtheorem11)，训练后的LSTM在训练过程中已暴露于类似于制度B的动态，因此其权重W\\mathbf\{W\}构成了定理3.10 (https://arxiv.org/html/2606.11463#S3.Thmtheorem10)所保证的普适逼近器的有限样本近似。令εn\\epsilon\_\{n\}表示训练后的LSTM的近似误差，随着类似制度B的组成部分DB\\mathcal\{D\}\_\{B\}的大小nn增长，该误差收敛到零；我们假设对于足够大的nn有εn<δ/2\\epsilon\_\{n\}<\\delta/2。在观察到断裂后第一个发展期t=τt=\\tau时，LSTM接收到从断裂后分布中抽取的特征xτx\_\{\\tau\}。根据假设3.11 (https://arxiv.org/html/2606.11463#S3.Thmtheorem11)，门控权重已被调整以识别制度B的输入：遗忘门fτf\_\{\\tau\}可以对断裂前细胞状态cτ−1c\_\{\\tau-1\}分配低权重，而输入门iτi\_\{\\tau\}将新的断裂后信号编码到细胞状态中。由此产生的隐藏状态hτh\_\{\\tau\}携带断裂后信息，输出满足  
|ΦW(x1:τ)−E[LT∣x1:τ;θB]|≤εn<δ/2。\\bigl\|\\Phi\_\{\\mathbf\{W\}\}\(x\_\{1:\\tau\}\)-\\mathbb\{E\}\[L\_\{T\}\\mid x\_\{1:\\tau\};\\theta\_\{B\}\]\\bigr\|\\leq\\epsilon\_\{n\}<\\delta/2。  
根据三角不等式和假设3.4 (https://arxiv.org/html/2606.11463#S3.Thmtheorem4)，当条件序列长度增加时，|E[LT∣x1:τ;θB]−E[LT;θB]|→0\|\\mathbb\{E\}\[L\_\{T\}\\mid x\_\{1:\\tau\};\\theta\_\{B\}\]-\\mathbb\{E\}\[L\_\{T\};\\theta\_\{B\}\]\|\\to 0。对于相对于断裂后过程相关长度足够大的τ\\tau，这一项也小于δ/2\\delta/2，从而得到  
|ΦW(x1:τ)−E[LT;θB]|<δ\|\\Phi\_\{\\mathbf\{W\}\}\(x\_\{1:\\tau\}\)-\\mathbb\{E\}\[L\_\{T\};\\theta\_\{B\}\]\|<\\delta。  
因此TdetLSTM≤τ+1T\_\{\\det\}^\{\\mathrm\{LSTM\}\}\\leq\\tau+1且  
E[TdetLSTM]≤τ+1。\\mathbb\{E\}\\bigl\[T\_\{\\det\}^\{\\mathrm\{LSTM\}\}\\bigr\]\\leq\\tau+1。  

**结合**。  
E[TdetCL]−E[TdetLSTM]≥(τ+k)−(τ+1)=k−1。\\mathbb\{E\}\\bigl\[T\_\{\\det\}^\{\\mathrm\{CL\}\}\\bigr\]-\\mathbb\{E\}\\bigl\[T\_\{\\det\}^\{\\mathrm\{LSTM\}\}\\bigr\]\\geq(\\tau+k)-(\\tau+1)=k-1。  
对于标准的

基于LSTM的结构性变化检测在财产保险损失准备金中的应用：一种气候知情方法

相似文章

物理信息机器学习用于短期洪水预测

评估Transformer和LSTM框架在无资料流域中的预测能力

一种纵向属性条件神经网络，用于建模时间不规则数据中的健康状态转移概率：LANTERN框架

多分辨率ConvLSTM框架用于挡土墙变形预测的现场验证

使用LSTM自编码器的电液静压执行器异常检测

提交意见反馈