一种纵向属性条件神经网络,用于建模时间不规则数据中的健康状态转移概率:LANTERN框架

arXiv cs.LG 论文

摘要

本文介绍了LANTERN,这是一个神经网络框架,用于从不规则纵向数据中估计健康状态转移概率,并应用于长期护理保险。在严重残疾和死亡预测的区分度和校准方面,它优于传统方法。

arXiv:2606.13880v1 公告类型:新 摘要:准确估计长期护理转移概率对于残疾保险定价、准备金和偿付能力评估至关重要。经典精算多状态模型通常依赖于马尔可夫、半马尔可夫或比例风险模型,这些模型与队列预测直接关联,但对于具有非线性老龄化模式和异质性协变量历史的不规则纵向健康数据可能具有限制性。本文开发了一种用于不规则纵向健康数据的多状态转移概率的校准良好的估计器。该模型从个体健康历史中学习,整合了观察之间的时间间隔,并基于人口统计和社会经济属性对转移概率进行条件化。它生成下一个观察健康状态的有效概率分布,包括四种可能状态:健康、轻度残疾、严重残疾和死亡。个体概率按年龄组和初始状态聚合,形成与精算队列预测兼容的转移矩阵。使用健康与退休研究的纵向数据,我们将所提出的估计器与逻辑回归、梯度提升树、循环神经网络和最后状态持久性基准进行了比较。评估考虑了概率准确性、严重残疾和死亡的端点区分度与校准、风险集中度以及聚合后的转移矩阵误差。所提出的估计器相对于逻辑回归和梯度提升树基准提高了严重残疾的区分度,保持了良好的校准,并在留出测试分析中取得了评估模型中最低的转移矩阵误差。结果表明,当根据校准和预测保真度(而不仅仅是区分度)进行评判时,结构化的机器学习估计器可以支持长期护理转移建模。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:08

# 一种用于处理时间不规则数据中健康状态转移概率建模的纵向属性条件神经网络:LANTERN 框架 来源:https://arxiv.org/html/2606.13880 Beckett Sterner¹, Petar Jevtić²³ ¹亚利桑那州立大学计算与增强智能学院,坦佩,美国 ²亚利桑那州立大学生命科学学院,坦佩,美国 ³亚利桑那州立大学数学与统计科学学院,坦佩,美国 ###### 摘要 长期护理转移概率的准确估计是残疾保险定价、准备金提取和偿付能力评估的核心。经典精算多状态模型通常依赖于马尔可夫、半马尔可夫或比例风险设定,这些模型与队列预测有直接联系,但对于具有非线性老化模式和异质性协变量历史的不规则纵向健康数据而言,可能具有局限性。本文针对不规则纵向健康数据,开发了一种校准良好的多状态转移概率估计器。该模型从个体健康史中学习,整合了观测之间的时间间隔,并根据人口统计和社会经济属性条件化转移概率。它生成关于下一个观测健康状态的有效概率分布,包含四种可能状态:健康、轻度残疾、重度残疾和死亡。个体概率按年龄组和起始状态聚合,形成与精算队列预测兼容的转移矩阵。利用健康与退休研究(Health and Retirement Study)的纵向数据,我们将所提出的估计器与逻辑回归、梯度提升树、递归神经网络以及最后状态持久性基准进行了比较。评估考虑了概率准确性、重度残疾和死亡的端点判别与校准、风险集中度,以及聚合后的转移矩阵误差。与逻辑回归和梯度提升树基准相比,所提出的估计器改善了重度残疾的判别能力,保持了良好的校准性能,并在保留测试分析中获得了评估模型中的最低转移矩阵误差。这些结果表明,当以校准和预测保真度(而非仅仅判别能力)为评判标准时,一种结构化的机器学习估计器可以支持长期护理转移建模。 ###### 关键词:长期护理保险,多状态模型,转移概率,不规则纵向数据,机器学习 †† 期刊:Insurance: Mathematics and Economics

## 1 引言

长期护理风险正成为家庭、保险公司和公共项目日益重要的财务不确定性来源。随着人口老龄化,越来越多的人预计将在晚年经历需要正式或非正式护理的功能限制。长期护理保险产品旨在集中并预融资部分此类风险,但其可行性取决于对个体在功能性健康状态之间随时间转移的可信估计[34, 38, 33]。在精算长期护理模型中,残疾进展和死亡率通常使用有限状态多状态模型来表示。个体在健康、轻度残疾、重度残疾和死亡等状态之间转移,相应的转移概率决定了预测的残疾患病率、预期赔付金额、准备金和偿付能力要求[16, 12, 34, 38]。由于队列预测会在未来年龄上反复应用转移概率,这些概率中的微小误差可能长期累积,并对估值结果产生实质影响[5, 30]。

在纵向老龄化数据中估计这些转移概率存在困难。功能衰退不仅可能取决于当前的残疾状态,还可能取决于累积的健康史、先前的残疾发作、合并症、人口统计学特征以及观测之间的时间间隔[13, 39]。在健康与退休研究等调查中,个体在重复的调查波次中被观测。由于个体可能错过某些波次,我们将每个观测到的人-波记录称为一次访视;因此,访视间隔在不同个体和波次之间变化[3]。这些特征使标准的马尔可夫、半马尔可夫和比例风险设定变得复杂,这些设定通常条件化于当前状态、状态持续时间或预设协变量,而不是学习完整纵向健康史的灵活表示[1, 20, 27]。在本文中,表示指的是对先前观测到的健康信息(如残疾史、合并症模式和访视间经过时间)的学习摘要,用于估计未来的转移概率。

经典精算和生存模型提供了可解释的转移结构以及与估值的直接联系,但当健康轨迹是非线性、异质性且不规则观测时,它们可能具有限制性。近期工作已开始将机器学习与健康转移和多状态生存建模联系起来。例如,[43]将神经网络与广义线性模型相结合,以估计和预测健康转移强度,允许社会经济和生活方式因素通过线性和非线性关系进入。在多状态生存分析中,[35]提出了基于伪值的深度神经网络,用于在存在删失的情况下进行多状态量(包括转移概率和状态占据概率)的个体特异性预测。更广泛地说,机器学习方法已被用于纵向临床预测任务,如死亡率、再入院、住院时间、生理失代偿和医疗状态预警[36, 18, 31]。然而,对于长期护理保险产品应用,有用的模型必须做的不仅仅是按风险对个体排序。它必须生成关于可能健康状态的校准概率向量,以便个体水平的预测可以聚合成用于队列预测的转移矩阵[15, 40, 9]。

作为对这一重要研究主题的贡献,本文开发了LANTERN(Longitudinal Attribute-conditioned Neural Transition Estimation Recurrent Network),一种针对不规则纵向健康数据的、基于历史的下一个观测健康状态转移概率的校准估计器。该模型学习个体健康史的潜在表示,整合经过时间信息,并根据人口统计和社会经济属性条件化转移风险。它输出一个连贯的概率分布,涵盖四个可能的下一个观测状态:健康、轻度残疾、重度残疾和死亡。这些个体水平概率可以按年龄组和起始状态聚合,形成与离散时间精算预测兼容的转移矩阵。这项工作的核心思想是保留精算多状态预测框架,同时用从纵向数据中学习的灵活历史依赖估计器替代限制性的参数化转移概率估计。

具体而言,本文的贡献有三方面。第一,我们将长期护理转移估计问题公式化为在非规则观测间隔下的历史依赖多状态概率问题。第二,我们提出了一种结构化的神经估计器,通过使用先前健康史的学习摘要以及观测间经过时间和人口统计信息,放松了对当前观测状态的一阶马尔可夫依赖,同时仍然生成关于可能下一个状态的有效概率向量。第三,我们使用精算相关标准(包括校准、端点风险集中度、转移矩阵误差以及一个说明性的队列估值练习)来评估该估计器。利用健康与退休研究的纵向数据,我们将我们的模型与逻辑回归、梯度提升树、递归神经网络以及最后状态持久性基准进行比较。实证分析评估了个体水平的概率表现和聚合的转移矩阵准确性。这一区别很重要,因为对长期护理保险产品应用有用的估计器不仅必须对个体按风险排序,还必须生成校准的转移概率,这些概率可以聚合成用于预测的稳定转移矩阵。

本文其余部分组织如下。第2节回顾了关于精算多状态建模、转移概率估计、用于纵向健康风险的机器学习以及校准的相关工作。第3节介绍了经典精算预测框架。第4节引入了转移估计问题及所提出的方法论。第5节描述了数据和评估设计。第6节报告了实证和精算预测结果。第7节得出结论。

## 2 相关工作

### 2.1 用于长期护理的精算多状态模型

长期护理和残疾风险的精算建模通常基于多状态模型,其中个体在一组有限的功能状态之间转移。标准设定使用诸如健康、轻度残疾、重度残疾和死亡等状态,并将死亡视为吸收状态。这种结构允许恶化、部分恢复和死亡,并为残疾转移表、依赖概率表、长期护理保险产品估值以及护理年金建模提供了自然基础[16, 12, 34, 38]。在连续时间中,这些模型通常通过健康状态之间的转移强度来公式化。在离散时间精算应用中,转移结构使用特定年龄的转移概率矩阵来表示,这些矩阵被迭代用于预测未来的状态占据。这种预测结构将统计转移估计直接与预期赔付金额、准备金和偿付能力评估联系起来。因此,转移概率的准确性对于长期护理保险产品估值至关重要,特别是在可能通过重复矩阵乘法累积误差的长期预测范围内[16, 5, 30]。

多状态长期护理模型已被用于量化预期护理时间、健康预期寿命、残疾患病率以及残疾进展的财务后果。该框架的扩展已纳入趋势、参数不确定性、信息延迟以及与长寿相关的风险,用于分析残疾保险准备金提取、长期护理融资及相关保险产品[26, 38, 37]。当纵向转移历史不可得时,可通过施加马尔可夫转移结构并估计与观测到的特定年龄患病率和死亡率模式一致的转移率,从重复的横截面患病率和死亡率数据中推断转移概率[12, 24]。

以上确立了多状态转移概率的精算重要性,并提供了长期护理保险产品估值中使用的预测框架。然而,许多实际实施依赖于马尔可夫、半马尔可夫或低维参数化设定。当残疾进展取决于累积的健康史、异质性协变量效应和非规则观测间隔时,这些假设可能具有局限性。

### 2.2 估计转移概率

转移概率的估计是长期护理保险精算多状态模型的核心,因为这些概率决定了健康、残疾和死亡状态下预测的占据情况[16, 34, 38]。在离散时间估值中,转移概率矩阵在未来的年龄上迭代,因此估计转移概率中的误差可能影响预测的残疾患病率、预期赔付金额、准备金和偿付能力指标[5, 30]。类似问题也出现在卫生经济学的马尔可夫队列模型中,其中转移概率矩阵代表疾病或护理状态之间的移动,而关于转移概率估计的正式指导仍然有限[32]。本小节回顾了经典、GLM基础和机器学习方法在转移概率估计方面的工作,重点关注它们与不规则纵向长期护理数据的相关性。

#### 经典估计与基于生存分析的估计

经典方法通过参数、非参数或半参数多状态模型来估计转移概率。在生存分析中,转移动态通常通过转移强度来表示,估计基于计数过程理论、鞅方法、偏似然、Nelson-Aalen型估计量和Aalen-Johansen估计量[1, 20, 25, 21]。这些方法提供了严格的推断基础,并已扩展到竞争风险、疾病-死亡模型、时间依赖协变量、半马尔可夫设定以及非马尔可夫转移概率估计[8, 14, 39, 29]。对于马尔可夫过程,Aalen–Johansen估计量被广泛用于估计转移概率和状态占据概率。然而,当马尔可夫假设被违反时,仅以当前状态为条件可能无法充分捕捉累积的脆弱性、先前的残疾发作、在健康状态中的持续时间或其他历史依赖。

相似文章