将数据驱动预测与分配对齐:一种以决策为中心的生存分析方法

arXiv cs.LG 论文

摘要

本文介绍了一种面向决策的生存分析学习方法,该方法通过NDCG优化将预测模型与后续分配决策对齐。应用于美国心脏移植数据后,排名性能提升了50-100%,每年可能带来数千额外生命年。

arXiv:2606.02671v1 公告类型:新 摘要:机器学习预测器已成为指导自动化决策的重要工具。然而,一个关键的不对齐问题依然存在:预测模型通常根据标准统计指标进行优化,而与它们所指导的算法任务相分离。我们通过器官分配这一高风险领域展示这种不一致性:任何依赖(即使是高度准确的)针对标准指标(如一致性指数C-index)优化的生存预测器的算法,在用于分配时都可能产生任意差的结果,无法保证优于均匀随机选择的效用。为了弥合生存分析与策略优化之间的差距,我们引入了一种以决策为中心的学习方法,该方法基于优化归一化折损累积增益(NDCG),这是信息检索中的一个主要指标。我们通过证明NDCG能转化为分配性能的保证,确立了其在生存分析中的效用。在实证方面,我们提出了一种自助法(bootstrapping)来优化现有生存模型的NDCG。与先前工作不同,我们还解决了评估排名时的右删失挑战。在美国历史心脏移植数据上,我们的方法将基线模型的NDCG大幅提升了50-100%,这意味着应用于移植分配时每年可多获得数万生命年。我们预计该框架将在基于预测的决策中发挥更广泛的应用。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:39

# 以决策为导向的生存分析方法 来源:https://arxiv.org/html/2606.02671 ## 将数据驱动的预测器与分配对齐:一种以决策为导向的生存分析方法 Itai Zilberstein通讯作者:izilbers@cs\.cmu\.edu卡内基梅隆大学计算机科学系,宾夕法尼亚州匹兹堡Tuomas Sandholm卡内基梅隆大学计算机科学系,宾夕法尼亚州匹兹堡其他隶属机构:Strategy Robot, Inc\.、Strategic Machine, Inc\.、Optimized Markets, Inc\. ###### 摘要 机器学习预测器已成为指导自动化决策的重要工具。然而,一个重大错位问题依然存在:预测模型通常根据标准统计指标进行优化,而与它们所服务的算法任务相孤立。我们在高风险的器官分配领域揭示了这一不一致性,并证明任何依赖(即使高度准确的)生存预测器(这些预测器针对标准指标(例如一致性指数(C-index))进行优化)的算法,在用于分配时都可能产生任意差的结果,无法保证比均匀随机选择更好的效用。为了弥合生存分析与策略优化之间的差距,我们引入了一种基于优化归一化折现累计增益(NDCG)(信息检索中的核心指标)的决策导向学习方法。我们通过证明NDCG能够转化为对分配性能的保证,确立了NDCG在生存分析中的效用。在实证方面,我们提出了一种自助法,用于优化现有生存模型的NDCG。与以往工作不同,我们还在评估排序时解决了右删失的挑战。在美国历史心脏移植数据上,我们的方法将基线的NDCG大幅提升了50-100%,这意味着在用于移植分配时每年可额外获得数万生命年。我们预计我们的框架将在预测驱动的决策制定中找到更广泛的应用。 ## 1 引言 现实世界的决策越来越依赖由机器学习(ML)预测器驱动的算法,这些预测器基于大量历史数据进行训练。从资源分配到自动化规划与调度,这些数据驱动系统被部署在高风险环境中。然而,一个根本性的脱节依然存在:用于这些问题的经典算法的开发通常与它们所利用的预测模型的设计相脱节。ML模型通常孤立地针对标准统计指标进行优化,而使用这些预测的下游算法要么未能考虑预测器的性能特征,要么因为算法目标与模型的训练不一致而受到影响。预测准确性与算法效用之间的差距可能导致灾难性后果,尤其是在器官分配等高危应用中。

器官移植是许多绝症的首选治疗方法。就器官类型而言,对死者捐献器官的需求超过了可用供应 [Cameliet al., 2022 (https://arxiv.org/html/2606.02671#bib.bib53)]。仅在美国,就有数千名终末期心力衰竭患者在等待挽救生命的器官。当前的美国心脏移植分配政策将患者分为严格的分层等级,并将器官分配给优先级最高的兼容患者。该政策通常将临床表现异质的患者视为实质上相同。对该政策的一个主要批评是,它没有利用更精细的移植前死亡率和移植后结果预测 [Shoreet al., 2020 (https://arxiv.org/html/2606.02671#bib.bib41), Zhanget al., 2024 (https://arxiv.org/html/2606.02671#bib.bib67)]。因此,美国正在向新的数据驱动解决方案过渡,以提高心脏移植系统的效率 [Papalexopouloset al., 2024 (https://arxiv.org/html/2606.02671#bib.bib54)]。其他器官(如肺脏 [OPTN, 2025 (https://arxiv.org/html/2606.02671#bib.bib39), Gottliebet al., 2017 (https://arxiv.org/html/2606.02671#bib.bib111)]、肝脏 [Kamathet al., 2001 (https://arxiv.org/html/2606.02671#bib.bib109), Allenet al., 2024 (https://arxiv.org/html/2606.02671#bib.bib66)] 和肾脏 [Abrahamet al., 2007 (https://arxiv.org/html/2606.02671#bib.bib91), Mayer and Persijn, 2006 (https://arxiv.org/html/2606.02671#bib.bib110)])的分配在美国和其他地区已经依赖于此类计算方法。

一种常见的数据驱动器官分配方法依赖于移植结果的预测,例如手术预期获得的生命年数 [Berrevoetset al., 2021 (https://arxiv.org/html/2606.02671#bib.bib15), 2020 (https://arxiv.org/html/2606.02671#bib.bib1), Zilbersteinet al., 2026b (https://arxiv.org/html/2606.02671#bib.bib99), Zhanget al., 2024 (https://arxiv.org/html/2606.02671#bib.bib67)]。生存分析领域已经开发出强大的统计模型来估计此类结果 [Cox, 1972 (https://arxiv.org/html/2606.02671#bib.bib23), Katzmanet al., 2018 (https://arxiv.org/html/2606.02671#bib.bib102), Leeet al., 2018 (https://arxiv.org/html/2606.02671#bib.bib28), Wei, 1992 (https://arxiv.org/html/2606.02671#bib.bib101), Nagpalet al., 2021 (https://arxiv.org/html/2606.02671#bib.bib104)]。然而,当这些模型被整合到分配机制中时,上述脱节问题就浮出水面。生存模型传统上根据如一致性指数(C-index)或平均误差等指标进行优化和评估,这些指标衡量整个数据集上的聚合性能。但是,当一颗供体心脏到达时,匹配算法并不需要所有患者的完美生存点估计;相反,它需要保证能够识别出最佳的单个可用匹配。

#### 我们的贡献
正如我们将要展示的,使用针对C-index优化的预测器进行匹配可能会产生任意差的结果。我们证明,任何依赖近乎完美C-index预测器的确定性算法都可能获得近乎为零的最优效用比例(命题1 (https://arxiv.org/html/2606.02671#Thmproposition1))。然后我们证明,依赖近乎完美C-index预测器的任何算法都无法保证比随机选择更好的效用(命题2 (https://arxiv.org/html/2606.02671#Thmproposition2)),这表明C-index在分配单个捐赠者时是一个非信息性指标。这种失败不仅仅局限于C-index。大多数聚合指标,如平均误差,也可能导致任意差的结果。

等待列表患者
P1
P2
⋮
P9
P10
1 yr, 1 yr, 11 yrs
2 yrs, 3 yrs, 2 yrs
9 yrs, 10 yrs, 9 yrs
10 yrs, 8 yrs, 10 yrs

图1:带有预测结果的心脏移植分配示例。最左边的值表示未知的真实患者生存期,中间的绿色值表示NDCG@1=0.9的预测,最右边的红色值表示C-index=0.8的预测。

我们朝着弥合生存分析预测建模与下游分配政策要求之间的差距迈出了一步。虽然我们专注于带有预测边权重的匹配和生存分析预测器,但我们的方法为评估和优化其主要目的是为离散分配决策提供信息的ML模型提供了一个模板。我们首先建立了预测器的NDCG@k与下游分配效用保证之间的正式联系(定理1 (https://arxiv.org/html/2606.02671#Thmtheorem1))。我们证明了预测器的NDCG@1可以转化为贪婪分配策略效用的可证明保证(推论1 (https://arxiv.org/html/2606.02671#Thmcorollary1)),这是C-index所不具备的特性。图1 (https://arxiv.org/html/2606.02671#S1.F1) 说明了这种差异。

然后,我们引入了将归一化折现累计增益(NDCG)[Järvelin and Kekäläinen, 2002 (https://arxiv.org/html/2606.02671#bib.bib106), Wanget al., 2013 (https://arxiv.org/html/2606.02671#bib.bib105)] 用于生存分析。由于右删失,NDCG不能直接应用于生存分析:许多数据点仅由其真实生存时间的下界表示,因为患者仍然存活或随访结束。我们提出了两种针对右删失数据的NDCG新估计量,并证明两者都能提供真实折现累计增益(DCG)的无偏估计。我们展示了如何使用此类估计器来选择具有更好NDCG的模型。最后,我们提出了一种方法来引导当前生存预测器,以优化模型的NDCG。我们使用真实的历史心脏移植数据表明,我们的NDCG估计量能够准确识别模型优势,并且我们的自助法显著提高了NDCG,大约使基线模型的NDCG@1翻倍。这些增益是巨大的:应用这一提升意味着仅在美国每年就额外获得近50,000个生命年。¹¹假设每年进行4,000次移植,中位移植物生存期为12年 [Colvinet al., 2025 (https://arxiv.org/html/2606.02671#bib.bib112)]。

我们的工作暴露了当前高危器官分配决策系统设计中的失败,并提供了理论上严谨的解决方案来应对这些失败。我们证明,认为更好的统计预测会带来更好的政策结果是不安全的,揭示了当前机制(包括肺、肝和肾的分配机制)与其拯救生命的目标不一致,并且无法保证比随机选择更好的结果。除了移植之外,为了安全地部署ML,其预测组件必须与它们所告知的下游行动保持一致,而我们的方法支持这一点。预测与优化之间的不匹配在文献中得到更广泛的研究,而我们的工作是第一个将生存分析与决策导向和端到端学习联系起来的 [Dontiet al., 2017 (https://arxiv.org/html/2606.02671#bib.bib57), Wilderet al., 2019 (https://arxiv.org/html/2606.02671#bib.bib65), Elmachtoub and Grigas, 2022 (https://arxiv.org/html/2606.02671#bib.bib64), Mandiet al., 2024 (https://arxiv.org/html/2606.02671#bib.bib63), Capitaineet al., 2025 (https://arxiv.org/html/2606.02671#bib.bib62)]。这些工作线侧重于使ML模型与其所告知的决策制定任务相一致。在医疗保健领域,这种不匹配也已在因果治疗效果的背景下得到认识 [Vanderschuerenet al., 2024 (https://arxiv.org/html/2606.02671#bib.bib119), Kamranet al., 2024 (https://arxiv.org/html/2606.02671#bib.bib43), Frauenet al., 2025 (https://arxiv.org/html/2606.02671#bib.bib117), Fernández-Loría and Provost, 2022 (https://arxiv.org/html/2606.02671#bib.bib118), Arnoet al., 2026 (https://arxiv.org/html/2606.02671#bib.bib116)]。我们的论文侧重于生存分析,其中包含右删失这一独特挑战,以及预测排名最高的候选者。我们是第一个将此类技术用于器官分配的。我们在附录A (https://arxiv.org/html/2606.02671#A1)中进一步讨论了相关工作。

## 2 预备知识
我们首先回顾信息检索和生存分析中的标准预测度量。

#### DCG 和 NDCG
许多信息检索设置关注于提供一组数据点(例如推荐)的准确排名。给定N个输入,我们通常关心排名最高的k个预测,而不是整个总体。设T_i表示预测模型排序为第i个点的相关性(例如效用),其中排名越低表示效用越高。在标准设置中,真实相关性是已知的。在k处的折现累计增益(DCG@k)评估排名前k个项目的质量:
\[\text{DCG}@k = \sum_{i=1}^{k} \frac{T_i}{\log_2(i+1)}.\]
为了归一化DCG,我们将其与理想DCG@k(IDCG@k)进行比较,理想DCG@k是如果排名完全按照真实相关性排序所能达到的最大DCG@k。归一化折现累计增益(NDCG@k)是 \(\nicefrac{\text{DCG}@k}{\text{IDCG}@k}\)。因此,NDCG@k=1表示前k个点的完美排序。有关信息检索的更多背景,请参考Burges [2010 (https://arxiv.org/html/2606.02671#bib.bib42)] 和 Schütze等人 [2008 (https://arxiv.org/html/2606.02671#bib.bib9)]。

#### 生存分析
在典型的生存分析设置中,我们得到一个由个体 \(i \in \{1, \dots, N\}\) 组成的数据集。设 \(T^*_i\) 表示第i个人的真实未观测生存时间,\(C_i\) 表示删失时间。可观测的随机变量 \(T_i = \min\{T^*_i, C_i\}\),事件指示符 \(\delta_i = \mathbb{I}\{T^*_i \leq C_i\}\),其中 \(\mathbb{I}\) 是二元指示函数。设 \(X_i \in \mathbb{R}^d\) 为第i个患者的基线协变量向量。我们也可以将目标转向预测固定时间范围 \(\tau\) 内的生存,其中 \(T^{(\tau),*}_i = \min\{T^*_i, \tau\}\),\(\delta_i^{(\tau)} = \max\left\{\delta_i, \mathbb{I}\{T_i \geq \tau\}\right\}\)。

我们定义 \(S(t \mid X) = \mathbb{P}(T^* > t \mid X)\) 为真实条件生存函数,\(G(t \mid X) = \mathbb{P}(C > t \mid X)\) 为真实条件删失生存函数。我们假设协变量X同时捕捉生存和删失机制,并且在给定X的条件下它们是独立的。

###### 假设1(条件独立删失):\((T^* \perp\!\!\!\perp C) \mid X\).

对于心脏移植,我们的目标是预测一个新器官在手术后能够维持患者多长时间。医疗数据集面临的一个普遍挑战是由于患者停止报告而导致的右删失。我们知道患者最后一次报告病情的日期,但不知道真正的事件发生时间。为了将NDCG适用于生存数据,相关性分数变为真实生存时间(或受限真实生存时间)。然而,对于删失患者,真实相关性仍然是不可观测的。因此,我们需要新的估计量来计算右删失数据集的NDCG。

#### 一致性指数
衡量生存分析中预测排名的标准指标是一致性指数(C-index)。C-index衡量成对准确性,定义为所有*可比*患者对中一致对的比例。针对右删失数据集,存在不同的C-index计算方法 [Gönen and Heller, 2005 (https://arxiv.org/html/2606.02671#bib.bib11), Uno et al., 2011 (https://arxiv.org/html/2606.02671#bib.bib12)],我们采用常用的Harrell's C-index [Harrell et al., 1982 (https://arxiv.org/html/2606.02671#bib.bib13)]。这些变化不会改变该指标的基本原则。一对患者 \((i,j)\) 如果我们可以明确知道哪个患者先经历了感兴趣的事件(死亡、移植物失败等),则该对是可比的。只有当观测时间较短的患者经历了事件(即 \(T_i < T_j\) 且 \(\delta_i = 1\)),或者两个观测时间相等且两个患者都经历了事件(即 \(T_i = T_j\) 且 \(\delta_i = \delta_j = 1\))时,该对才是可比的。给定一个预测器 \(\hat{f}(X)\) 试图预测生存时间,如果 \(\hat{f}(X_i) > \hat{f}(X_j)\) 且 \(T_i > T_j\)(或者 \(\hat{f}(X_i) < \hat{f}(X_j)\) 且 \(T_i < T_j\)),则一对可比患者是一致对。 C-index 是所有可比对中一致对的比例。

#### 生存预测模型
我们考虑三个用于生存模型的基线(详情见附录B (https://arxiv.org/html/2606.02671#A1.SS2)):Cox比例风险模型(Cox)[Cox, 1972 (https://arxiv.org/html/2606.02671#bib.bib23)],它假设协变量对风险函数的对数具有线性效应;随机生存森林(RSF)[Ishwaran et al., 2008 (https://arxiv.org/html/2606.02671#bib.bib29)],一种用于生存数据的集成学习方法;以及DeepSurv [Katzman et al., 2018 (https://arxiv.org/html/2606.02671#bib.bib102)],一种基于深度学习的Cox比例风险模型。我们使用这些模型预测风险或生存时间,其中较高的预测表示更好的生存前景。

#### 利用预测进行匹配
在我们的心脏移植设置中,当一个供体器官可用时,一个分配算法必须从N个可用候选中选择患者。我们关注一个抽象设置,其中我们有一组候选患者I,一组患者特征X_i,以及一个未知的真实效用T_i(例如,移植后的预期生命年数)。我们只能获得这些效用的噪声预测 \(\hat{T}(X_i)\)。我们假设预测器的输入是患者特征 \(X_i\),并输出一个实数评分 \(\hat{T}(X_i)\)。分配器的目标是从候选集合中选择一个患者,使得真实效用最大化。在更一般的分配设置中,例如匹配,算法在多个步骤中选择多个患者。我们将贪婪匹配算法(也称为优先匹配)形式化为:当一个供体可用时,从剩余患者中选择具有最高预测效用的患者。如Zilberstein等人 [2026a (https://arxiv.org/html/2606.02671#bib.bib98)] 所示,贪婪匹配在效用不确定下是最优的。我们将此作为我们的主要分配算法。

在给定的预测 \(\hat{T}(X_i)\) 下,分配器选择的患者的真实效用是 \(T_{i^*}\),其中 \(i^* = \arg\max_i \hat{T}(X_i)\)。分配器的效用是最优效用 \(T_{(1)}\) 的一部分,其中 \(T_{(1)}\) 是所有患者中的最大值:\(\text{效用} = T_{i^*} / T_{(1)}\)。在多次分配中,我们累积效用。这被称为有界竞争比分析 [Borodin and El-Yaniv, 1998 (https://arxiv.org/html/2606.02671#bib.bib115)]。例如,竞争比为0.5意味着分配器平均获得最优效用的50%。

#### 期望效用(EY)预测
为了将生存模型转化为死亡率或移植物失败风险的预测,通常需要计算期望生存时间。给定条件生存函数 \(S(t|X)\),期望生存时间可以通过下式计算:\(\hat{T}_i^{\text{EY}} = \int_0^{\infty} \hat{S}(t|X_i) dt\)。然而,由于删失,右尾的估计可能不可靠。更好的选择是使用受限制的平均生存时间(RMST) [Royston and Parmar, 2013 (https://arxiv.org/html/2606.02671#bib.bib103)],它在时间 \(\tau\) 处截断:\(\hat{T}_i^{\text{RMST}} = \int_0^{\tau} \hat{S}(t|X_i) dt\)。在基线模型中,我们使用 \(\hat{T}_i^{\text{EY}}\) 作为预测。

我们现在给出主要结果。首先,我们正式确定在分配设置中使用C-index的失败。然后,我们证明NDCG在提供效用保证方面的价值。最后,我们介绍针对生存数据的NDCG估计器,并提供使用自助法优化NDCG的方法。

相似文章