一种可迁移的学习时间先验方法,用于疫情传播重建及真实疫情标签中的决策相关不确定性

arXiv cs.LG 论文

摘要

本文提出了一种可迁移的学习时间先验方法,用于疫情传播重建。在真实安第斯病毒基准测试中展示了改进的性能,并强调了量化传播标签中不确定性的重要性。

arXiv:2606.30842v1 公告类型:新 摘要:疫情传播重建将流行病学时间和传播标签视为确定性地面真值;但这两者尚未被系统性评估。我们在十一个疾病家族上训练了一个逻辑回归时间先验,在接触任何目标疫情数据前锁定所有参数,并直接将其应用于包含29个任务的严格安第斯病毒(ANDV)亲本排名基准。该锁定先验的平均倒数排名(MRR)为0.571,而最佳源训练参数基线为0.274;Top-1准确率为37.9%,而基线为13.8%(置换检验 p <= 0.0002;需要7-8次反转才能使MRR显著性消失)。对75对纽约市猴痘宿主间配对进行的系统发育一致性审计(这是一种独立的标签可靠性证据,而非先验验证)发现,54.67%(精确95%置信区间:42.75-66.21%)在基因组上未解决或无支持。在ANDV和广东Delta图谱中保留不确定的边,改变了前5个源优先级集(Jaccard指数0.429-0.667)。在所检查的疫情证据模块中,传播标签的不确定性是可测量的,而保留不确定的链接改变了哪些源病例被优先考虑进行干预。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:32

# 针对真实疫情标签中传播重建与决策相关不确定性的可迁移学习时间先验

来源:https://arxiv.org/html/2606.30842
![[Uncaptioned image]](https://arxiv.org/html/2606.30842v1/x1.png)
[Md Ahsan Karim](https://orcid.org/0009-0001-5024-8448)  
国家纺织工程研究院计算机科学与工程系  
Nayarhat, Savar, Dhaka-1350, Bangladesh  
[email protected]  

###### 摘要

疫情传播重建将流行病学时间节点和传播标签视为确定性真实参考;这两者均未经过系统评估。我们在十一个疾病家族上训练了一个逻辑回归时间先验,在访问任何目标疫情数据之前锁定所有参数,并将其不经重新拟合地应用于一个严格的安第斯病毒(ANDV)亲本排序基准任务(共29个任务)。锁定先验的平均倒数排名(MRR)为0.571,对比最佳源训练参数基线的0.274;Top-1准确率为37.9%对比13.8%(置换检验p ≤ 0.0002;需7–8次反转才会失去MRR显著性)。对75对纽约市猴痘宿主间配对进行的系统发育一致性审计(作为独立的标签可靠性证据,而非先验验证)发现,54.67%(精确95%置信区间:42.75–66.21%)在基因组上未被解析或不被支持。在ANDV和广东Delta传播图中保留不确定边会导致前五大源优先集合发生变化(杰卡德系数0.429–0.667)。在所检查的疫情证据模块中,传播标签的不确定性是可测量的,保留不确定链接会改变哪些源病例被优先干预。

*关键词* 传播重建;时间先验;不确定性量化;疫情流行病学;亲本排序基准;零样本迁移

## 1 引言

重建谁感染了谁,在疫情应对中属于操作最紧迫的任务之一。当新病例确诊时,接触追踪人员必须评估所有先前病例并优先考虑最可能的感染源:通常需要在数小时内完成,而此时基因组测序尚未完成、接触网络尚未整理、疫情的序列间隔分布也尚未估计。这一挑战并非假设。在阿根廷农村社区跨四代的人传人安第斯病毒传播、乌干达有记录流行病学传播证据的苏丹病毒病疫情、以及人口高度密集且联系紧密的城市中加速发展的猴痘疫情,都在这些条件下要求进行源归因[1](https://arxiv.org/html/2606.30842#bib.bib11),[15](https://arxiv.org/html/2606.30842#bib.bib29),[17](https://arxiv.org/html/2606.30842#bib.bib18)。每种情况下,基本问题都一样:根据立即可观察到的信息(发病日期、有记录的接触、以及推断的暴露窗口),哪些病例应被优先考虑?

现有方法在两种不同的证据模式下处理此问题。基因组整合框架,如 outbreaker2[2](https://arxiv.org/html/2606.30842#bib.bib16)、SCOTTI[7](https://arxiv.org/html/2606.30842#bib.bib8)和流行病学-基因组整合方法[9](https://arxiv.org/html/2606.30842#bib.bib14),[8](https://arxiv.org/html/2606.30842#bib.bib15),通过联合建模序列进化、系统发育不确定性和流行病学时间来重建传播树。当每个病例有多条高质量病原体序列且宿主内多样性提供区分信号时,这些方法非常强大。参数时间方法提供了一种补充途径:它们将高斯分布、伽马分布或对数正态分布拟合到历史序列间隔数据,并根据结果似然对候选感染源进行评分。这两个方法家族有一个未得到足够重视的共同局限:它们假设用于训练和评估的流行病学标签构成了干净、完整、确定性的真实参考。作为本研究的一部分,对 Global.Health 公共疫情仓库中 134,095 条记录进行的系统审计,仅恢复了 26 条传播边,在严格的基准构建标准下没有发现任何可用的亲本排序任务。公共疫情数据很少结构化到足以支持严格的传播重建基准测试,而现有的标签也带有未量化的不确定性[14](https://arxiv.org/html/2606.30842#bib.bib10),[11](https://arxiv.org/html/2606.30842#bib.bib13)。

本研究解决了这两个局限性。我们从涵盖十一个疾病家族的跨疾病基准中学习了一个可迁移的时间传播先验,然后在访问任何目标疫情数据之前锁定所有参数。我们在一个严格的亲本排序基准上验证了该锁定先验,该基准基于真实的安第斯病毒(ANDV)人传人传播数据构建,这是已发表文献中密度最高且有记录的定向 ANDV 传播数据源。锁定先验在无需目标特定重新拟合的情况下,显著优于所有四个公平的源训练参数时间基线。一项针对重建的苏丹病毒病传播网络的初步评估确认,在相对时间基准条件下,时间间隔邻近性携带了可区分的排序信号;在 SVD 上验证锁定先验需要一个专用的绝对发病日期基准,本研究未提供。我们审计了2022年纽约市猴痘疫情的一个已发表流行病学-基因组资源,以测试是否可以将流行病学传播标签视为真实参考。大多数宿主间关联配对被证明在基因组上要么未被解析,要么不被支持作为直接传播事件。利用一个详细追踪的广东Delta疫情传播图,我们表明保留边不确定性会改变推断的源负担、改变疫情集中度、并改变固定容量下的源优先次序决策。

此处报告的发现并不意味着所有疫情数据集都表现出相同程度的传播标签不确定性。相反,它们表明,当传播链接是通过暴露接近性、接触访谈、系统发育接近性或图重建(而非直接观察到的传播事件)推断时,不确定性可能在多个证据层面出现。在本研究检查的数据集中,这种不确定性是可测量的,并且保留它会改变推断的源负担、首要源组合以及固定容量下的优先次序决策。因此,核心论点并非不确定性阻碍推断,也不是其普遍性在不同病原体家族中相同,而是对不确定传播标签的确定性处理可能会改变从疫情重建中得出的结论。

## 2 相关工作

传播重建方法沿着两条大致平行的轨道发展:一种利用基因组序列数据推断传播拓扑结构,另一种完全依赖流行病学时间节点对候选感染源进行评分。本项工作相对于这两条轨道均占据一个特定位置,并引入了第三条维度——即所有方法(无论模式如何)最终依赖的传播标签的可靠性——这两条轨道均未系统处理过。

##### 参数与非参数时间方法。

基于时间节点的源归因基础框架由 Wallinga 和 Teunis [24](https://arxiv.org/html/2606.30842#bib.bib1)建立,他们根据病例发病时间和已知的序列间隔分布推导出概率性的感染源分配概率。该框架表明,仅凭时间证据就携带了显著区分信号,并推动了后续关于代际间隔估计[23](https://arxiv.org/html/2606.30842#bib.bib2),[10](https://arxiv.org/html/2606.30842#bib.bib17)]和时变再生产数推断[5](https://arxiv.org/html/2606.30842#bib.bib3)的工作。针对特定疾病的序列间隔特征描述已在多种病原体中展开;孟加拉国为期14年的尼帕病毒监测项目[18](https://arxiv.org/html/2606.30842#bib.bib32)]说明了为单个病原体家族产生可靠间隔估计所需的持续流行病学努力。参数方法将分布族(通常是高斯分布、伽马分布或对数正态分布)拟合到观察到的源间隔数据,并根据所得似然对候选配对进行评分。其主要优势是可解释性;其结构性局限在于,每当目标疫情的间隔分布偏离假设形式时,分布族误设就会引入系统性偏差。非参数替代方法(如核密度估计)放宽了形状假设,但仍受限于带宽选择,并且对于源样本中代表性不足的间隔值,外推效果不佳。这两类方法都没有学习一种可以在访问目标数据之前锁定的可迁移表示;两者都需要直接对目标疫情或一个假定的通用参考进行分布拟合。本研究用判别式训练的逻辑模型取代了这一假设,该模型的参数仅从源数据固定,并经验证可在任何目标基准上产生相同的输出。

##### 基因组整合的传播重建。

第二个方法家族将病原体序列数据与流行病学证据相结合,以重建传播树或传播树上的后验分布。Didelot 等人[9](https://arxiv.org/html/2606.30842#bib.bib14)将传染病传播的贝叶斯推断形式化,基于全基因组序列数据;后续扩展处理了部分采样和正在进行的疫情,其中未测序或未采样的中间宿主造成了观测缺口[8](https://arxiv.org/html/2606.30842#bib.bib15)。outbreaker2 平台[2](https://arxiv.org/html/2606.30842#bib.bib16)为联合流行病学和进化推断提供了一个模块化框架,允许跨疫情类型进行灵活的模型设定。SCOTTI[7](https://arxiv.org/html/2606.30842#bib.bib8)中的结构化溯祖模型将每个宿主视为一个结构化亚群,使宿主内多样性和传播成为显式的推断组件。变体感知方法[6](https://arxiv.org/html/2606.30842#bib.bib12)和流行病学-基因组整合框架[13](https://arxiv.org/html/2606.30842#bib.bib9),[3](https://arxiv.org/html/2606.30842#bib.bib31)通过利用宿主内变体频率数据和成对基因组距离来细化传播分配,扩展了这些思想。ScITree[22](https://arxiv.org/html/2606.30842#bib.bib33)直接解决可扩展性问题:它提供了一个贝叶斯框架,用于从流行病学和基因组数据中进行联合推断,并且适用于大型疫情数据集。近期的预印本框架,包括 JUNIPER[19](https://arxiv.org/html/2606.30842#bib.bib27)和 BREATH[4](https://arxiv.org/html/2606.30842#bib.bib28),展示了可扩展或联合系统动力学-流行病学重建的新兴方向;它们仅作为相邻的预印本框架被引用,在本研究中不作为同行评议的证据或数值比较对象。当每个病例的全基因组序列可用且具有足够的宿主内多样性以在个体病例层面解决传播时,这些方法非常强大。它们并非为零数据仅时间模式而设计——在这种模式下,基因组数据缺失、延迟或不足以进行直接传播推断;因此直接进行数值比较在方法论上是不合适的。本研究定位为与基因组整合重建互补,而非竞争。

##### 传播基准构建与标签可靠性。

重建方法的比较评估需要将每个病例链接到其真实感染源的真实标签。实践中,这些标签来源于接触调查、系统发育接近性或疫情调查报告;没有一种构成对传播事件的直接观察。OutbreakTrees 资源[20](https://arxiv.org/html/2606.30842#bib.bib20)整理了一个多疾病的已发表传播树集合,支持跨方法和跨疾病比较,但此类资源中的标签质量很少被正式描述。King 等人[14](https://arxiv.org/html/2606.30842#bib.bib10)记录了大疫情数据结构中的错误如何传播到重建结论中,从而激发在基准构建前进行明确溯源审计。本研究在两个方向上扩展了这一关注点。对大型公共疫情仓库中 134,095 条记录的系统审计,在严格的构建标准下仅恢复了26条可用于亲本排序的传播边,说明了可用基准数据在结构上的稀缺性。对流行病学关联的猴痘配对[1](https://arxiv.org/html/2606.30842#bib.bib11)进行的正式流行病学-基因组一致性审计表明,标签不确定性不仅仅是一个数据访问问题,而是记录传播事件方式的一个基本属性。据我们所知,尚无先例工作量化这种不确定性对具体公共卫生优先次序决策的下游后果:具体来说,从严格与不确定性感知的图构建中进行选择,是否会改变在固定容量响应场景下哪些源病例被选中。

##### 鲁棒性诊断与不确定性决策分析。

从紧凑的疫情基准中得出的统计结论容易受个体病例的影响。基于脆弱性指数框架[25](https://arxiv.org/html/2606.30842#bib.bib6)开发的针对二元试验终点的鲁棒性诊断,量化了需要多少次结局反转才能推翻一个显著性结论。本研究将此概念适用于配对排序设定,计算了使每个方法比较的符号检验失去显著性所需的最小任务级反转次数。这种配对反转指数不同于针对二分试验结局的经典脆弱性指数,但共享其解释优势:鲁棒性用直接与评估设计相关的单位表示。除了基于重抽样的推断[26](https://arxiv.org/html/2606.30842#bib.bib7)和留一法影响诊断外,该框架提供了适用于紧凑真实疫情基准的多维鲁棒性特征。在决策层面,Hadjisotiriou 等人[11](https://arxiv.org/html/2606.30842#bib.bib13)研究了在深度不确定性框架下图级不确定性对政策优先次序的影响,主张在多种可行的替代场景下对结论进行压力测试,而不是针对单一的点预测进行优化。本研究在一个具体的疫情背景下操作化这一原则:比较严格图与不确定性扩展图,并在固定响应容量下测量优先集合的不稳定性。决策曲线分析框架[21](https://arxiv.org/html/2606.30842#bib.bib5)为评估阈值分类决策在不确定性下的操作后果提供了额外的概念基础。表 LABEL:tab:related_work_comparison 总结了这四个维度上的代表性方法,特别关注输入数据类型、推断目标以及区分每种方法与本研究的核心假设。

表 1:代表性传播重建与不确定性分析方法的比较。

| 方法 | 输入模式 | 目标与假设 | 主要优势 | 主要局限 | 是否处理标签不确定性? |
|------|----------|------------|----------|----------|----------------------|
| 基于参数时间的似然方法[24] | 发病时间 | 假设已知序列间隔分布;推断感染源概率 | 可解释;计算简单 | 分布族误设;不迁移 | 否 |
| outbreaker2[2] | 基因组、时间 | 共同演化;推断后验传播树 | 整合多种证据;模块化 | 需要高质量基因组数据;计算成本高 | 否 |
| SCOTTI[7] | 基因组、时间 | 结构化溯祖;推断宿主内和宿主间动态 | 处理宿主内多样性 | 对部分采样敏感;需要每个宿主多位点数据 | 否 |
| 流行病学-基因组整合[9,8] | 基因组、时间、接触 | 贝叶斯融合;推断传播和进化参数 | 灵活;可处理缺失数据 | 模型复杂性;难以进行大规模验证 | 否 |
| 本研究(锁定时间先验) | 仅发病时间 | 判别式逻辑模型;固定参数;零样本迁移 | 无需目标数据重新拟合;源训练后固定 | 仅使用时间信息;需要足够的源数据 | 是(通过不确定性审计和保留边) |
| 疫情标签可靠性审计[14]及本研究 | 流行病学记录 | 量化标签不确定性;评估对结论的影响 | 识别数据质量问题;指导基准构建 | 依赖现有记录;无法消除不确定性 | 是(核心焦点) |

注意:表格最后一列“是否处理标签不确定性?”在其他工作中通常未明确处理;本表基于文献中的显式或隐含假设。表格布局为了简洁而简化,原文中的详细引用将在下方文本中保留。

相似文章

利用深度学习进行具有不确定性意识的阿尔茨海默病进展纵向预测

arXiv cs.AI

本文提出了一种概率框架,用于阿尔茨海默病进展预测,该框架结合了有序诊断预测、多时间点轨迹生成和分解不确定性估计,采用 Temporal Fusion Transformer 编码器和自回归混合密度网络。在ADNI数据上,该模型优于基线,实现了接近标称的90%可信区间覆盖率,并提供了具有临床意义的不确定性信号。

大型语言扩散模型的不确定性量化

arXiv cs.CL

本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。

学习的中继表示用于前瞻性离散扩散模型

arXiv cs.LG

本文介绍了学习的中继表示(Relay),一种使掩码扩散模型能够在去噪步骤之间传播潜在信息的方法,克服了硬重置问题并改善了性能-延迟权衡。该方法在编码任务上优于标准的监督微调,同时将推理延迟降低高达32%。