关于时间序列预训练中归纳偏差的作用:以临床时间序列学习通用表征的案例研究
摘要
本文研究了临床数据时间序列预训练中归纳偏差的作用,提出了PathoFM——一种以编码器为中心的Transformer,在多变量步态窗口上进行了预训练。研究比较了不同的预训练目标,发现以动力学为中心的混合目标在分类和回归任务中实现了最均衡的迁移效果。
arXiv:2605.26194v1 公告类型:新论文
摘要:临床时间序列学习通常受限于小规模异质性队列和协议漂移,而其下游应用涵盖分类(如病理诊断)和回归(如时间预测)两大类任务。这些限制使得基础模型预训练具有吸引力,但引发了一个重要问题:预训练目标应施加何种归纳偏差,才能使表征在任务类型和受试者之间迁移?本文通过PathoFM研究脊髓损伤(SCI)病理步态分析中的这一问题。PathoFM是一种以编码器为中心的Transformer,在多变量步态窗口上使用三个互补目标进行预训练:局部补全(重建连续掩蔽跨度以强化局部结构)、时间连续性(从观测前缀预测掩蔽的中期延续以强化平滑性和因果一致性)以及无监督上下文动力学(通过注意力机制基于受试者示例窗口进行支持-查询重建)。通过实证比较目标家族(分组/对比、基于动力学的和生成式重建),我们发现以动力学为中心的混合目标产生了最均衡的迁移:分组目标有利于判别边界,但可能降低连续目标所需的幅度保真度;而仅重建目标能保留波形结构,但在分类任务上表现可能不佳。总体而言,将局部重建与时间连续性相结合,并在示例访问现实可行时加入上下文条件,可产生鲁棒的受试者泛化表征。
查看缓存全文
缓存时间: 2026/05/27 09:06
# 关于时间序列预训练中归纳偏差的作用:学习泛化临床时间序列表示的案例研究
来源:https://arxiv.org/html/2605.26194
[![[未配图标题]](https://arxiv.org/html/2605.26194v1/x1.png)Sharmita Dey](https://orcid.org/0000-0001-8058-4867) 苏黎世联邦理工学院 苏黎世 瑞士 contact\.deysharmita@gmail\.com &Diego Paez\-Granados 苏黎世联邦理工学院, 瑞士脊椎损伤研究中心, 诺特维尔 苏黎世 瑞士
###### 摘要
临床时间序列学习通常受限于小型异构队列和测量协议漂移,而其下游应用既包括分类(如病理诊断)也包括回归(如时间预测)。这些限制使得基础模型预训练颇具吸引力,但也提出了一个重要问题:预训练目标应施加何种归纳偏置,才能使表示跨任务类型和受试者进行迁移。我们通过PathoFM研究脊髓损伤(SCI)病理步态分析中的这个问题。PathoFM是一种以编码器为中心的Transformer,在多元步态窗口上使用三种互补目标进行预训练:局部补全(重建连续掩码跨度以强化局部结构)、时间连续性(根据观察到的前缀预测掩码中程延续以强化平滑性和因果一致性),以及无监督上下文内动态(通过注意力机制,基于受试者样本窗口的支持-查询重建)。通过在目标家族(分组/对比、基于动态和生成式重建)上的实证比较,我们发现以动态为中心的混合目标能产生最均衡的迁移:分组目标有利于判别边界,但可能会降低连续目标所需的幅度保真度;而仅使用重建目标能保留波形结构,但在分类上可能表现不佳。总体而言,将局部重建与时间连续性相结合,并在能够获取样本的情况下加入上下文内条件,能产生对受试者具有鲁棒泛化能力的表示。
## 1 引言
临床时间序列,如病理运动学和动力学,编码了关于生理状态、病理和进展的丰富信息Sutherland (2005 (https://arxiv.org/html/2605.26194#bib.bib46)),但它们也体现了医学特有的约束:队列样本小、标签昂贵、数据在不同协议下收集(不同的诊所、传感器、病人群体)Zantvoort等 (2024 (https://arxiv.org/html/2605.26194#bib.bib47));Guan和Liu (2021 (https://arxiv.org/html/2605.26194#bib.bib48))。这些约束导致了两种反复出现的失败模式:(i) 监督模型过拟合队列的特定特征,泛化到新受试者时表现不佳Zantvoort等 (2024 (https://arxiv.org/html/2605.26194#bib.bib47)),以及 (ii) 针对一个目标(如诊断)优化的表示难以迁移到另一个目标(如连续动力学目标)Zhang等 (2022 (https://arxiv.org/html/2605.26194#bib.bib50));Harutyunyan等 (2019 (https://arxiv.org/html/2605.26194#bib.bib39))。
基础模型预训练提供了一条部分逃生通道Brown等 (2020 (https://arxiv.org/html/2605.26194#bib.bib55));Bommasani (2021 (https://arxiv.org/html/2605.26194#bib.bib54)):通过从大量未标记序列中学习表示,我们可以分摊特征学习成本并减少下游任务的标签负担Hinton和Salakhutdinov (2006 (https://arxiv.org/html/2605.26194#bib.bib53));Erhan等 (2010 (https://arxiv.org/html/2605.26194#bib.bib52))。然而,在临床时间序列中,预训练不仅是一种优化技巧,更是一种对*归纳偏置*的承诺,即一组关于数据中何种结构重要的假设Mitchell (1980 (https://arxiv.org/html/2605.26194#bib.bib51))。例如,对比学习目标Chen等 (2020 (https://arxiv.org/html/2605.26194#bib.bib24))施加了一种“分组”偏置(实例应可分离,并对干扰具有不变性),而预测目标则施加了一种“动态”偏置(未来应能从过去预测,轨迹应在时间上一致)Oord等 (2018 (https://arxiv.org/html/2605.26194#bib.bib9));Li等 (2023 (https://arxiv.org/html/2605.26194#bib.bib18))。我们研究的核心问题是:
*当目标是实现受试者偏移下跨分类和回归的任务迁移时,哪些归纳偏置对临床时间序列预训练至关重要?*
#### 案例研究:脊髓损伤的病理步态。
我们将研究立足于脊髓损伤(SCI)的步态分析。在此场景中,每次试验产生多元步态周期(运动学和动力学),下游终点包括分类标签(如截瘫与四肢瘫的模式、功能独立性评分)和连续目标(如地面反作用力分量)。步态是研究归纳偏置的一个极佳放大镜:临床相关线索可能是局部且阶段特异性的(如摆动期异常),而临床有用的动力学则依赖于对幅度、相位和时间动态的忠实建模Perry和Burnfield (2024 (https://arxiv.org/html/2605.26194#bib.bib20));Harris等 (2022 (https://arxiv.org/html/2605.26194#bib.bib23));Winter (2009 (https://arxiv.org/html/2605.26194#bib.bib56))。
#### 方法。
我们开发了PathoFM,这是一种仅编码器的Transformer,使用三种互补目标在步态窗口上进行预训练:(i) **局部补全(LC)**:重建连续的掩码跨度(掩码自编码偏置),(ii) **时间连续性(TC)**:根据观察到的前缀预测掩码的中程未来(动态偏置),以及 (iii) **无监督上下文内动态(uICD)**:在关注同一受试者样本窗口的同时,重建掩码查询窗口(上下文内适应偏置)。本文附带的实现(在第5节 (https://arxiv.org/html/2605.26194#S5) 中总结)还包括基于插值的缺失值处理和一个受试者平衡的批采样器,以减轻预训练期间的受试者不平衡问题。
#### 贡献。
本文做出以下贡献:
1. 我们提出了一个用于时间序列预训练中归纳偏置的实用分类法(第3节 (https://arxiv.org/html/2605.26194#S3)),并讨论了有利的迁移和失败模式。
2. 我们将PathoFM的三目标预训练形式化为一个以动态为中心的混合模型,并包含显式的上下文内组件(第4节 (https://arxiv.org/html/2605.26194#S4))。
3. 我们比较了涵盖分组、动态和生成家族的目标,通过实证表明,在严格的受试者留出法下,以动态为中心的混合目标能在分类和回归之间实现均衡的迁移(第6节 (https://arxiv.org/html/2605.26194#S6))。
## 2 相关工作与背景
自监督学习已成为标签稀缺但未标记数据丰富领域中表示学习的标准方法Gui等 (2024 (https://arxiv.org/html/2605.26194#bib.bib10))。然而,在临床时间序列中,问题不仅在于自监督是否有帮助,更在于*哪种自监督偏置与临床相关的终点相一致*。
#### 基于分组的目标。
对比学习Le-Khac等 (2020 (https://arxiv.org/html/2605.26194#bib.bib11))和基于原型的聚类Li等 (2020 (https://arxiv.org/html/2605.26194#bib.bib12))施加了一种偏置:实例的临近增强应该映射到临近的嵌入,而不同实例则应该被分开。这通过InfoNCE风格的目标(由SimCLR Chen等 (2020 (https://arxiv.org/html/2605.26194#bib.bib24))和MoCo He等 (2020 (https://arxiv.org/html/2605.26194#bib.bib13))在视觉领域推广)和原型方法如DINO Caron等 (2021 (https://arxiv.org/html/2605.26194#bib.bib25)) 实现。在生物医学时间序列中,类似的想法通过将每个受试者视为一个“类别”(受试者ID预训练)或对比同一记录的不同窗口来使用Liu等 (2023 (https://arxiv.org/html/2605.26194#bib.bib14));Ogg和Coon (2024 (https://arxiv.org/html/2605.26194#bib.bib15));Yue等 (2022 (https://arxiv.org/html/2605.26194#bib.bib16))。这些目标通常能产生很强的分类特征,但当增强方式鼓励对幅度或时序的不变性时,它们可能会抑制绝对幅度信息和精细的波形细节Wen等 (2020 (https://arxiv.org/html/2605.26194#bib.bib17))。
#### 掩码重建。
掩码建模通过重建缺失的输入标记来学习表示;这在语言(掩码语言建模)中广为人知,并已通过掩码自编码器(MAE)He等 (2022 (https://arxiv.org/html/2605.26194#bib.bib22)) 成为视觉领域的标准。在时间序列中,掩码跨度重建倾向于保留局部信号形态和跨通道相关性Li等 (2023 (https://arxiv.org/html/2605.26194#bib.bib18))。对于临床信号,这很有吸引力,因为许多下游任务(从去噪到生物力学解释)都需要保留具有临床意义的波形结构,而不仅仅是类别的可分性。
#### 预测和动态学习。
预测目标(下一步预测、多步预测或延续)明确地迫使表示编码时间动态Oord等 (2018 (https://arxiv.org/html/2605.26194#bib.bib9))。在诸如Temporal Fusion Transformer Lim等 (2021 (https://arxiv.org/html/2605.26194#bib.bib21))这样的预测中心架构中,归纳偏置是未来结果依赖于可预测的过去上下文Dey等 (2024 (https://arxiv.org/html/2605.26194#bib.bib65))。对于表示学习,预测可以用作一个前置任务来学习相位一致的潜在动态,即使最终的下游任务不是预测Zhang等 (2024 (https://arxiv.org/html/2605.26194#bib.bib27))。一个已知的问题是暴露偏差:在短时域上训练的模型可能学到脆弱的动态,无法很好地迁移Bengio等 (2015 (https://arxiv.org/html/2605.26194#bib.bib28));Venkatraman等 (2015 (https://arxiv.org/html/2605.26194#bib.bib29))。
#### 扩散和概率重建。
用于时间序列的扩散模型Tashiro等 (2021 (https://arxiv.org/html/2605.26194#bib.bib19));Dey和Nair (2025 (https://arxiv.org/html/2605.26194#bib.bib58)) 用分布建模取代了点重建,捕捉不确定性和丰富的局部结构。这对连续值目标和缺失数据场景可能有益,但扩散训练通常需要更高的计算量,并且可能不会优化判别边界Ho等 (2020 (https://arxiv.org/html/2605.26194#bib.bib30));Nichol和Dhariwal (2021 (https://arxiv.org/html/2605.26194#bib.bib32));Skierś和Deja (2025 (https://arxiv.org/html/2605.26194#bib.bib31))。
#### 上下文内适应与元学习。
上下文内学习是指模型在推理时根据提示或支持集调整行为,而无需更新参数。在时间序列中,这可以通过呈现支持-查询结构的多个窗口,并训练模型完成基于支持集条件的掩码重建来模拟Das等 (2024 (https://arxiv.org/html/2605.26194#bib.bib37));Lu等 (2024 (https://arxiv.org/html/2605.26194#bib.bib36))。这类似于非参数元学习,并且在临床环境中,反映了将患者测量值与参考样本进行比较的常见做法Vinyals等 (2016 (https://arxiv.org/html/2605.26194#bib.bib34));Schmidt等 (2001 (https://arxiv.org/html/2605.26194#bib.bib35))。
#### 为什么步态是一个好的压力测试。
步态分析处于判别需求和生成需求的交汇点:临床医生可能希望分类病理类型,但也希望估计连续的动力学变量并理解相位特异性偏差Dey和Ravindran Nair (2024 (https://arxiv.org/html/2605.26194#bib.bib64));Dey和Schilling (2022 (https://arxiv.org/html/2605.26194#bib.bib66));Dey等 (2021 (https://arxiv.org/html/2605.26194#bib.bib59), 2019a (https://arxiv.org/html/2605.26194#bib.bib61), 2020 (https://arxiv.org/html/2605.26194#bib.bib62), 2019b (https://arxiv.org/html/2605.26194#bib.bib63));Quintero等 (2018 (https://arxiv.org/html/2605.26194#bib.bib60))。因此,一个“对分类很好”但幅度保真度差的表示是不完整的。标准步态参考提供了生物力学背景和典型的波形结构Perry和Burnfield (2024 (https://arxiv.org/html/2605.26194#bib.bib20)),而机器学习综述则强调了基于步态的任务的多样性Harris等 (2022 (https://arxiv.org/html/2605.26194#bib.bib23))。这使得步态成为研究目标诱导的归纳偏置的一个有用案例。
## 3 时间序列预训练中归纳偏置的分类法
预训练目标可理解为施加偏好,决定表示中应保留或丢弃哪些信息。我们根据主要归纳偏置将常见目标分为四个家族(表1 (https://arxiv.org/html/2605.26194#S3.T1))。这些家族并非互斥,但它们对下游行为的预测出奇地好。
表1:时间序列预训练中归纳偏置的分类。“有利迁移”指通常受益最多的任务类型;“失败模式”指偏置过度应用时常见的情况。
#### 为什么这个分类很重要。
临床工作负载很少涉及单一终点Harutyunyan等 (2019 (https://arxiv.org/html/2605.26194#bib.bib39))。在步态中,诸如诊断Slijepcevic等 (2021 (https://arxiv.org/html/2605.26194#bib.bib41));Alaqtash等 (2011 (https://arxiv.org/html/2605.26194#bib.bib40))和决策制定Althoff等 (1998 (https://arxiv.org/html/2605.26194#bib.bib42))等分类任务更喜欢强调判别边界的表示(分组),而诸如动力学预测Liu等 (2022 (https://arxiv.org/html/2605.26194#bib.bib43));Liu和Hauskrecht (2015 (https://arxiv.org/html/2605.26194#bib.bib44))或临床预测等回归任务则更喜欢保留幅度和相位分辨动态的表示(动态 + 重建)。因此,针对*两者*的基础模型必须平衡偏置,而不是将任何一个优化到极端Sener和Koltun (2018 (https://arxiv.org/html/2605.26194#bib.bib45))。
## 4 PathoFM:具有互补偏置的多目标预训练
### 4.1 问题设置与符号
设 X∈RT×D\\mathbf{X}\\in\\mathbb{R}^{T\\times D} 表示一个多元步态窗口,长度为 TT,具有 DD 个特征。在参考实现中,我们使用固定长度的窗口,包含一个*过去*部分和一个*未来*部分,T=Tp+TfT=T_p+T_f(第5节 (https://arxiv.org/html/2605.26194#S5))。设 ϕ(⋅)\\phi(\\cdot) 是一个Transformer编码器,g(⋅)g(\\cdot) 是一个轻量级解码头,将编码器状态映射回特征空间。
### 4.2 架构:以编码器为中心的Transformer
PathoFM(图1 (https://arxiv.org/html/2605.26194#S4.F1))以编码器为中心:Transformer编码器承担表示学习的重任,而每个前置目标只使用一个小型重建头。
参考实现使用:(i) 输入投影 Win:RD→RdW_{in}:\\mathbb{R}^{D}\\to\\mathbb{R}^{d},(ii) 学习或正弦时间位置编码,(iii) 一个标准的Transformer编码器堆栈,以及 (iv) 一个线性解码器 Wout:Rd→RDW_{out}:\\mathbb{R}^{d}\\to\\mathbb{R}^{D}。对于上下文内目标,我们进一步相似文章
训练大型语言模型预测临床事件
本文通过将按时间排序的临床笔记转换为预测示例,将前瞻性学习扩展到临床事件预测。在120B模型上使用LoRA适配器改善了校准性能,并在留出问题上优于GPT-5。
DT-Transformer:一个在真实世界健康系统上进行疾病轨迹预测的基础模型
DT-Transformer是一个基础模型,在Mass General Brigham(MGB)健康系统的11家医院中,基于170万名患者的5710万条结构化EHR记录进行训练,在896个疾病类别的下一事件预测中展现出强大的区分能力。
通用嵌入与特定嵌入,哪种更好?非英语语言临床编码搜索的实证研究
本文研究了基于大型语言模型合成数据微调的紧凑型任务特定双编码器是否能在非英语语言的临床编码检索中超越通用嵌入,并在西班牙语基准测试CodiESP和DISTEMIST上取得了最先进的结果。
预测中期阿尔茨海默病进展:基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器
本文提出了一种残差间隙感知变换器,将混合效应统计参考与基于变换器的残差学习相结合,利用ADNI临床和生物标志物历史数据预测24个月CDR-SB变化,在均方误差和相关性上均优于基线模型。
LM预训练的泛化动态(阅读时间17分钟)
本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。