Transformer 应如何编码电子健康记录中的数值?

arXiv cs.LG 论文

摘要

本文系统比较了在电子健康记录数据中Transformer的离散、连续和混合值编码策略,发现基于分箱的混合令牌方法具有稳健的性能,并推荐作为实用的默认选择。

arXiv:2607.01391v1 公告类型:新 摘要:在基于Transformer的序列处理中,我们应如何编码数值,特别是在电子健康记录(EHR)数据中?我们使用嵌入在真实EHR数据中的合成算术任务以及真实世界临床预测任务,系统比较了离散、连续和混合值编码策略。我们的研究揭示了数值精度、优化稳定性和架构灵活性之间的权衡取舍。我们发现,在架构约束允许的情况下,显式建模数值与概念交互的方法在精度敏感的算术任务上表现最佳。基于令牌的混合方法保留了数值,但在投影之前应用分箱,从而提供了更稳健且广泛适用的替代方案,其最优分箱数量遵循一个简单的基于数据集大小的经验幂律。在各种任务中,模型始终表现出可靠的“足够好”数值计算,而非精确算术,而纳入实验室值所带来的临床收益则取决于具体任务。这表明,在实践中,鲁棒性和可部署性通常胜过最大数值精度,从而促使我们将基于令牌的混合方法作为实用的默认选择。
查看原文
查看缓存全文

缓存时间: 2026/07/03 05:40

# 电子健康记录中Transformer应如何编码数值?
来源:https://arxiv.org/html/2607.01391

###### 摘要

在基于Transformer的序列处理中,尤其是在电子健康记录(EHR)数据中,我们应如何编码数值?我们通过结合真实EHR数据的合成算术任务以及真实临床预测任务,系统比较了离散、连续和混合值编码策略。我们的研究揭示了数值精度、优化稳定性和架构灵活性之间的权衡。结果发现,在架构限制允许的情况下,显式建模值-概念交互的方法在精度敏感的算术任务上表现最佳。保留数值但在投影前进行分箱的混合基于Token的方法提供了一种更稳健且广泛适用的替代方案,最佳箱数在数据集大小上遵循简单的经验幂律。在各种任务中,模型一致地表现出可靠的“足够好”数值计算,而非精确算术,而纳入实验室值带来的临床收益则依赖于具体任务。这表明,在实践中,稳健性和可部署性往往优于最大数值精度,从而将混合基于Token的方法推举为实用默认选择。

机器学习, ICML, EHR, 医疗预测, 数值集成

## 1 引言

利用电子健康记录(EHR)数据进行临床结果预测建模的研究日益增多。早期方法主要依赖XGBoost和逻辑回归等传统机器学习模型(Shillan et al., 2019; Stevens et al., 2023; El Haji et al., 2023; Mishra et al., 2024),但随着基于Transformer的架构(Vaswani et al., 2017)的出现,这些方法也被扩展至EHR数据。特别是受BERT架构(Devlin et al., 2019)启发的模型,如BEHRT(Li et al., 2020)和Med-BERT(Rasmy et al., 2021),标志着该领域的重大转变,推动了后续工作(Pang et al., 2021; Steinberg et al., 2024; Wornow et al., 2025; Odgaard et al., 2024; Kraljevic et al., 2024)。尽管取得了这些进展,大多数针对EHR数据的大规模预训练模型主要依赖结构化分类数据,如诊断代码、手术代码和药物记录,而连续数值数据(如实验室检查结果或风险评分)则往往未被充分利用。这一遗漏值得注意,因为实验室值是最常收集的临床测量指标之一,通常无需临床医生额外记录,因此不易受主观偏见和人为错误影响。此外,它们构成了丰富且高容量的数据源,可能增强患者表示学习。

因此,近期工作提出了几种将数值纳入基于Transformer的EHR模型的策略。这些策略包括值离散化(Rossi et al., 2019; Renc et al., 2024; Mbaye et al., 2025)、数值特征的单独嵌入层(Li et al., 2020)、以及将分类与连续特征对齐的联合嵌入(Bellamy et al., 2025)。最近,Guo等人系统地评估了临床Transformer中数值编码的联合嵌入策略与因子化嵌入策略,反映了对数值如何在Transformer架构中编码和整合日益增长的关注(Guo et al., 2026)。并行的工作集中在自监督Transformer上,这些Transformer直接从纵向EHR上下文中学习数值编码,然后将所得编码用于下游预测任务(Heilbroner et al., 2025)。尽管这些方法显示出潜力,但其报告的有效性差异很大,并且对于每种方法成功或失败的条件研究有限。另一个局限性在于,现有研究很少将方法选择与数值产生的临床背景联系起来。在实践中,数值特征可能传达不同类型的信息:单个测量值可能至关重要,多个值的组合可能具有联合意义,时间趋势可能揭示重要模式。当前的方法是否能够稳健地捕捉这些不同场景,尤其是在Transformer有限的上下文窗口内,仍不清楚。因此,需要对不同类型的数值数据分布进行系统评估,以理解现有方法在易用性、低数据量下的性能以及指标表现方面的优势和局限性。

本研究的主要贡献包括:

- **用于EHR Transformer中数值推理的统一评估框架**。我们引入了一个可复用的测试套件,用于系统评估基于Transformer的EHR模型中的数值值编码。该框架结合了嵌入真实EHR序列中的合成算术任务和真实临床预测任务,能够在临床相关条件下对数值推理能力进行可控分析。
- **数值值编码的系统比较**。我们进行了一项精心设计的实证研究,比较了基于Transformer的EHR模型中的离散、连续和混合数值值编码,通过嵌入真实数据中的合成算术任务和真实临床预测,刻画了它们在数值精度、优化稳定性和架构灵活性方面的权衡。
- **精度-稳定性权衡的表征**。我们发现,显式建模值-概念交互的方法为细粒度数值推理提供了强归纳偏置,而带有分箱的混合序列集成方法提供了一种稳健且可扩展的替代方案。
- **鲁棒近似数值推理的证据**。尽管先前有报告称Transformer难以进行精确算术,我们发现所有评估的方法都能可靠地执行近似数值计算,性能随任务复杂度增加而平滑下降,而非突然失败。这表明“足够好”的数值推理可能足以满足EHR应用需求。
- **数值推理在临床预测中的启示**。我们发现,在长期风险预测中,纳入数值带来的临床收益适中且依赖于任务,这表明编码选择主要影响鲁棒性和可部署性,而非在此设置中大幅提升预测性能。这些效应在较短时间范围内可能不同,因为实验室值可能尚未转化为诊断和药物。

## 2 相关工作

### 2.1 Transformer中的数值

许多研究探索了如何在Transformer架构中处理连续和离散输入。作为早期例子,Huang等人引入了TabTransformer(Huang et al., 2020),其中分类特征通过注意力层学习上下文表示,然后在预测头之前与数值特征拼接。该方法取得了强劲性能;然而,由于只有分类特征参与注意力机制,它捕获的数值与分类变量之间的交互有限。

Gorishniy等人提出的FT-Transformer(Gorishniy et al., 2021)将分类和连续特征都标记化为嵌入,并将它们联合馈入Transformer编码器,但并未使用任何预训练。SAINT采用类似设计,将所有特征表示为Token,同时进一步引入了样本间注意力和对比自监督预训练目标(Somepalli et al., 2022)。Golkar等人引入的xVal(Golkar et al., 2023)通过引入一个针对数字的人工Token扩展了数值编码,其嵌入按数值大小缩放,使得Transformer能够直接建模连续量级。

在EHR数据的背景下,Labrador(Bellamy et al., 2025)采用了概念上与FT-Transformer和xVal类似的方法:分类和连续特征各自通过专用嵌入层,其输出相加形成联合嵌入。该架构应用于实验室检查数据,每个实验室代码和相应值被联合嵌入。尽管Labrador在掩码实验室值插补方面表现出色,但在下游临床预测任务上并未超越梯度提升基线XGBoost。此外,正如论文本身所述,该模型未包含来自EHR来源的其他数据类别,因此可能未提供患者的全面视图。Guo等人(Guo et al., 2026)也对临床Transformer中数值编码的联合和因子化策略进行了系统比较,报告了联合嵌入方法在一系列临床预测任务上的强劲下游性能。然而,他们的研究仅关注量化后的数值输入,并且对不同编码策略成功或失败的条件提供的见解有限。更广泛地说,几种面向EHR的方法通过离散化连续输入来纳入实验室测量值(Rossi et al., 2019; Mbaye et al., 2025; Guo et al., 2026)。这些方法通常依赖领域知识,例如区分正常与异常结果的阈值,这可能无法推广到包含数百万异构数值变量的更一般EHR任务。类似地,Renc等人提出的ETHOS(Renc et al., 2024)在嵌入之前通过分位分箱(通常使用十个分位)离散化连续特征。

总体而言,已提出多种数值数据编码策略,但只有一部分在EHR数据集上得到了系统评估。这些方案还常与不同的架构、数据模态和评估协议配对,限制了直接可比性。为解决这一问题,我们引入了一个统一的测试套件,用于在一组定义明确的预测任务上比较分类和连续数据编码的关键方法,从而系统评估其相对性能和泛化性。

## 3 方法

### 3.1 数据

为评估纳入数值的方法,我们使用真实世界EHR数据以及嵌入合成信号的真实序列。合成信号允许对复杂性(如特征数量、交互和时间依赖关系)进行可控操作,而临床数据则用于在现实背景噪声和特征相互依赖下验证这些发现。真实数据来自覆盖丹麦首都大区和西兰大区的EHR系统,包含2016年至2024年所有医院交互记录(2,218,028个独特个体)。这些数据已获得丹麦患者安全委员会(Styrelsen for Patientssikkerhed,批准号#31-1521-182)和丹麦首都大区数据安全委员会(Videncenter for data-anmeldelser,批准号#P-2020-180)的批准。

### 3.2 模型

图1:患者轨迹及构成最终模型输入的相应嵌入层示意图。此处,E(x)表示概念的嵌入函数,F(x)表示将原始时间戳映射为绝对位置编码的函数。

图2:继图1示例之后,EHR Transformer中的数值集成策略。离散:将值分箱为Token。组合:分别嵌入分类和数值特征。拼接/FiLM:变换数值值并将其与分类嵌入合并以创建联合嵌入。

在本文中,我们使用受CORE-BEHRT(Odgaard et al., 2024)启发的BERT风格架构,将原始主干替换为ModernBERT(Warner et al., 2025)。CORE-BEHRT提供了强的可复现基线,但本身不支持数值值,因此适合对编码策略进行受控评估。如图1所示,患者轨迹通过从原始电子健康记录数据中提取临床概念来构建,包括诊断代码、药物代码、手术代码和实验室检查名称,分别记为Dx、Mx、Px和LABx,其中下标独立编号唯一出现的顺序。我们还包括患者背景信息(性别、出生日期)和就诊特定元数据,如就诊时间(位置嵌入)、就诊索引(片段嵌入)和每次就诊的年龄。所有代码被标记化并与相关上下文信息一起嵌入,使模型能够处理完整的患者历史,其中单个代码对应于单词,就诊对应于句子,完整医疗历史对应于文档。模型分两个阶段训练:预训练,然后是任务特定的微调。在预训练期间,我们采用掩码语言建模(MLM),其中一部分(15%)Token被掩码,模型被训练预测原始Token。对于微调,患者轨迹在预定义时间戳处右删失,仅提供在此删失点之前的事件作为输入。在每个序列后附加一个特殊的删失Token(带有删失时的年龄和时间),并使用基于BiGRU(Zhao et al., 2017)的预测头在二分类任务上训练模型。模型使用隐藏大小96、中间大小192、六个Transformer层、六个注意力头和最大上下文长度1024个Token。较长的历史通过优先考虑近期事件来截断。

### 3.3 编码策略

我们评估了五种代表性方法,用于在基于Transformer的EHR模型中编码连续值:离散化、组合、组合分箱、拼接和FiLM(特征级线性调制)(Perez et al., 2018)。这些方法被选为数值编码的代表性示例。

相似文章

Transformer学习Mestre-Nagao启发式方法

arXiv cs.LG

本文训练了一个两层Transformer编码器,利用Frobenius迹将有理椭圆曲线按秩分类,准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法,并将注意力集中在素数位置上,表明Transformer能够学习数论算法。

在词元级别上比较Transformer和混合模型

Lobsters Hottest

本文分析了使用Olmo 3和Olmo Hybrid的Transformer与混合注意力-循环模型在词元级别上的预测差异,发现混合模型在语义状态追踪方面有所改进,而Transformer在n元组复制和语法括号匹配方面表现出色。