加速合成电子健康记录生成中的可重复研究
摘要
本文介绍了一个轻量级、端到端的基准测试框架,用于可重复的合成电子健康记录(EHR)生成,将多个基线模型(MedGAN、CorGAN、PromptEHR、HALO)和一个GPT-2基线统一到单个流水线中,并配备严格的隐私-效用评估套件。
arXiv:2606.06990v1 公告类型:新
摘要:生成高保真度的合成电子健康记录(EHR)对于在保护患者隐私的同时推进医学研究至关重要。然而,现有生成模型之间的直接比较受到代码库分散、数据加载器不兼容、库依赖冲突以及评估协议不一致的阻碍。为解决这些问题,我们引入了一个轻量级、端到端的基准测试框架,用于可重复的合成EHR评估,该框架组织为统一的流水线,涵盖数据摄取、标准化模型训练和架构无关的评估。我们当前的实现针对纵向ICD诊断代码的生成——这是该文献中最常研究的模态——并基于社区维护的PyHealth库构建。我们重新实现并统一了强大的基线模型(MedGAN、CorGAN、PromptEHR、HALO),在完整的ICD-9词汇粒度下,并添加了来自通用序列建模文献的轻量级GPT-2基线。我们贡献了一个严格的、架构无关的隐私-效用评估套件,可同等应用于GAN和基于Transformer的生成器,并报告所有指标的自举置信区间。我们进一步分析了现有模型在长尾分布上的较差表现,并讨论了我们的框架在诊断代码之外的可扩展性。通过降低在单一流水线下运行、扩展和评估的工程障碍,我们为社区驱动的可重复性和合成EHR模型的基准测试提供了一个起点。
查看缓存全文
缓存时间: 2026/06/08 09:19
# 加速可复现的合成电子健康记录生成研究 来源:https://arxiv.org/html/2606.06990 \theorembodyfont\theoremheaderfont\theorempostheader :\theoremsep \jmlrvolume[卷号待定]\jmlryear2026\jmlrworkshop机器学习在医疗中的应用 \NameChufan Gao\NameEthan Rasmussen\NameStephen Z\. Xie\NameJimeng Sun \addr伊利诺伊大学厄巴纳-香槟分校 \addr* 表示同等贡献 ###### 摘要 生成高保真的合成电子健康记录(EHR)对于在保护患者隐私的同时推进医学研究至关重要。然而,现有生成模型之间的直接比较受到以下因素的阻碍:代码库不统一、数据加载器不兼容、库依赖冲突以及评估协议不一致。为了解决这些问题,我们引入了一个轻量级、端到端的基准测试框架,用于可重复的合成EHR评估。该框架组织为统一的流水线,涵盖数据输入、标准化模型训练和架构无关的评估。我们当前的实现针对纵向ICD诊断代码的生成——这是该文献中研究最多的模态——并构建在社区维护的PyHealth库之上。我们在完整ICD-9词汇粒度下重新实现并统一了强大的基线模型(MedGAN、CorGAN、PromptEHR、HALO),并新增了一个来自通用序列建模文献的轻量级GPT-2基线。我们贡献了一个严格的、架构无关的隐私-效用评估套件,该套件同样适用于GAN和基于Transformer的生成器,并报告了所有指标的自助法置信区间。我们进一步分析了现有模型在长尾性能上的不足,并讨论了框架在诊断代码之外的可扩展性。通过降低在单一流水线下运行、扩展和评估的工程门槛,我们为社区驱动的可重复性和合成EHR模型基准测试提供了一个起点。 ## 1 引言 图1:(顶部) 一条纵向患者轨迹被转换为两种格式以进行生成建模。(左侧) 扁平化方法移除了时间维度。(中间) 相比之下,顺序方法保留了完整的顺序信息,例如使用特殊分隔符标记就诊边界。(右侧) 为确保一致的基准测试,所有合成输出均转换为标准化的长格式模式(受试者ID、就诊ID、代码)。 电子健康记录(EHR)系统的普及产生了大量纵向患者数据,这些数据在临床研究中具有变革潜力,从疾病进展建模到使用国际疾病分类(ICD)代码的治疗优化(nchs9_icd9)。有价值的且正当的隐私法规,如《健康保险携带和责任法案》(HIPAA)(hipaa1996),对数据共享施加了严格限制,这些限制是合理的,但在科学进步与患者机密性之间造成了根本性的紧张关系(beigi2023simulants; shafquat2023interpretable)。尽管如此,这种“数据瓶颈”为研究人员带来了重大障碍。合成数据生成提供了一种合理的解决方案:生成保留真实数据统计属性和相关性、同时消除可识别信息的人工患者记录。此外,对EHR的专门关注导致该领域与通用表格数据生成的主要进展相隔绝。像TabSyn(zhang2023mixed)和TabDiff(shi2024tabdiff)这样强大的通用合成表格生成模型,无法轻易地适应或基准测试EHR数据独特且复杂的结构。尽管针对EHR的机器学习方法论取得了显著进展——从基于自编码器的GAN(choi2017generating; torfi2020CorGAN)到基于Transformer的序列模型(theodorou2023synthesize)——该领域面临着源于几个系统性挑战的可重复性危机。 ##### 不同机器学习方法的可重复性挑战 现有的基准测试工作在可重复性和可扩展性方面面临实际障碍。SynthEHRella(chen2025generating)聚合了多种方法(CorGAN、MedGAN、Synthea(walonoski2018synthea)等)的实现,但继承了研究原型常见的挑战:特定于方法的依赖要求、为单个实验运行设计的过程式代码库。一个非常常见的阻碍是不断变化的库依赖。例如,PromptEHR(wang2022promptehrconditionalelectronichealthcare)通过sdmetrics 0.6.0集成评估,但后续的主要版本更新(1.x系列)引入了破坏性的API更改,造成了前向兼容性问题。这种技术债务破坏了可重复性:实现仍然是过程式的,硬编码到特定数据集维度,并且在发布后无人维护。当研究人员移植先前的工作(例如,CorGAN对MedGAN的PyTorch重实现(torfi2020CorGAN))时,实现通常优先考虑与直接研究目标一致的特征。这个过程可能导致在后续改编中无意中丢失特征。例如,MedGAN的计数矩阵支持并未在参考PyTorch实现中保留。同一方法的不同实现之间,架构能力可能会产生差异。原始MedGAN(choi2017generating)支持二进制和计数矩阵两种表示,使用TensorFlow实现。(torfi2020CorGAN)将MedGAN移植到PyTorch作为其CorGAN研究的基线,但只实现了二进制模式,因为这足以满足其实验重点,从而降低了实现的通用性。类似地,CorGAN的卷积架构最初配置为1071维,匹配3位ICD-9截断标准;将其适应于更大的词汇表需要架构修改或自适应池化策略。这种缺乏“开箱即用”功能的情况抑制了创新,并使方法之间的可重复比较几乎不可能。 ##### 缺乏统一的、全粒度评估框架 更根本的是,基准测试实践造成了结构性限制。该领域有时使用3位ICD-9截断作为解决稀疏性并实现与先前工作比较的捷径(chen2025generating)。然而,医疗数据分布固有地遵循幂律分布,截断尾部恰好掩盖了区分患者亚型所需的那种罕见但临床上重要的代码。评估指标——如隐私指标(例如,对抗性最近邻)和效用指标(例如,机器学习隐私估计)以及患病率统计——的报告不一致,而像SDV的sdmetrics(patki2016synthetic; sdmetrics)这样的现代标准化框架因ICD代码的高维度而不适用。 我们通过引入一个基于PyHealth(yang2023pyhealth)的统一基准测试框架来解决这些挑战。PyHealth是一个广泛采用、社区维护的医疗保健机器学习库,具有面向对象的设计、单元测试和持续集成。具体来说,我们将我们的框架定义为一个端到端的流水线(数据→标准化模型→标准化训练→统一评估),而不是像数据模式或指标套件这样的单一工件。重新实现的模型代码、标准化的训练配方和架构无关的评估代码是内在联系的:只有在不同的基线模型消费相同的输入并产生相同长格式模式的输出时,才能进行苹果对苹果的比较。我们有意采用与现有社区约定(例如,MEDS(meds2024))一致的访问级别长格式表示,而不是提出新的数据标准;我们工作的新颖之处在于将不同的生成模型统一到一个严格的基准测试下,而不是发明一种存储患者就诊的新方法。 ##### 范围。 为了保持比较的可处理性,框架的当前实例侧重于生成长纵向ICD诊断代码,这是我们所有评估基线模型原生针对的模态。我们并不声称生成包括化验、生命体征、药物或静态人口统计信息在内的完整多模态EHR;人口统计信息仅用作*输入*(例如,PromptEHR的年龄/性别条件设定),而不是作为合成目标,因为所有基线模型之间没有共同的接口用于生成静态患者特征。我们在附录C.1(https://arxiv.org/html/2606.06990#A3.SS1)中讨论了流水线如何扩展到其他模态。 ##### 关于“可重复性”和软件老化。 我们并不声称先前的基线模型在发布时是不可重复的,也不声称我们的框架将永久抵御技术债务。我们的批评是对一个客观事实的观察:当前分散的代码库状态——固定于特定数据集维度、不兼容的依赖版本和不同的评估约定——使得今天进行直接比较几乎不可能。为了最大化框架的寿命,我们依赖于:(i)一个单一的可安装包,而不是每个模型的分支;(ii)继承自积极维护的PyHealth库,及其CI和单元测试;(iii)所有模型使用单一语言/工具链;(iv)一个不依赖于任何特定模型损失或输出格式的评估套件。我们将此框架视为一个活的基底,社区应该在其上进行迭代并最终替换,当ICD-9和PyHealth成为限制因素时,我们欢迎未来的替代品。 ##### 缺乏对长尾代码的考虑 图2:该图显示MIMIC中的完整ICD-9代码更加复杂和长尾。即,与简单的前3个字符相比,少数常见代码主导了患者EHR中所有ICD代码的绝对计数。 从合成代码中移除粒度已成为一种根深蒂固的规范:研究人员通常将ICD-9的6,955个诊断代码减少到1,071个三位数类别,表面上是为了解决“长尾”分布和稀疏性(长尾性质如图2(https://arxiv.org/html/2606.06990#S1.F2)所示)。然而,医疗数据固有地是长尾的;这种截断丢弃了关键的临床信息——伴有肾脏并发症的糖尿病(250.40)与无并发症的糖尿病(250.00)之间的区别被合并到一个代码(250)中。这种做法之所以持续存在,不是出于算法需要,而是因为基准测试惯例不鼓励偏离并限制了完整评估。我们在附录G.2(https://arxiv.org/html/2606.06990#A7.SS2)(图4(https://arxiv.org/html/2606.06990#A7.F4)和图8(https://arxiv.org/html/2606.06990#A7.F8))中的扩展分析证实,在完整词汇评估下,我们测试的每个生成器在代码分布中最稀有的十分位数中性能急剧下降——这是3位截断基准测试系统性地隐藏的一种失效模式。 在这项工作中,我们提出了一个统一的合成EHR生成框架,解决了可重复性、可扩展性和评估标准化方面的关键差距。我们的核心贡献总结如下: 1. 1\.**架构恢复与扩展:** 我们恢复并扩展了规范基线模型的能力,以支持全规模ICD-9词汇(6,955个代码),超越了先前工作中使用的截断子集。具体来说,我们重新实现了MedGAN(choi2017generating)的计数矩阵支持——在最近的PyTorch移植中被省略——以实现无界整数生成。此外,我们将CorGAN(torfi2020CorGAN)架构从6层卷积扩展到8层,以原生处理高维离散输出。我们还提供了最先进序列模型的最佳努力、全词汇实现,包括PromptEHR、HALO(theodorou2023synthesize)和一个简单的GPT2基线。 3. 2\.**标准化隐私-效用基准测试:** 为了解决该领域评估指标的碎片化问题,我们集成了sdmetrics库以建立一个严格的评估套件。该框架提供了一致的、并行的隐私风险、分布保真度和多变量相关性比较,涵盖所有方法,确保公平且可重复的基准测试。 5. 3\.**可访问且可扩展的基础设施:** 基于流行的PyHealth库构建,我们的框架通过最小设置流水线(单个pip install)和交互式Google Colab工作流程,使复杂生成模型的访问变得民主化。该架构设计为可扩展,允许研究人员无缝集成新模型和数据集,从而为未来在ICD-10迁移和更丰富的EHR表示方面的工作奠定坚实基础。 ## 2 方法 ### 2.1 架构贡献 我们在图1(https://arxiv.org/html/2606.06990#S1.F1)中展示了从原始就诊信息到我们实现的不同类型方法,以及统一的评估格式的转换。为了评估时间粒度对合成EHR效用的影响,我们分析了两种不同的表示范式:静态矩阵公式和动态序列分词(见图1(https://arxiv.org/html/2606.06990#S1.F1))。传统的生成模型,如CorGAN和MedGAN,使用扁平化表示,将患者历史的时间维度压缩成静态向量。如图1(https://arxiv.org/html/2606.06990#S1.F1)所示,这些方法使用二进制指示器(CorGAN)或频率计数(MedGAN)将患者轨迹映射到固定维度空间。虽然这种方法有效地保留了全局代码流行度——捕捉患者历史中存在哪些诊断——但它固有地丢弃了关键的时间结构,从而限制了它们对纵向临床分析的实用性。相比之下,顺序方法(例如,PromptEHR)将电子健康记录视为一个离散标记的时间序列,并保留记录的完整时间保真度,包括就诊的具体顺序和代码在不同时间点的重复出现。 为确保不同生成架构之间的公平基准测试,我们在评估之前将所有合成输出标准化为统一的长格式模式。无论源模型产生的是静态矩阵还是动态序列,所有数据都被转换为由(subject_id, visit_id, code)三元组组成的规范化关系结构。这种模式有意与既定的社区数据格式(如MEDS(meds2024))保持一致;我们并非提出新的数据标准,只是采用一个标准标准,以便所有基准测试模型共享一个单一、兼容的输出表示。这个后处理步骤确保指标能够捕捉数据的结构完整性。对于基于矩阵的模型,每个患者分配一个就诊ID,突显了它们无法恢复不同就诊簇的缺点。我们注意到,使用序数visit_ids而不是连续时间戳是一种有意简化:所有基准测试的基线模型都不会生成就诊间时间偏移,因此我们将就诊顺序归类为序数ID,以保持生成器之间的基准测试苹果对苹果。为任何输出连续时间戳的未来模型扩展该模式以包含连续时间戳是直接的。请注意,在重新实现流行基线模型的过程中,我们付出了大量努力来恢复和扩展所有模型的能力,以支持完整的ICD-9词汇(因为这对扁平化模型并非易事)。
相似文章
衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。
为稳健的 RAG 评估生成无知识泄露的基准测试
本文介绍了 SeedRG,这是一个半合成的基准测试生成管道,旨在通过创建保留推理结构但不在模型参数记忆中的新实例,消除检索增强生成 (RAG) 评估中的知识泄露。
PSyGenTAB: 一种通过约束优化生成合成临床表格数据的隐私保护框架
PSyGenTAB是一种隐私保护框架,使用约束优化生成合成临床表格数据,平衡隐私与实用性,同时保留临床关系和少数类模式。
RubricsTree:跨健康记忆与医疗技能的个人健康智能体可扩展且不断演进的开放式评估
RubricsTree 提出了一种可扩展且与专家对齐的个人健康智能体评估框架,使用超过100个原子布尔规则,在Gemini、GPT和Qwen模型系列的HealthBench上实现了高达66%的相对提升。
RAG基准应精细到何种程度?一种层次化合成问题生成框架
本文介绍了HieraRAG,这是一种用于确定RAG基准最优粒度的层次化框架。它生成了跨三个维度的5,872个合成问答对,并发现理想粒度因维度而异,为从业者提供了一种可移植的程序。