人口统计偏差对皮肤病变分类的影响

arXiv cs.AI 2026/06/03 04:00 论文

demographic-bias skin-lesion-classification medical-imaging fairness deep-learning resnet

摘要

本文研究了人口统计偏差（性别和年龄）对使用ResNet模型进行皮肤病变分类的影响，发现性别偏差源于数据不平衡，而年龄偏差则始终偏向较年轻群体，并评估了多任务学习和对抗性学习的缓解策略。

arXiv:2606.03214v1 Announce Type: new 摘要：在本研究中，我们评估了基于ResNet的卷积模型在皮肤病变分类中的性能，重点关注训练数据中人口统计偏差（特别是患者性别和年龄的变化）的影响。我们使用线性规划生成具有受控人口统计特征的数据集，从而系统性地研究偏差效应。评估了三种学习策略：单任务模型、强化多任务模型和对抗性学习方案。我们的性别分析表明，性别特定的训练数据集可以优化模型性能。值得注意的是，在训练数据中包含男性患者可以提高男性子组的性能，即使在女性占多数的情况下也是如此。强化学习和对抗性学习方案在平衡和女性占多数的数据集中缩小或消除了偏差差距。然而，这些策略在男性占多数的环境中效果较差，模型仍然对男性的表现优于女性。在男性患者占主导的人群中，这两种学习方案与基线模型相比，偏差减少幅度有限。基于年龄的分析表明，三种模型方法的基线性能相当，但性能随年龄类别递减。无论训练数据分布如何，较年轻的群体始终获得最高性能。尽管平衡训练对最年轻年龄类别产生最佳结果，但年长类别的性能有所下降。我们发现性别偏差主要源于数据不平衡，而年龄偏差则无论分布如何都始终偏向较年轻群体。这些不同的机制需要针对性的缓解策略。此外，在两个外部数据集上的跨数据集验证表明，域迁移显著影响性能和人口统计偏差模式。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:43

# 人口统计偏见对皮肤病变分类的影响  
来源：https://arxiv.org/html/2606.03214 \\melbaid 2026:011\\melbaauthorsRaumanns, Schouten, Pluim and Cheplygina\\firstpageno200\\melbayear2026\\datesubmitted2025\-04\-21\\datepublished2026\-05\-29\\melbaspecialissue医学影像AI公平性专刊 (FAIMI)\\melbaspecialissueeditorsVeronika Cheplygina, Aasa Feragen, Andrew King, Ben Glocker, Enzo Ferrante, Eike Petersen, Esther Puyol\-Antón, Melanie Ganz\-Benjaminsen\\ShortHeadings皮肤病变中的人口统计偏见Raumanns, Schouten, Pluim and Cheplygina\\affiliations\\num1\\addr荷兰芬洛方提斯应用科学大学 \\num2\\addr荷兰埃因霍温方提斯应用科学大学 \\num3\\addr荷兰埃因霍温理工大学 \\num4\\addr丹麦哥本哈根IT大学 \\nameGerard Schouten\\aff2\\orcid0000\-0001\-7042\-2143\\nameVeronika Cheplygina\\aff4\\orcid0000\-0003\-0176\-9324\\nameJosien P\.W\. Pluim\\aff3\\orcid0000\-0001\-7327\-9178  

###### 摘要  
数据集中的偏见对模型预测公平性的影响是多个领域持续研究的话题。在本研究中，我们评估了使用基于ResNet的卷积模型进行皮肤病变分类的性能，重点关注训练数据中人口统计偏见（尤其是患者性别和年龄的差异）的影响。我们使用线性规划方法生成具有受控人口统计特征的数据集，从而系统性地研究偏见效应。评估了三种不同的学习策略：单任务模型、强化多任务模型和对抗学习方案。基于性别的分析表明，性别特定的训练数据集能优化模型性能。值得注意的是，即使在女性占多数的情况下，在训练数据中纳入男性患者也能提高男性子组的性能。强化和对抗学习方案在平衡数据集和女性占多数的数据集中缩小或消除了偏见差距。然而，这些策略在男性占多数的环境中效果较差，模型对男性的表现仍然优于女性。在男性患者占主导的人群中，这两种学习方案与基线模型相比，偏见减少幅度有限。基于年龄的分析表明，三种模型方法的基线性能相当，但性能随年龄类别下降。无论训练数据分布如何，年轻组始终获得最高性能。尽管平衡训练对最年轻的年龄组产生最佳结果，但老年组的性能下降。我们发现性别偏见主要源于数据不平衡，而年龄偏见则一致地偏向年轻组，与分布无关。这些不同的机制需要有针对性的缓解策略。我们的工作旨在通过解决这些具体的差异来源，推动医学影像中的公平AI。此外，在两个外部数据集上的跨数据集验证表明，领域转移显著影响性能和人口统计偏见模式。源代码和模型可在GitHub上获取：https://github.com/raumannsr/demographic-fairness-extended。  

###### 关键词：皮肤病变、偏见、公平性、多任务学习、对抗学习、跨数据集分析  
###### doi: 10\.59275/j\.melba\.2026\-4156 ††volume:2026  

## 1 引言  
深度学习在医学影像诊断中取得了诸多成功，如多项研究所证实的（Saha等人（2024 (https://arxiv.org/html/2606.03214#bib.bib66)）；Esteva等人（2017 (https://arxiv.org/html/2606.03214#bib.bib21)）；Bejnordi等人（2017 (https://arxiv.org/html/2606.03214#bib.bib22)）），但尽管整体性能很高，模型可能对不同人口统计群体的患者存在偏见，这是近期工作强调的问题（Abbasi-Sureshjani等人（2020 (https://arxiv.org/html/2606.03214#bib.bib1417)）；Larrazabal等人（2020 (https://arxiv.org/html/2606.03214#bib.bib1423)）；Gichoya等人（2022b (https://arxiv.org/html/2606.03214#bib.bib1507)））。因此，偏见和公平性已成为医学影像中的核心研究主题，例如关注皮肤病变（Abbasi-Sureshjani等人（2020 (https://arxiv.org/html/2606.03214#bib.bib1417)）；Groh等人（2021 (https://arxiv.org/html/2606.03214#bib.bib33)））、胸片（Larrazabal等人（2020 (https://arxiv.org/html/2606.03214#bib.bib1423)））和脑磁共振成像（Petersen等人（2022 (https://arxiv.org/html/2606.03214#bib.bib1679)））的研究。通常考察的敏感属性包括年龄、性别或种族。对于皮肤病变分类，通常研究Fitzpatrick皮肤类型（Seth and Pai（2024 (https://arxiv.org/html/2606.03214#bib.bib67)）；Benčević等人（2024 (https://arxiv.org/html/2606.03214#bib.bib6)）；Groh等人（2021 (https://arxiv.org/html/2606.03214#bib.bib33)）；Wu等人（2022 (https://arxiv.org/html/2606.03214#bib.bib76)））。尽管深度学习模型不断提升诊断能力，其公平性仍是一个显著问题，因为模型性能从根本上取决于训练数据的质量和代表性，以及模型缓解训练数据中任何偏见的能力。  

尽管医学影像AI中的偏见和公平性已受到关注，但以往研究往往孤立地考察单个人口统计因素，通常是在单一成像模态内，或缺乏对数据分布的系统控制。目前尚缺乏一项全面评估，比较这些人口统计属性在系统性地倾斜时，如何影响不同学习策略（单任务、强化和对抗）下的模型性能。此外，对于特定人口子组，尤其是在极端分布不平衡下的去偏方法的相对有效性仍未探索。同样，辅助人口统计预测头作为公平性指标的实用性也未被系统评估。在本文中，我们将数据集偏见（也称为代表性偏见）严格定义为人口统计偏见，即训练集中年龄、性别或其他受保护属性的任何系统性不平衡。这种不平衡会导致子组之间的不平衡学习和性能差距。我们同时考察人口统计偏见和模型偏见，测量训练数据中受控倾斜如何影响性能，并测试旨在缓解模型偏见的多任务学习策略。使用平衡测试集，我们量化了人口统计偏见传播至模型偏见的程度，并确定了在年龄和性别组之间实现公平皮肤病变分类的最有效方法。  

本文是我们FAIMI 2024研讨会论文（Raumanns等人（2025 (https://arxiv.org/html/2606.03214#bib.bib61)））的显著扩展。该研讨会论文评估了五种男/女患者分布（性别人口统计）与三种学习策略（一种单任务和两种多任务模型）。评估侧重于整体和子组特异性性能，以考察训练数据分布偏见是否会在平衡测试集上测试时体现在结果中。在FAIMI 2024研讨会论文的基础上，我们提出以下贡献：  

1. 我们将线性规划（LP）方法扩展到控制年龄子组以及性别，引入五个年龄组和三种倾斜的年龄分布。  
2. 我们系统性地评估了两种偏见缓解策略（强化多任务和对抗）在不同年龄和性别子组上的表现。通过呈现整体和子组特异性指标，我们确定了每种策略在不同条件下的表现。这包括两个新的性别分布场景，即男性患者占主导和女性患者占主导，从而实现对模型更细粒度的评估。  
3. 除了内部留出验证，我们还从先前研究扩展了外部验证。在这项工作中，我们引入了一个新的皮肤镜皮肤病变数据集。与保留的智能手机数据集一起，这些数据集便于跨不同地理区域、采集方法和人口统计组进行测试。  
4. 我们分析了辅助年龄预测头，以评估其作为公平性指标的实用性。  

## 2 相关工作  
我们回顾先前关于医学影像中人口统计偏见和公平性的研究，强调早期工作如何考察人口统计差异、偏见缓解技术（如多任务学习和对抗学习），以及激励我们进行更系统分析的局限性。  

##### 理解代表性偏见  
医学影像中的人口统计偏见，指受保护属性（如生理性别、种族、年龄、肤色）之间的性能差异，已被广泛研究，揭示这些不平衡如何导致医疗保健中的不公平或歧视性结果。Glocker等人表明，一个广泛使用的胸片基础模型实际上编码了受保护属性（如生理性别和种族），导致这些子群体之间存在统计显著的性能差距（Glocker等人（2023 (https://arxiv.org/html/2606.03214#bib.bib30)））。Vaidya等人报告称，深度学习病理模型表现出种族偏见，这在大规模公开癌症影像数据集上得到证实（Vaidya等人（2024 (https://arxiv.org/html/2606.03214#bib.bib73)））。  

机器学习中的人口统计偏见有多种形式，其中代表性偏见在医疗保健中尤为显著。代表性偏见发生在某些人口统计组在训练数据中代表性不足时，导致这些组的模型性能下降（Larrazabal等人（2020 (https://arxiv.org/html/2606.03214#bib.bib1423)））。这不同于由组间固有解剖或生理差异引起的偏见，尽管当这些差异影响数据收集时（例如，出于安全原因排除怀孕患者的临床协议（Seyyed-Kalantari等人（2021 (https://arxiv.org/html/2606.03214#bib.bib68)））），它们可能促成代表性偏见。Sies等人评估了一个市场获批的皮肤癌CNN，并记录了训练数据中男性占主导。尽管存在这种不平衡，在平衡测试集上的性能并未显示统计显著的性别相关差异，表明广泛的训练集减轻了不平衡效应（Sies等人（2022 (https://arxiv.org/html/2606.03214#bib.bib70)））。相反，即使使用刻意平衡的数据集，内在的解剖差异仍可能产生偏见。Klingenberg等人通过展示一个在性别平衡的MRI队列上训练的用于阿尔茨海默病检测的CNN在女性患者中表现明显优于男性，证明了这一点，强调人口统计偏见可能源于生理因素而非仅仅是数据不平衡（Klingenberg等人（2023 (https://arxiv.org/html/2606.03214#bib.bib46)））。  

理解代表性偏见如何影响模型性能对于构建公平系统至关重要。通过识别代表性不足或性能最差的人群，可以对数据集进行针对性修正。此外，理解这些影响为设计未来数据集提供了见解，使研究人员能够早期避免类似问题。  

##### 人口统计的作用  
医学AI中人口统计的作用是多方面的。一些人口统计变异反映了模型应考虑的真实生物学差异；例如，患者特征（如年龄和性别）显著影响视网膜图像分析中健康指标（如血压）的预测精度（Gerrits等人（2021 (https://arxiv.org/html/2606.03214#bib.bib26)））。深度学习模型可以直接从医学图像（如胸片）中高精度提取人口统计特征，如性别和年龄（Gichoya等人（2022a (https://arxiv.org/html/2606.03214#bib.bib29)）；Jones and Glocker（2025 (https://arxiv.org/html/2606.03214#bib.bib41)））。这种能力在法医调查中有应用，有助于身份识别和发现性别与年龄判定的新解剖标记（Yi等人（2021 (https://arxiv.org/html/2606.03214#bib.bib80)））。然而，必须将这些有效的人口统计相关性与有问题的代表性偏见区分开来，后者通常与数据收集实践而非生理差异相关。我们的研究通过刻意构建具有特定人口统计不平衡的数据集来应对这一点，帮助我们确定性能差异是由于真实的生理因素还是仅仅由于数据收集。  

##### 解决偏见  
关于公平性的研究通常包括展示组间偏见和/或提出增强公平性方法的基线研究。这些方法主要通过训练期间的采样或加权策略来处理代表性偏见（Groh等人（2021 (https://arxiv.org/html/2606.03214#bib.bib33)））。或者，它们实施架构技术，阻止模型依赖敏感属性，如对抗学习（Abbasi-Sureshjani等人（2020 (https://arxiv.org/html/2606.03214#bib.bib1417)））。例如，Yang等人开发了一个对抗框架来缓解由医院位置和患者种族引起的偏见（Yang等人（2023 (https://arxiv.org/html/2606.03214#bib.bib79)））。Wu等人引入了FairPrune，根据参数对特权和非特权组的重要性进行修剪（Wu等人（2022 (https://arxiv.org/html/2606.03214#bib.bib76)））。其他方法侧重于数据增强。Stanley等人提出了一个用于脑MRI的合成偏见框架。他们表明简单的样本重加权可以有效减少隐藏偏见（Stanley等人（2024 (https://arxiv.org/html/2606.03214#bib.bib71)））。Ktena等人证明，扩散生成的合成图像提高了组织病理学、胸片和皮肤科数据集的公平性（Ktena等人（2024 (https://arxiv.org/html/2606.03214#bib.bib44)））。  

常用于研究皮肤病变分类中人口统计偏见的数据集包括ISIC皮肤病变数据集（Gutman等人（2016 (https://arxiv.org/html/2606.03214#bib.bib36)）；Codella等人（2018 (https://arxiv.org/html/2606.03214#bib.bib15), 2019 (https://arxiv.org/html/2606.03214#bib.bib16)）；Tschandl等人（2018 (https://arxiv.org/html/2606.03214#bib.bib72)）；Combalia等人（2019 (https://arxiv.org/html/2606.03214#bib.bib17)）；Rotemberg等人（2021 (https://arxiv.org/html/2606.03214#bib.bib74)））和Fitzpatrick-17K（Groh等人（2021 (https://arxiv.org/html/2606.03214#bib.bib33), 2022 (https://arxiv.org/html/2606.03214#bib.bib34)））。然而，研究人员通常依赖预提供的数据划分或按单一人口统计属性（例如，男 vs 女）进行分层。关键在于，这些方法往往未能控制属性之间的相互作用，将性别和年龄视为独立变量，而不是管理它们的联合分布。然而，我们的线性规划方法明确同时对性别和年龄施加约束，确保特定子组（如老年男性或年轻女性）根据期望的比例被准确表示。  

##### 偏见缓解方法  
我们目前的研究基于医学影像中的两个关键见解：多任务学习和快捷学习（Geirhos等人（2020 (https://arxiv.org/html/2606.03214#bib.bib25)）；Nauta等人（2021 (https://arxiv.org/html/2606.03214#bib.bib57)）。

人口统计偏差对皮肤病变分类的影响

相似文章

通过将公平性视为对称操作来检测和缓解偏见

差分隐私如何影响大语言模型中的社会偏见？一项系统性评估

通过人口统计条件融合嵌入学习视角主义社会意义

你的多模态语音模型说我长了一张适合广播的脸

密集检索器中的位置偏差是内建的还是从数据中学习到的？

提交意见反馈