从认知到行动:理解并克服公共卫生中算法公平性的研究-实践鸿沟
摘要
本文通过混合方法研究,探讨了公共卫生中算法公平性的认知与实践之间的鸿沟,提出了Fairness-to-Action框架,以识别转化过程中的停滞点。研究结果强调了制度化薄弱以及系统层面重准确性轻公平性的倾向。
arXiv:2606.11214v1 公告类型:交叉
摘要:算法公平性对于负责任的基于机器学习的公共卫生研究至关重要,但其实际实施仍然有限。为了探究这种认知与行动之间的鸿沟,我们进行了一项序列混合方法研究,包括专家访谈、在线调查和系统映射。专家访谈为调查设计提供了信息,调查结果则揭示了公平性定义的碎片化、培训和指导的有限性、对外部来源的依赖以及正式评估、缓解或监控的很少使用。随后,这些发现被映射到三个既定的研究-实践鸿沟视角:Knowledge-Practice Gap、Knowledge-to-Action Cycle和Knowing-Doing Gap,每个视角都提供了互补的观点。基于这一综合,我们提出了Fairness-to-Action框架,该框架整合了方法论、组织和系统维度,以识别算法公平性知识转化停滞之处。我们的分析表明,公平性在制度上仍然薄弱,转化机制受外部驱动,系统层面的优先级仍然强调准确性而非公平性。这些见解指出了推进安全、公平和道德的机器学习驱动的公共卫生研究实践的关键杠杆点。
查看缓存全文
缓存时间: 2026/06/11 13:53
# 从认知到行动:理解并弥合公共卫生领域算法公平性的研究-实践鸿沟 **来源:** https://arxiv.org/html/2606.11214 **Sara Altamirano** 信息学研究所 阿姆斯特丹大学 Science Park 900, 1098 XH 阿姆斯特丹 [email protected] **Tijs Portegies** 信息学研究所 阿姆斯特丹大学 Science Park 900, 1098 XH 阿姆斯特丹 [email protected] **Sennay Ghebreab** 信息学研究所 阿姆斯特丹大学 Science Park 900, 1098 XH 阿姆斯特丹 [email protected] ###### 摘要 算法公平性对于负责任的机器学习驱动的公共卫生研究至关重要,但其实际应用仍然十分有限。为了调查这种认知与行动之间的差距,我们采用了一种序贯混合方法研究,包括专家访谈、在线调查和系统映射。专家访谈为调查设计提供了信息,而调查结果则揭示了公平性定义的碎片化、培训与指导的不足、对外部资源的依赖,以及正式评估、缓解或监测的罕见使用。随后,我们将这些发现映射到三个既定的研究-实践鸿沟视角上:知识-实践鸿沟、知识到行动循环以及知行差距,每个视角都提供了互补的观点。基于这一综合,我们提出了公平到行动框架,该框架整合了方法论、组织和系统维度,以识别算法公平性知识在转化过程中的停滞点。我们的分析表明,公平性仍未被制度化,转化机制由外部驱动,且系统级优先事项仍然强调准确性而非公平性。这些见解揭示了关键杠杆点,以推进安全、公平和合乎道德的机器学习驱动的公共卫生研究实践。 ## 1 引言 算法决策正在通过疾病监测、结果预测、资源配置和脆弱群体识别等应用重塑公共卫生[4 (https://arxiv.org/html/2606.11214#bib.bib28),47 (https://arxiv.org/html/2606.11214#bib.bib29),68 (https://arxiv.org/html/2606.11214#bib.bib22),43 (https://arxiv.org/html/2606.11214#bib.bib11),50 (https://arxiv.org/html/2606.11214#bib.bib30),33 (https://arxiv.org/html/2606.11214#bib.bib31)]。通过整合大规模数据和预测建模,机器学习使得新形式的人群水平监测和干预成为可能。然而,这些机遇也伴随着重大风险:基于不完整或偏斜数据训练的模型可能会再现社会经济、种族或地理差异[49 (https://arxiv.org/html/2606.11214#bib.bib62),19 (https://arxiv.org/html/2606.11214#bib.bib23),20 (https://arxiv.org/html/2606.11214#bib.bib24)]。在公共卫生领域,由于健康决定因素是多层次的、群体间的权衡往往是不可避免的,且决策往往跨越多个机构[67 (https://arxiv.org/html/2606.11214#bib.bib65),63 (https://arxiv.org/html/2606.11214#bib.bib64),9 (https://arxiv.org/html/2606.11214#bib.bib63)],这些风险可能会被放大。因此,单纯的技术有效性不足以确保安全或公平的结果[62 (https://arxiv.org/html/2606.11214#bib.bib57),48 (https://arxiv.org/html/2606.11214#bib.bib66)],使得公平性成为负责任的机器学习的核心支柱。相应地,算法公平性已成为一个核心的伦理和社会关切。方法范围从量化标准(如人口均等[17 (https://arxiv.org/html/2606.11214#bib.bib67)]和均等化几率[27 (https://arxiv.org/html/2606.11214#bib.bib73)])到强调透明度和利益相关者参与的程序性措施[15 (https://arxiv.org/html/2606.11214#bib.bib69),3 (https://arxiv.org/html/2606.11214#bib.bib71),6 (https://arxiv.org/html/2606.11214#bib.bib72)]。日益增长的认知反映了从预测性能向公平和问责的转变,作为负责任的机器学习的条件。然而,仅有认知很少能转化为系统的缓解或透明的报告,实践在各个领域仍呈碎片化[29 (https://arxiv.org/html/2606.11214#bib.bib9),41 (https://arxiv.org/html/2606.11214#bib.bib16),7 (https://arxiv.org/html/2606.11214#bib.bib48)]。即使在先进的卫生系统中,公平性研究也常常与公共卫生实施脱节[62 (https://arxiv.org/html/2606.11214#bib.bib57),67 (https://arxiv.org/html/2606.11214#bib.bib65)]。这种持续的鸿沟限制了公平性的现实影响,并要求实证洞察研究人员如何解读和应用它。 为了弥合这一鸿沟,我们研究了机器学习驱动的公共卫生领域的研究人员如何在机器学习生命周期中**认知**和**操作化**公平性:概念化、认知、评估、设计和应用(改编自[55 (https://arxiv.org/html/2606.11214#bib.bib60),45 (https://arxiv.org/html/2606.11214#bib.bib61),61 (https://arxiv.org/html/2606.11214#bib.bib74)])。这五个维度构成了我们的研究子问题(RSQ1至RSQ5)。为了解释观察到的公平性研究与实践之间的脱节,我们借鉴了实施科学的既定理论:知识-实践鸿沟[25 (https://arxiv.org/html/2606.11214#bib.bib6)]、知识到行动循环[23 (https://arxiv.org/html/2606.11214#bib.bib10)]和知行差距[53 (https://arxiv.org/html/2606.11214#bib.bib7)]。采用序贯混合方法设计,我们首先进行了专家访谈以指导在线调查的设计,然后分析了调查响应,将研究人员的认知和实践映射到这些框架上。这一综合产生了公平到行动框架,该框架确定了公平性知识在转化为实践之前停滞的位置,并概述了在机器学习驱动的公共卫生研究中更有效转化的条件。我们将本研究扎根于荷兰,这是一个突出的案例,因为它结合了成熟的公共卫生和机器学习能力、先进的数据基础设施以及活跃的人工智能治理格局,同时记录了少数族裔和社会经济弱势群体中的不平等现象[30 (https://arxiv.org/html/2606.11214#bib.bib49),37 (https://arxiv.org/html/2606.11214#bib.bib78),31 (https://arxiv.org/html/2606.11214#bib.bib50)]。这些特征使其成为一个具有信息价值的案例,为高资源环境提供了经验教训。 ##### 贡献声明。首先,我们通过基于访谈的调查,实证研究了机器学习驱动的公共卫生领域的研究人员如何在机器学习生命周期中认知和操作化算法公平性。其次,我们将证据与实施科学相结合,将观察到的认知-行动差距置于三个既定的理论视角中,确定了改进公平性采纳的路径(见第4节 (https://arxiv.org/html/2606.11214#S4))。第三,我们将这种理论综合扩展到公平性领域,并提出了公平到行动框架(见第5节 (https://arxiv.org/html/2606.11214#S5)),该框架有助于解释公平性知识如何成为可持续的实践,以及过程通常停滞的地方。总之,这些贡献综合了实证和理论洞见,以推进安全、公平和合乎道德的机器学习驱动的公共卫生研究实践。 ## 2 相关工作 对机器学习驱动的公共卫生的综述一致识别出偏见和公平风险的来源,从数据缺席和代表性差距到目标设定错误和模型误用[43 (https://arxiv.org/html/2606.11214#bib.bib11),67 (https://arxiv.org/html/2606.11214#bib.bib65),5 (https://arxiv.org/html/2606.11214#bib.bib76),7 (https://arxiv.org/html/2606.11214#bib.bib48),20 (https://arxiv.org/html/2606.11214#bib.bib24)]。实证研究进一步展示了亚组差异和性能变化:商业风险评分中的种族偏见[49 (https://arxiv.org/html/2606.11214#bib.bib62)]、服务不足人群中的诊断不足[56 (https://arxiv.org/html/2606.11214#bib.bib36)]、较差的外部泛化性[69 (https://arxiv.org/html/2606.11214#bib.bib38)]、影像数据集中的性别不平衡[38 (https://arxiv.org/html/2606.11214#bib.bib39)],以及种族修正中嵌入的不平等[65 (https://arxiv.org/html/2606.11214#bib.bib40)]。作为回应,缓解策略强调公平性指标、可解释性和基于生命周期的认知[8 (https://arxiv.org/html/2606.11214#bib.bib55),26 (https://arxiv.org/html/2606.11214#bib.bib56),61 (https://arxiv.org/html/2606.11214#bib.bib74),48 (https://arxiv.org/html/2606.11214#bib.bib66),62 (https://arxiv.org/html/2606.11214#bib.bib57)],并辅以结构化报告和评估标准[12 (https://arxiv.org/html/2606.11214#bib.bib42),40 (https://arxiv.org/html/2606.11214#bib.bib41),28 (https://arxiv.org/html/2606.11214#bib.bib43),10 (https://arxiv.org/html/2606.11214#bib.bib44),46 (https://arxiv.org/html/2606.11214#bib.bib45),66 (https://arxiv.org/html/2606.11214#bib.bib37)]。概念性工作强调透明度、问责制和包容性是算法公平性的支柱[58 (https://arxiv.org/html/2606.11214#bib.bib2),9 (https://arxiv.org/html/2606.11214#bib.bib63),19 (https://arxiv.org/html/2606.11214#bib.bib23)],尤其是在群体层面权衡、结构性决定因素和碎片化治理使评估和缓解复杂化的情况下[51 (https://arxiv.org/html/2606.11214#bib.bib32)]。总的来说,这些文献强调了技术修复的局限性,并突出了对综合治理、参与式设计和情境敏感评估的需求。 尽管有广泛的技术和政策工作,但关于研究人员自身如何参与算法公平性的了解甚少。在机器学习驱动的公共卫生领域,公平性越来越多地被构架为一个社会技术问题。伦理和政策分析强调正义、透明度和包容性[2 (https://arxiv.org/html/2606.11214#bib.bib27),58 (https://arxiv.org/html/2606.11214#bib.bib2),5 (https://arxiv.org/html/2606.11214#bib.bib76),67 (https://arxiv.org/html/2606.11214#bib.bib65)],而人机交互和社会科学研究引入了诸如模型卡、数据表和检查清单等工具[44 (https://arxiv.org/html/2606.11214#bib.bib33),22 (https://arxiv.org/html/2606.11214#bib.bib34),41 (https://arxiv.org/html/2606.11214#bib.bib16)]。然而,采纳仍然不一致。实证研究揭示了异质性:行业从业者报告公平性实践的采纳有限[29 (https://arxiv.org/html/2606.11214#bib.bib9)],人工智能开发者指出缺乏公平数据、指南和专业知识是障碍[64 (https://arxiv.org/html/2606.11214#bib.bib35)],系统综述显示定义碎片化和依赖情境的判断[59 (https://arxiv.org/html/2606.11214#bib.bib77),34 (https://arxiv.org/html/2606.11214#bib.bib1)]。更广泛的批评将公平性与结构性不平等和治理缺口联系起来[42 (https://arxiv.org/html/2606.11214#bib.bib26),9 (https://arxiv.org/html/2606.11214#bib.bib63),36 (https://arxiv.org/html/2606.11214#bib.bib86)]。在荷兰,这些全球趋势反映在先进数据基础设施与少数族裔和弱势群体中持续不平等并存的情境中[30 (https://arxiv.org/html/2606.11214#bib.bib49),37 (https://arxiv.org/html/2606.11214#bib.bib78),31 (https://arxiv.org/html/2606.11214#bib.bib50)]。尽管有诸如算法注册[14 (https://arxiv.org/html/2606.11214#bib.bib83)]和修订后的数据分类标准[60 (https://arxiv.org/html/2606.11214#bib.bib84)]等政策倡议,机器学习驱动的公共卫生中的明确公平性评估仍然罕见[1 (https://arxiv.org/html/2606.11214#bib.bib8)]。本研究通过将研究人员作为分析单位,并通过基于访谈的调查检视研究-实践鸿沟,扩展了文献。 ## 3 理论框架 将算法公平性转化为实践需要关注方法论、组织和系统因素。实施科学提供了互补的视角,用于理解知识如何进入(或未能进入)实践[18 (https://arxiv.org/html/2606.11214#bib.bib75),24 (https://arxiv.org/html/2606.11214#bib.bib46),54 (https://arxiv.org/html/2606.11214#bib.bib47),52 (https://arxiv.org/html/2606.11214#bib.bib58)];公平到行动整合了这些视角,以解释公平性转化在何处受挫。这种方法对公共卫生特别相关,因为转化跨越多个机构、相互竞争的优先事项以及人群之间不可避免的权衡,突显了评估实施过程和结果的需求。 为了构建我们的方法论方法,我们借鉴了三个既定理论,它们共同说明了公平性转化的**什么**、**如何**和**为什么**。知识-实践鸿沟[25 (https://arxiv.org/html/2606.11214#bib.bib6)]描述了当前鸿沟状态的特征:有效知识很少在没有针对性转化活动和支持性条件的情况下成为常规实践。知识到行动循环[23 (https://arxiv.org/html/2606.11214#bib.bib10)]阐明了公平性知识如何通过一个行动循环转移,该循环使证据适应情境、解决障碍、实施策略并评估可持续性。知行差距[53 (https://arxiv.org/html/2606.11214#bib.bib7)]解释了鸿沟为何持续存在,强调了用话语取代行动、偏爱狭窄指标或维持风险规避规范的组织动态。这些理论已通过模型扩展,如实施研究综合框架(CFIR)、主动实施框架和疾病控制与预防中心(CDC)知识到行动指南[13 (https://arxiv.org/html/2606.11214#bib.bib79),18 (https://arxiv.org/html/2606.11214#bib.bib75),21 (https://arxiv.org/html/2606.11214#bib.bib54)]。改编强调基于团队的学习、持续反馈和迭代改进[35 (https://arxiv.org/html/2606.11214#bib.bib80),32 (https://arxiv.org/html/2606.11214#bib.bib81)]。简而言之,这些视角阐明了**什么**定义了鸿沟,**如何**转移或阻碍公平性知识,以及**为什么**它持续存在。这种三重结构提供了一个系统层面的视角:方法论因素塑造知识的产生方式,组织因素支配其使用方式,系统因素决定其可持续性。这些维度共同为分析机器学习生命周期中的公平性转化提供了基础。第4节 (https://arxiv.org/html/2606.11214#S4)概述了我们如何应用这些视角。 ## 4 方法 ### 4.1 实证研究 我们采用了两阶段序贯探索性混合方法设计[11 (https://arxiv.org/html/2606.11214#bib.bib18)],以研究算法公平性在机器学习驱动的公共卫生中是如何被认知和操作化的。第一阶段包括半结构化专家访谈(28个问题,分为四个部分,涉及ADM使用、公平性认知和实践,以及改编自[22 (https://arxiv.org/html/2606.11214#bib.bib34),41 (https://arxiv.org/html/2606.11214#bib.bib16),39 (https://arxiv.org/html/2606.11214#bib.bib20)]的研究层面实践)。主题分析构建了构念,对齐了从业者词汇,并塑造了调查的具体提示。工具经过了试点测试(与两位同事测试访谈指南;与五人测试调查),修改仅限于措辞和逻辑。调查项目来源于编码的访谈主题,以确保内容效度和对定性构念的可追溯性。
相似文章
FairHealth:一个面向资源匮乏地区可信医疗AI的开源Python库
FairHealth 是一个专为资源匮乏环境下的可信医疗AI设计的开源Python库,提供公平性审计、隐私保护型联邦学习和可解释性模块。
公平模型是否进行公平推理?信用决策中程序公平的反事实解释一致性
本文引入了反事实解释一致性(CEC)框架,通过对齐个体与其反事实对应物之间的特征归因,检测并缓解结果公平模型中的隐藏程序偏差,并在信用和收入数据集上进行了实验。
循环中的声音:绘制参与式人工智能图谱
本文提出了一个可复现的协议,用于构建参与式人工智能项目的开放存储库和交互式地图集,分析了131条记录以揭示地理和生命周期模式,并提出了一个默认参与式人工智能基础设施的框架。
AI安全需要社会科学家
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。
通过将公平性视为对称操作来检测和缓解偏见
本文提出将公平性视为机器学习分类器中的对称操作,通过基于损失的规范化来实现在固定能力特征的同时,交换敏感属性时的不变性。该框架实现了超过90%的偏见减少,且准确率损失极小,无需因果图知识。