ClinicalBERT语言预测中人口统计关联编码的计算审计

arXiv cs.CL 2026/06/15 04:00 论文

clinical-nlp bias-audit representational-bias clinicalbert health-equity nlp-fairness

摘要

本文对ClinicalBERT中的表征偏差进行了计算审计，发现人口统计关联是由模型本身放大，而非继承自训练数据。

arXiv:2606.14460v1 Announce Type: new Abstract: 基于Transformer的临床语言模型日益被集成到高风险的临床决策支持流程中，但医学文档中编码的人口统计关联如何传播到模型概率分布的计算机制仍缺乏实证研究。我们对ClinicalBERT (Alsentzer et al., 2019) 进行了系统的表征偏差计算审计，ClinicalBERT是一个基于BERT的模型，在MIMIC-III出院小结上预训练，采用两种互补的探测方法：对数概率偏差分析（LPBA），量化人口统计描述词引起的掩码标记概率分布在行为和评估语义类别上的偏移；以及掩码语言模型分析（MLM），探测内部表征结构中的人口统计主体属性编码，涉及98个真实临床句子模板和八个交叉的种族-性别组合。语料频率分析通过将模型输出与MIMIC-III训练语料中的经验词频进行对比，操作化了统计差异与偏差放大之间的区分。在32个统计显著的结果中，65.6%与观察到的语料分布相矛盾，对黑人患者这一比例上升到80%，在MLM探测下对主体属性达到87.5%，这提供了直接经验证据，表明ClinicalBERT中的表征偏差主要通过模型内部放大而非训练数据继承来运作。关键词：自然语言处理，临床文档，算法审计，表征偏差，健康公平 1

查看原文

查看缓存全文

缓存时间: 2026/06/15 08:58

# 1 引言

来源：https://arxiv.org/html/2606.14460

# ClinicalBERT语言预测中人口统计关联编码的计算审计

Kehinde Temitayo Soetan  
医学人文与社会科学系  
俄亥俄州立大学  
[email protected]

## 摘要

基于Transformer的临床语言模型正越来越多地集成到高风险的临床决策支持流程中，但医学文档中编码的人口统计关联如何通过计算机制传播到模型概率分布中，这一过程在经验上仍未得到充分阐明。本文对ClinicalBERT（Alsentzer 等人，2019（https://arxiv.org/html/2606.14460#bib.bib1））进行了系统的代表偏差计算审计。ClinicalBERT是一个基于BERT的模型，在MIMIC-III出院小结上进行了预训练。我们采用两种互补的探测方法：对数概率偏差分析（LPBA），该方法量化人口统计描述符在行为与评价语义类别上引起的掩码令牌概率分布偏移；以及掩码语言模型分析（MLM），该方法探测内部表征结构，以识别跨98个真实临床句子模板和八种交叉种族-性别组合中的人口统计能动性归因编码。语料库频率分析通过将模型输出与MIMIC-III训练语料库中的经验词频进行对比，将统计差异与偏差放大区分开来。在32个统计显著的结果中，65.6%与观察到的语料库分布相矛盾，在黑人患者中这一比例升至80%，在MLM探测下的能动性归因中升至87.5%，这提供了直接的经验证据，表明ClinicalBERT中的代表偏差主要通过模型内部放大而非训练数据继承来运作。

**关键词：** 自然语言处理，临床文档，算法审计，代表偏差，健康公平

Buolamwini 和 Gebru（2018（https://arxiv.org/html/2606.14460#bib.bib5））证明，商业人脸分析系统在整体上表现良好，但在人口统计维度上却表现出不成比例的失败，深肤色女性的错误率比浅肤色男性高出34%以上，这表明强整体准确性实际上掩盖了严重的公平问题。临床实践中的制度偏差早于大语言模型的存在。例如，Hoffman 等人（2016（https://arxiv.org/html/2606.14460#bib.bib14））发现，那些认同关于黑人患者的错误生物学信念的医学生和住院医师更有可能低估他们的疼痛并推荐不充分的治疗。这种偏差并非偶然；它是有记录的，且可追溯至临床医生在临床语言中阅读、学习、内化和训练的内容。临床语言塑造认知，指导决策，并随着时间的推移将制度假设编码进医学实践。当大语言模型在这些系统产生的笔记、出院小结和记录上进行训练时，它们也学习了其中的语言。本文对ClinicalBERT（Alsentzer 等人，2019（https://arxiv.org/html/2606.14460#bib.bib1））——一个在MIMIC-III出院小结和临床笔记上预训练的语言模型——进行了代表偏差的计算审计，考察人口统计描述符如何改变模型在行为、评价和能动性归因语言上的概率分布。我们将代表伤害——定义为通过对社会群体的符号性描绘和分类所造成的损害（Crawford, 2017（https://arxiv.org/html/2606.14460#bib.bib8）；Blodgett 等人，2020（https://arxiv.org/html/2606.14460#bib.bib3））——操作化为一个经验分析框架，将计算概率输出与其临床和社会影响联系起来。通过探测跨八个交叉种族-性别组合的98个真实临床句子模板，我们发现65.6%的显著模型发现与MIMIC-III语料库分布相矛盾，在黑人患者中这一比例升至80%，在能动性归因中升至87.5%。这表明ClinicalBERT中的代表偏差主要通过模型内部放大而非训练数据继承来运作，这对偏差审计、临床人工智能治理和公平部署具有直接影响。

本文的其余部分组织如下：第2节（https://arxiv.org/html/2606.14460#S2）回顾了临床自然语言处理中算法偏差、探测方法以及代表伤害框架的相关工作。第3节（https://arxiv.org/html/2606.14460#S3）描述了临床语料库、模型、语义类别以及统计差异和偏差放大的形式化定义。第5节（https://arxiv.org/html/2606.14460#S5）介绍了探测设计、LPBA和MLM方法以及语料库频率分析方法。第6节（https://arxiv.org/html/2606.14460#S6）展示了行为语言、评价框架和能动性归因方面的实证发现。第7节（https://arxiv.org/html/2606.14460#S7）讨论了对偏差放大理论、代表伤害的语言机制以及临床人工智能治理的影响。第8节（https://arxiv.org/html/2606.14460#S8）进行总结。

## 2 相关工作

临床自然语言处理中的算法偏差在种族、性别和社会经济维度上产生严重后果。Obermeyer 等人（2019（https://arxiv.org/html/2606.14460#bib.bib18））证明，一个广泛部署的医疗需求算法因训练数据偏差而系统性地低估了黑人患者的需求。Sharma 等人（2025）将这种差异归因于不平衡的训练数据集，这些数据集过度代表了特定人口群体，从而产生偏差的临床预测。关键在于，现有工作主要集中于结果层面的差异，而非人口统计关联如何被编码进模型概率分布的计算机制——这正是本研究直接关注的空白。

基于模板的对数概率探测掩码语言模型代表了Transformer架构中人口偏差检测的方法论基础。Kurita 等人（2019（https://arxiv.org/html/2606.14460#bib.bib16））首次证明，BERT根据人口统计描述符对职业术语赋予了系统不同的概率，而Zhao 等人（2019（https://arxiv.org/html/2606.14460#bib.bib20））将其扩展到种族和民族偏差，表明与民族相关的名字在模型概率分布中与不同的属性词共现。与静态词嵌入模型（偏差位于固定的向量空间中）不同，基于Transformer的模型将偏差分布在动态的上下文相关表征中，这些表征难以直接检查。关键在于，Hofmann 等人（2024（https://arxiv.org/html/2606.14460#bib.bib13））证明，训练后的对齐程序抑制了显性的偏差信号，但并未消除其结构性来源——这一发现直接推动了本研究聚焦于模型内部表征结构而非表层输出行为。本研究将Kurita 等人（2019（https://arxiv.org/html/2606.14460#bib.bib16））的对数概率探测方法应用于跨交叉种族-性别组合的临床语义类别，将该方法从通用域偏差检测扩展到高风险的临床自然语言处理领域。

## 3 问题设置

MIMIC-III临床数据库（Johnson 等人，2016（https://arxiv.org/html/2606.14460#bib.bib15））包含2001年至2012年间在贝斯以色列女执事医疗中心住院的40,000多名患者的去标识化健康记录。本研究基于NOTEEVENTS表，特别是出院小结和护理人员笔记，这些构成ClinicalBERT的主要预训练语料库，也是人口统计相关语言模式被编码进模型表征的主要场所。从ADMISSIONS和PATIENTS表中提取了患者人口统计变量（如种族和性别），并通过SUBJECT_ID和HADM_ID键与临床笔记合并，生成一个按四个种族组、两个性别类别和八个交叉人口统计组合分层的数据集，其中以白人男性为参考组。

## 4 模型

我们审计了ClinicalBERT（emilyalsentzer/Bio_ClinicalBERT；Alsentzer 等人，2019（https://arxiv.org/html/2606.14460#bib.bib1）），这是一个基于Transformer的掩码语言模型，通过对BERT在MIMIC-III临床笔记上进行领域自适应预训练而开发。ClinicalBERT的掩码语言建模目标是在给定周围双向上下文的情况下预测掩码令牌：\( P(w_i \mid w_1, \ldots, w_{i-1}, w_{i+1}, \ldots, w_n) \) (1) 其中 \( w_i \) 表示掩码目标令牌。该目标实现了基于模板的对数概率探测人口统计关联，这是本研究的方法论基础。模型使用Python中的Hugging Face Transformers库加载。

### 4.1 代表伤害框架

我们将代表伤害——定义为通过对社会群体的符号性描绘和分类所造成的损害（Crawford, 2017（https://arxiv.org/html/2606.14460#bib.bib8）；Blodgett 等人，2020（https://arxiv.org/html/2606.14460#bib.bib3））——操作化为将计算概率输出与其临床和社会影响联系起来的主要分析框架。形式上，令 \( \mathcal{D} \in \{\text{Black Male, Black Female, Hispanic Male, Hispanic Female, Asian Male, Asian Female, White Female}\} \) (2) 表示所分析的人口统计描述符集合，以白人男性为参考组 \( D_0 \)。对于给定的目标词 \( w \in \beta \cup \mathcal{E} \cup \alpha \) 和临床句子模板，代表伤害通过三个分析上不同的维度进行操作化：**刻板印象**，其中 \( P(w \mid D) \) 反映了与临床证据不一致的基于群体的关联；**抹除**，其中 \( P(w \mid D) \) 系统性地低估了群体 \( D \) 的属性；以及**贬低**，其中 \( P(w \mid D) \) 编码了对群体 \( D \) 进行负面框架的评价性刻画。

### 4.2 统计差异与偏差放大

我们操作化两个互补的代表伤害经验指标，它们共同构成了本研究的分析核心。令 \( f_C(w, D) \) 表示目标词 \( w \) 在临床笔记中针对人口群体 \( D \) 的语料库频率，令 \( P_M(w \mid D) \) 表示ClinicalBERT在相同句子上下文中给定人口描述符 \( D \) 时对 \( w \) 的掩码令牌概率。**统计差异**定义为跨人口群体在相同临床背景下模型概率分配的差异：
\[ \Delta_S(w, D) = P_M(w \mid D) - P_M(w \mid D_0) \] (3)
其中 \( D_0 \) 表示白人男性参考组。统计显著的 \( \Delta_S(w, D) \neq 0 \) 表明在相同的临床背景下，人口身份系统性地改变了模型对目标词的预测。

**偏差放大**被操作化为模型概率差异与语料库频率差异之间的方向性偏离。对于每个显著的模型发现，我们计算模型差异的符号：
\[ \text{sign}(\Delta_S(w, D_i)) = \begin{cases} +1 & \text{if } P_M(w \mid D_i) > P_M(w \mid D_0) \\ -1 & \text{if } P_M(w \mid D_i) < P_M(w \mid D_0) \end{cases} \] (4)
以及语料库差异的符号：
\[ \text{sign}(\Delta_C(w, D_i)) = \begin{cases} +1 & \text{if } f_C(w, D_i) > f_C(w, \text{White Male}) \\ -1 & \text{if } f_C(w, D_i) < f_C(w, \text{White Male}) \end{cases} \] (5)
当这两个符号不一致时——即模型预测与经验语料库分布方向相反——这表明存在偏差放大。形式化地：
\[ \Delta_A(w, D_i) = \begin{cases} 0 & \text{if } \text{sign}(\Delta_S) = \text{sign}(\Delta_C) \\ 1 & \text{if } \text{sign}(\Delta_S) \neq \text{sign}(\Delta_C) \end{cases} \] (6)
这构成了代表偏差主要通过模型内部放大而非训练数据继承来运作的直接经验证据——这是本研究测试的核心主张，并将结果与非表征性分配原则中的统计偏差区分开来。

## 5 方法

### 5.1 语义类别

三个语义类别构成了所有探测的目标词：
\[ \beta = \{\text{aggressive, agitated, anxious, calm, combative, cooperative, disoriented, drowsy, lethargic, restless}\} \] (7)
\[ \mathcal{E} = \{\text{appropriate, competent, compliant, difficult, erratic, noncompliant, poor, unreliable}\} \] (8)
\[ \alpha = \{\text{refused, declined, requested, agreed, responded, presented}\} \] (9)
其中 \( \beta \) 包含行为描述词，\( \mathcal{E} \) 包含评价判断术语，\( \alpha \) 包含能动性归因术语。选择 \( \beta \) 是因为它编码了临床医生对患者行为状态的观察，而行为状态在不同人口群体中可能被系统性地不同地描述（例如，临床研究记录了黑人患者在疼痛管理情境下被标记为“焦虑”或“激动”的比例高于白人患者）。选择 \( \mathcal{E} \) 是因为它包含了临床医生对患者进行的评价判断，这些判断可能承载价值负载且在不同群体间可能不一致（例如，对临床医嘱的依从性）。选择 \( \alpha \) 是因为它编码了患者因果责任的结构——无论患者被构建为临床决策的主动行动者（如拒绝、请求）还是被动接受者（如响应、表现）。

### 5.2 Log Probability Bias Analysis (LPBA)

LPBA量化了在相同的临床句子上下文中，将人口描述符 \( D_i \) 替换为参考描述符 \( D_0 \) 对ClinicalBERT为目标词 \( w \in \beta \cup \mathcal{E} \) 预测的对数概率产生的偏移程度。形式上，对于一个带有掩码目标位置的句子模板 \( S \)，对数概率偏差分数定义为：
\[ \text{LPBA}(w, D_i, S) = \log P_M(w \mid S, D_i) - \log P_M(w \mid S, D_0) \] (7)
其中 \( P_M(w \mid S, D) \) 表示ClinicalBERT在句子 \( S \) 中给定人口描述符 \( D \) 时对目标词 \( w \) 的掩码令牌概率，\( D_0 \) 表示白人男性参考组。正的LPBA分数表示相对于 \( D_0 \)，\( w \) 在 \( D_i \) 下的预测概率更高；负分数表示抑制。

句子模板选自MIMIC-III出院小结和护理人员笔记，依据三个标准：句子直接描述患者行为，包含五到三十个单词，且无MIMIC-III去标识化伪影。每个目标词可用实例少于五个的模板被排除。LPBA观察总数为488而非784，因为LPBA分析仅应用于行为语言（\( \beta \)）和评价框架（\( \mathcal{E} \)）的目标词，而MLM应用于跨相同98个模板的所有能动性归因（\( \alpha \)）目标词。

### 5.3 Masked Language Model Analysis (MLM)

MLM将LPBA方法从行为和评价语义类别扩展到能动性归因语言，将相同的掩码令牌概率框架应用于语义上不同的临床语言类别。尽管两种方法都查询ClinicalBERT的最终输出层概率分布，但MLM操作于原始掩码令牌概率而非对数概率差异，从而能够直接比较跨人口群体的绝对概率分配。

对于一个带有掩码目标位置的句子模板 \( S \)，MLM概率分数定义为：
\[ \text{MLM}(w, D_i, S) = P_M(w \mid S, D_i) \] (8)
其中 \( w \in \alpha \) 表示能动性归因目标词。能动性归因术语分为三个子类别，反映患者因果责任的不同建构：
\[ \mathcal{A}_{\text{resist}} = \{\text{refused, declined}\} \] (9)
\[ \mathcal{A}_{\text{cooperate}} = \{\text{requested, agreed}\} \] (10)
\[ \mathcal{A}_{\text{passive}} = \{\text{responded, presented}\} \] (11)
其中 \( \mathcal{A}_{\text{resist}} \) 编码对临床指导的主动抵抗，\( \mathcal{A}_{\text{cooperate}} \) 编码对临床指导的主动合作，\( \mathcal{A}_{\text{passive}} \) 编码对临床行动的被动接受。这种三分法子类别捕获了模型是否将不同人口群体的患者构建为主动决策主体或临床行动的被动客体。

### 5.4 语料库频率分析

语料库频率分析通过将模型概率输出直接与MIMIC-III训练语料库中的经验词频进行对比，操作化了第4.2节（https://arxiv.org/html/2606.14460#S4.SS2）中定义的统计差异 \( \Delta_S(w, D) \) 与偏差放大 \( \Delta_A(w, D) \) 之间的区别。对于每个统计显著的目标词 \( w \in \beta \cup \mathcal{E} \cup \alpha \) 和人口群体 \( D_i \)，语料库频率计算为：
\[ f_C(w, D_i) = \frac{\text{count}(w, D_i)}{\text{count}(\text{all tokens}, D_i)} \times 10,000 \] (12)

ClinicalBERT语言预测中人口统计关联编码的计算审计

相似文章

人口统计偏差对皮肤病变分类的影响

通过人口统计条件融合嵌入学习视角主义社会意义

因果语言建模的短暂介入可提升编码器的继续预训练效果

模型选择在因果推断中的关键作用：基于InferBERT框架的药物警戒分类模型比较分析

代理建模：解读黑盒大模型在医学预测中的隐含知识

提交意见反馈