人为不容忍:临床文档中的污名化语言扭曲大语言模型决策

arXiv cs.CL 论文

摘要

这项研究表明,大语言模型会继承并放大临床笔记中污名化语言带来的偏见,导致患者管理趋于保守,且当前的缓解策略效果有限。

arXiv:2605.17228v1 Announce Type: new 摘要:大语言模型(LLMs)正越来越多地部署在临床决策支持和医疗文档等高风险领域。然而,这些模型在面对细微语言变化(尤其是人类撰写的临床笔记中常见的污名化语言(SL))时的鲁棒性,仍然缺乏深入研究。在本工作中,我们探究了前沿大语言模型在处理临床文本时是否继承并传播了这种人类偏见。我们系统评估了九个前沿大语言模型在四种污名化医疗场景下的表现,使用了注入不同强度和表型(怀疑、责备和诽谤)的污名化语言的临床案例。结果表明,所有被评估的模型都表现出显著偏见,临床决策明显偏向于较不积极的患者管理。值得注意的是,我们观察到模型对语言框架高度敏感,单个污名化语言句子就足以改变模型输出,呈现出清晰的剂量-反应关系。此外,我们评估了标准的基于提示的缓解策略,包括思维链(CoT)推理和模型自我去偏。这些方法效果有限;模型难以明确识别污名化语言,同时又隐性地受到其影响。我们的发现揭示了当前大语言模型在临床自然语言处理中公平性和鲁棒性方面的关键弱点,强调了需要严格的算法护栏以防止健康差异的自动化。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:38

# 人工不容忍:临床文档中的污名化语言扭曲大型语言模型的决策

来源:https://arxiv.org/html/2605.17228
Didi Zhou、Faith Kamau、Amy Oh、Anne R. Links、Mark Dredze、Mary Catherine Beach、Somnath Saha

###### 摘要

**背景**  
大型语言模型(LLMs)正迅速融入临床工作流程,包括临床决策支持和医疗文档摘要。然而,人类临床医生经常(且往往无意地)在临床记录中使用污名化语言(SL),已知这会负面地扭曲人类的临床决策。本研究旨在探讨前沿LLMs在处理包含SL的临床记录时,是否会继承并传播这些人类认知偏差。

**方法**  
本实验研究评估了九种前沿LLMs,重点关注四种高度污名化的医疗状况:镰状细胞病、肥胖症、肝硬化及纤维肌痛。我们设计了中性基线临床病例及其对应的污名化版本,其中包含三种SL表型(怀疑、责备和诋毁)的不同强度。我们使用特定状况的评分指标评估了模型的临床决策(例如疼痛管理、影像转诊)。此外,我们使用经过验证的临床医生对患者态度量表评估了LLMs的回应。我们还评估了基于提示的缓解策略的效果,包括链式思维(CoT)推理和模型自我去偏。

**发现**  
所有九种评估的LLMs在暴露于SL时均表现出显著偏差。临床决策在所有状况和SL表型中均显著扭曲,常常导致对患者状况的干预力度减弱。值得注意的是,仅引入一个SL句子就足以改变LLM的决策,并且随着SL频率的增加,观察到了剂量-反应关系。此外,暴露于SL导致所有模型和临床场景中模拟的临床医生态度持续下降。缓解策略效果有限;CoT提供了部分缓解,而自我去偏表现不佳,表明模型在隐含地受SL影响的同时,难以明确识别SL。

**解释**  
前沿LLMs继承并放大了由临床记录中SL引发的人类认知偏差。这些模型对微妙语言框架的敏感性对健康公平构成风险,可能自动化并扩大患者护理中的差异。当前基于提示的缓解策略不足以解决这一脆弱性,强调了在诊断工作流程中部署LLMs之前,需要强健且经过临床验证的防护措施。

**基金支持**  
国家少数族裔健康与健康差距研究所、国家科学基金会及罗伯特·伍德·约翰逊基金会。

大型语言模型

参见图注  
图1:临床记录中污名化语言的存在可能偏倚LLMs,使其倾向于更不积极的干预管理。

## 1 引言

大型语言模型(LLMs),如ChatGPT(gpt54)和Gemini(gemini30pro),正越来越多地被评估用于临床工作流程的整合,提供在临床决策支持(Hager et al., 2024)、医疗笔记摘要(Small et al., 2025;Jiang et al., 2025)以及患者分诊(Arslan et al., 2025;Kaboudi et al., 2024)中的潜在应用。虽然这些工具有望增强医疗服务的提供,但它们对算法偏差的敏感性对健康公平和患者安全构成了关键风险。现有对LLMs在医疗环境中偏差的评估主要集中在人口统计变量扰动上——即改变临床病例中患者的年龄、种族或性别,以观察诊断或治疗决策中的后续偏差。然而,这种方法忽视了偏差的一个更微妙但普遍存在的载体:电子健康记录中使用的语言框架。

表1:每种类型SL的全面定义、词汇标记以及配对的(中性与污名化)临床示例。

广泛的临床文献表明,人类临床医生常常无意中将污名化语言(SL)纳入医疗文档中。这种语言——通常表现为对患者报告症状的怀疑、因未能遵守医疗建议而责备患者,或对患者的公然诋毁描述——已被证明会负面地影响人类读者后续的临床决策。当阅读带有污名化的医疗记录时,人类医生明显更有可能忽视客观临床事实,提供比阅读中性记录时力度更弱的干预管理。由于LLMs在大量人类生成文本上训练,并处理历史医疗记录以生成见解,因此必须确定这些模型是否会继承并传播由SL触发的认知偏差。与明确的人口统计变量扰动不同,SL通常隐蔽地运作,隐藏在常规临床文档中(例如,以怀疑而非客观报告的方式描述患者的症状史)。这种微妙的语言框架引入了一种上下文毒性,可以轻易规避当前前沿模型中使用的标准安全防护和基于人类反馈的强化学习(RLHF)机制。

在本研究中,我们旨在系统评估前沿LLMs在临床场景中对SL的脆弱性。我们聚焦于四种高度污名化的医疗状况:镰状细胞病(SCD)、肥胖症、肝硬化和纤维肌痛。通过将模型对中性临床记录的响应与注入了三种SL表型(即怀疑、责备和诋毁)不同强度的响应进行比较,我们评估了对特定状况临床决策(例如疼痛管理方案、高级影像转诊)的影响。至关重要的是,SL的影响不仅限于客观的临床决策,还会从根本上降低临床医生对患者的态度——这是公平医疗服务提供的基石。因此,我们还使用经过验证的衡量医疗提供者对患者态度的量表(PASS)测量了模型的模拟态度。最后,我们评估了基于提示的缓解策略的效果,包括链式思维(CoT)推理和模型自我去偏,以确定LLMs是否能自主识别并纠正临床文档中的污名化语言。

## 2 方法

#### 研究设计与伦理。

为了系统评估LLMs临床决策的决定因素,我们设计了一项使用一系列受控临床病例的硅内实验研究。这种方法有助于进行严谨的反事实分析,而这在使用缺乏偏差评估所需标准化、隔离变量的回顾性临床记录时通常是无法实现的。由于本研究仅使用研究者生成的合成临床病例,不包含真实患者数据或受保护的健康信息(PHI),因此免于机构审查委员会(IRB)审查。

#### 选择高度污名化的疾病。

我们选择了四种高度污名化的医疗状况——SCD、肥胖症、肝硬化和纤维肌痛——每种状况都有各自明确且有充分文献记载的临床医生偏差,损害了公平护理。SCD常常因种族偏见和对“寻求药物”行为无根据的怀疑而复杂化,导致急性疼痛的严重治疗不足。肥胖症和肝硬化通常会引发基于假定的生活方式选择或物质使用的责备性污名,导致临床参与度降低、延迟就医以及次优治疗。最后,纤维肌痛缺乏客观生物标志物,使患者经常面临诊断怀疑及其主观症状被否定的情况。总体而言,这些状况涵盖了临床污名机制的广泛光谱——种族偏见、行为责备和症状无效化——为评估污名化语言对LLM驱动的临床决策的影响提供了一个强健而全面的测试平台。

#### 构建配对的中性与污名化叙事。

具有医疗污名领域专业知识的临床专家为四种评估状况中的每一种构建了一个基础中性病例。基于医疗文档中SL的既定分类法,我们专注于三种主要表型:(1)怀疑(质疑患者报告症状的有效性),(2)责备(将治疗不依从归因于个人失败而非系统性障碍),以及(3)诋毁(使用刻板印象或贬低性语言)。全面定义、词汇标记以及配对的临床示例详见表1。为了生成污名化对应版本,我们通过替换单词、短语或句子,在每个中性病例中系统地注入了最多21个SL实例(每种表型七个实例)。完整的中性和污名化场景提示详见附录A。为了研究潜在的剂量-反应关系,我们通过从合并池中随机抽样1、4、7、14或全部21个SL实例,评估了模型在不同SL强度下的性能。此外,为了隔离特定表型的影响,我们测试了仅包含来自单一SL类别的1、4或7个实例的变体。至关重要的是,SL的注入只改变了主观语言框架;所有客观临床参数(例如生命体征、实验室结果)在中性和污名化配对之间保持严格一致。这种严格的隔离确保了任何观察到的下游LLM决策变化完全归因于语言扰动。

表2:每个病例的临床决策问题及回答选项。编号较高的选项对应更全面且对患者更具响应性的护理。测试时选项被随机排序以避免LLM中的位置偏差。
表3:PASS中的项目。所有项目采用五点Likert量表评分。项目1–4从1到5评分,项目5–10反向评分(从5到1)。

#### 生成变体。

为了引发语言模型响应的稳健分布并排除确定性的单点估计,我们为每个临床病例生成了128个不同的人口统计变体。这些变体通过系统置换患者姓名、年龄、性别(男性和女性)和种族(亚洲人、黑人、西班牙裔和白人)构建而成。置换参考了流行病学数据:由于SCD病例中种族仅限于黑人患者,我们在场景中通过患者伴侣指示了性取向。肥胖症、肝硬化和纤维肌痛的人口统计信息在所有类别中完全置换,以反映其广泛的患病率。我们的实验矩阵每个状况包含15种文本配置:一个中性基线;九种单一表型SL条件;以及五种混合表型SL条件。将这128种人口统计置换应用于这15种配置,产生了每个模型每个医疗状况1,920个独立查询的评估集。

#### 结果指标。

主要结果是每个病例的LLM生成的临床决策。我们设计了针对特定状况的四点有序决策量表,代表临床干预的梯度。在这些量表上,较高的分数对应更全面或对患者偏好更具响应性的护理,而较低的分数则表示不那么积极的管理或对患者关切/请求的忽视(表2)。具体而言,决策任务评估了镰状细胞病的镇痛方案升级、肥胖症背景下的膝关节关节炎、肝硬化的住院管理和移植评估,以及纤维肌痛的药物治疗与工作场所调整。次要结果评估了模型使用PASS对患者的模拟态度(表3)。这个十项工具评估临床医生的同理心、尊重以及对负面刻板印象的易感性。响应在五点Likert量表上生成,特定项目反向评分,使得较高的累积分数一致反映对患者更积极、较少污名化的态度。

参见图注
(a) 临床治疗分数。分数较低表明倾向于干预力度较弱。
(b) 对患者的模拟态度,通过PASS测量。分数较低反映较消极的态度。

图2:影响

相似文章

语言模型能否识别乳腺癌放疗的副作用?

arXiv cs.CL

本文提出了一种面向部署的压力测试框架,用于评估大型语言模型在识别乳腺癌放疗副作用方面的表现。该研究揭示了LLM在可靠性方面的局限性,例如对文档细微变化的敏感性以及对罕见副作用的低召回率,表明以临床医生整理的清单为输出依据可提高鲁棒性。

在标准化病例中评估大语言模型在动态临床决策中的表现

Hugging Face Daily Papers

研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。