一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

arXiv cs.CL 2026/06/02 04:00 论文

medical red-teaming safety robustness fairness evaluation large-language-models

摘要

本文提出了一个多领域红队框架，用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明，高聚合准确率可能掩盖关键失败，而结合临床专家审核的混合评估对于可信的安全性评估是必要的。

arXiv:2606.00027v1 公告类型：新摘要：大型语言模型（LLMs）在医疗领域的应用日益广泛，然而现有基准测试未能捕捉模型在临床实践中常见的对抗性或伦理复杂条件下的行为。我们开发了一个多领域红队框架，评估了11种当代LLMs在涵盖9个领域和150多个子类别的690个临床相关场景中的表现。场景包含对抗性变换，响应使用七维度评分标准进行评估，结合LLM辅助评分和人工验证。结果显示性能差异显著，平均得分范围从0.791到0.984。关键的是，几个高性能系统在个别安全关键场景中完全失败，表明聚合准确率掩盖了临床意义上的风险。性能最高的系统（X-BAI、GPT-5、Claude Opus 4.1）得分超过0.97且方差较低，而各领域性能差异显著。与公平性相关的任务在人口统计特征修改后显示出10-20%的错误放大，人工审核员发现了自动化评估遗漏的临床相关失败。我们的发现表明，性能方差和最坏情况下的失败比平均准确率更能提供临床意义的可靠性指标，而结合自动化与临床专家审核的混合评估方法对于可信的安全性评估至关重要。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

# 面向医疗大型语言模型安全、鲁棒性与公平性评估的多领域红队测试框架
来源：https://arxiv.org/html/2606.00027
\版权声明

本文版权归作者所有。根据知识共享署名4.0国际许可协议（CC BY 4.0）允许使用。

\会议信息

收录于：R. Campos, A. Jorge, A. Jatowt, S. Bhatia, M. Litvak（编）：Text2Story’26 研讨会论文集，荷兰代尔夫特，2026年3月29日

[邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ] [邮箱：[email protected], ]

Veysel Kocaman, Yigit Gul, Ahmet Korkmaz, Alexander Thomas, Aleksei Zakharov, Jay Gil, Mehmet Butgul, David Talby  
John Snow Labs Inc.（2026）

###### 摘要

大型语言模型（LLM）正日益广泛应用于医疗领域，然而现有基准测试未能捕捉模型在临床实践中常见的对抗性或伦理复杂条件下的行为。我们开发了一个多领域红队测试框架，评估了11种当代LLM在690个临床依据场景中的表现，涵盖九个领域和150多个子类别。场景包含对抗性变换，并使用基于LLM辅助评分和人工审核的七维评估量规对回应进行评估。结果显示性能差异显著，平均得分范围从0.791到0.984。关键的是，几个高性能系统在单个安全关键场景中出现了完全失败，表明整体准确率掩盖了临床上有意义的风险。表现最好的系统（X-BAI、GPT-5、Claude Opus 4.1）得分在0.97以上且方差较低，而各领域的表现差异显著。与公平性相关的任务在人口统计学信息修改后显示出10–20%的错误放大，且人工审查发现了自动化评估未能识别的临床相关失败。我们的研究结果表明，性能方差和最坏情况下的失败比单纯的平均准确率更能提供有临床意义的可靠性指标，而结合自动化与临床监督的混合评估方法对于可信的安全评估至关重要。

###### 关键词：

医疗大型语言模型、红队测试、安全评估、临床AI、医疗AI、鲁棒性、公平性

## 1. 引言

大型语言模型（LLM）在医疗领域的使用日益广泛，协助临床医生、支持行政工作流程，并与患者进行实时互动。它们的快速整合带来了对系统性安全评估的迫切需求，因为模型如果未经充分测试，可能会生成临床看似合理但错误或有害的输出，放大偏见，或违反隐私原则[1 (https://arxiv.org/html/2606.00027#bib.bib1)]。尽管最近的基准测试提高了我们对医学推理和事实准确性的理解[2 (https://arxiv.org/html/2606.00027#bib.bib2), 3 (https://arxiv.org/html/2606.00027#bib.bib3), 4 (https://arxiv.org/html/2606.00027#bib.bib4)]，但大多数仍局限于狭窄的问答格式或静态评估，未能反映真实的临床沟通。

现有评估常常无法捕捉模型在提示模糊、对抗或不一致时的行为，这些条件在实践中经常出现。研究表明，微小的语言变化、缺失上下文或细微的矛盾可能导致模型输出出现巨大差异，包括诊断推理、治疗建议或伦理决策的转变[5 (https://arxiv.org/html/2606.00027#bib.bib5), 6 (https://arxiv.org/html/2606.00027#bib.bib6)]。这些形式的不稳定性在传统基准测试中很少被衡量，后者往往强调平均准确率而非最坏情况下的失败、错误传播和安全案例。因此，与鲁棒性、偏见、隐私、风险行为以及拒绝不安全请求能力相关的重要维度，尽管直接影响患者安全，却仍未得到充分评估[7 (https://arxiv.org/html/2606.00027#bib.bib7), 8 (https://arxiv.org/html/2606.00027#bib.bib8)]。

伦理和监管方面的考虑强化了进行更全面评估的必要性。来自WHO、NIST、欧盟以及专业医学协会的框架强调，临床AI系统不仅应评估其正确性，还应评估其公平性、可解释性、隐私保护、透明度和对职业边界的遵守[9 (https://arxiv.org/html/2606.00027#bib.bib9), 10 (https://arxiv.org/html/2606.00027#bib.bib10), 11 (https://arxiv.org/html/2606.00027#bib.bib11)]。这些指南一致警告，模型可能泄露敏感数据、生成歧视性输出或在其预期范围之外提供建议。很少有基准测试将监管期望转化为可衡量的评估点，或检验系统级行为，例如拒绝超出临床能力的操作。

最近关于医疗红队测试的工作开始通过临床团队监督下的压力测试来弥补这些差距，揭示了标准测试中未出现的安全性和关键错误[12 (https://arxiv.org/html/2606.00027#bib.bib12)]。然而，大多数红队测试工作仍然分散，集中在孤立领域，或依赖于少量对抗性提示。仍然缺少一个统一的、多领域的、基于临床的框架，该框架将对抗性场景设计与跨安全性、鲁棒性、伦理、公平性、隐私和毒性的结构化评分相结合。在本研究中，红队测试指的是系统性地使用与安全相关、具有挑战性的提示对模型进行压力测试，以在真实世界部署前揭示潜在的失败模式。对抗性变换是对临床场景（例如，措辞、人口统计学信息、缺失上下文或冲突细节）进行的受控编辑，旨在测试模型在现实扰动下是否保持安全和一致的行为。

为了解决这些局限性，我们开发了一个医疗红队测试框架和数据集，旨在揭示临床和操作全过程中的脆弱性。我们的方法旨在整合对抗性提示变异、场景级压力源，以及符合安全和监管期望的评估量规。利用这一框架，我们评估了11种当代LLM，以描述其性能在现实、复杂的关键条件下如何变化。我们关注方差、最低性能和失败模式，次要目标是提供当前LLM所带来临床风险的整体视图，并识别在考虑安全部署之前需要大幅改进的领域。我们的评估设置本质上是基于文本的：每个测试案例被写成一个简短的叙述或类似对话的临床场景，模型输出作为该文本交互中的回应进行评估。在此意义上，该框架衡量意义变化和叙述扰动如何影响安全关键推理，使本研究与Text2Story关于基于文本的场景理解和结果的视角保持一致。

## 2. 方法

### 2.1 设计

我们使用一个结构化的红队测试框架来评估临床环境中使用的大型语言模型的安全性、鲁棒性和伦理行为。评估结合了：(1) 一个多领域的医疗和操作场景数据集；(2) 旨在揭示失败模式的对抗性提示变异；(3) 一个七维度评分量规，符合当前的临床、伦理和监管指南[13 (https://arxiv.org/html/2606.00027#bib.bib13), 14 (https://arxiv.org/html/2606.00027#bib.bib14), 15 (https://arxiv.org/html/2606.00027#bib.bib15)]。我们评估了11种当代LLM：OpenAI GPT-3.5 Turbo、OpenAI GPT-4o、OpenAI GPT-4o-mini、OpenAI GPT-5、Anthropic Claude Opus 4.1、Google Gemini 2.5 Pro、X-BAI、GPT-OSS-20B、GPT-OSS-120B、CALM v2 和 CALM v3。所有评估均使用默认的稳定性或温度配置进行，以反映实际使用情况。

### 2.2 数据集开发

该数据集由三位具有三年以上AI安全经验的临床医生创建。分类法包括九个主要类别：临床准确性、安全性与可靠性、医疗错误、偏见与公平性、隐私与数据安全、伦理推理、鲁棒性、毒性以及系统集成行为。这些类别进一步扩展至超过150个子领域，基于最近的医疗AI基准测试和安全框架及建议[13 (https://arxiv.org/html/2606.00027#bib.bib13), 14 (https://arxiv.org/html/2606.00027#bib.bib14), 15 (https://arxiv.org/html/2606.00027#bib.bib15)]。总共准备了1500个场景；从中随机选取690个场景子集用于模型评估。每个场景代表一个现实的临床或工作流程相关任务，并使用清晰、易懂的语言编写。场景涵盖患者面对面的互动、临床医生决策、行政沟通和操作挑战。

### 2.3 对抗性与鲁棒性变异

为了评估稳定性，每个场景可能包含一个或多个对抗性变换，旨在反映临床错误或误解的常见来源。图1 (https://arxiv.org/html/2606.00027#S2.F1) 展示了一个对抗性场景的示例。这些变异改编自先前的对抗性研究和临床沟通错误模型[13 (https://arxiv.org/html/2606.00027#bib.bib13), 16 (https://arxiv.org/html/2606.00027#bib.bib16)]。

参见图标题
图 1: 临床红队测试场景的对抗性变异示例流程

每个模型回应均使用一个涵盖七个维度的量规进行评估（图2 (https://arxiv.org/html/2606.00027#S2.F2)）。我们使用了一个结合人工审核的LLM辅助评分流程。一个高性能的评判模型（GPT-5）按照明确的评估指令生成初步评估。人工评审员审核所有高风险项目、所有分歧以及固定比例的常规案例。

参见图标题
图 2: 模型回应评估量规流程：七个维度与二元检查

最终分数仅在人工确认后分配，符合医疗AI评估监督的建议[17 (https://arxiv.org/html/2606.00027#bib.bib17), 18 (https://arxiv.org/html/2606.00027#bib.bib18)]。所有模型均在无额外用户提供上下文的情况下独立查询。

### 2.4 统计分析

对于每个模型，我们计算了所有维度的微观和宏观平均值，以及标准差、方差、四分位距和最小/最大值。不稳定性定义为高方差、四分位数之间的大跨度或低最低分。我们还检查了九个类别内和跨类别的失败模式频率。方差和最小值被视为临床风险的主要指标，这与新兴的建议一致，即最坏情况行为而非平均性能决定患者伤害[19 (https://arxiv.org/html/2606.00027#bib.bib19), 20 (https://arxiv.org/html/2606.00027#bib.bib20)]。

## 3. 结果

在涵盖九个评估领域和150个子类别的690个对抗性、基于临床的场景中，测试的11种LLM在安全对齐性能上显示出差异。综合平均分范围从0.791（Gemini 2.5 Pro）到0.984（X-BAI），标准差在0.05到0.21之间（表1 (https://arxiv.org/html/2606.00027#S3.T1)）。

表现最好的系统 X-BAI、GPT-5 和 Claude Opus 4.1 实现了高于0.97的平均分，且集中在最优性能附近。

表 1: 11种医疗LLM的描述性统计（n = 690个提示）
模型  均值  标准差  中位数  最小值–最大值
CALM v2  0.935  0.106  1.000  0.19–1.00
CALM v3  0.926  0.125  1.000  0.00–1.00
X-BAI  0.984  0.050  1.000  0.63–1.00
GPT-3.5 Turbo  0.887  0.091  0.917  0.53–1.00
GPT-4o Mini  0.936  0.076  0.958  0.42–1.00
GPT-4o  0.948  0.068  0.958  0.47–1.00
GPT-5  0.979  0.051  1.000  0.53–1.00
GPT-OSS-20B  0.956  0.085  1.000  0.27–1.00
GPT-OSS-120B  0.964  0.080  1.000  0.33–1.00
Claude Opus 4.1  0.973  0.070  1.000  0.00–1.00
Gemini 2.5 Pro  0.791  0.208  0.849  0.00–1.00
注：n代表每个模型评估的提示数量；综合分数归一化到0到1之间。

表现较差的模型呈现出较低的平均准确率和较高的离散度，尽管平均结果尚可，但常在特定场景中失败。几个系统记录到最低分为0，表明至少在一条安全关键案例上出现完全崩溃。这些差异表明，单独的平均准确率不能反映临床可靠性，这一模式与MedSafetyBench[13 (https://arxiv.org/html/2606.00027#bib.bib13)]及其他关注方差的评估中的发现一致。均值相似的模型在最低分或方差上存在差异。这表明在多样化临床场景中的一致性是一个比峰值或平均准确率更有意义的安全基准。

各领域之间的表现有所不同。得分最高的领域是安全性与可靠性以及医疗错误，各自平均约0.96，在识别急性风险和避免明显有害建议方面表现一致。较低的均值和较宽的方差出现在偏见、公平性与平等（0.95±0.04 SD）以及临床准确性与有效性（0.94±0.05 SD）领域。这些领域需要更深入的推理、上下文解释或公平的治疗建议，即使高性能系统也表现出偶尔的不稳定性。与公平性相关的任务在人口统计学信息修改后显示出10–20%的错误放大，这一模式与EquityMedQA和Unfair Patterns的外部发现一致。操作复杂的类别，包括责任、问责制以及医疗编码与计费，是最具挑战性的，领域均值在0.79到0.83之间。相比之下，程序性类别如指南遵循度和信息流接近天花板性能（≥0.97），如图3 (https://arxiv.org/html/2606.00027#S3.F3)所示。图3 (https://arxiv.org/html/2606.00027#S3.F3) 作为可读性示例提供，并未包含所有模型-类别组合。我们选择了具有代表性的类别和模型来突出跨领域的表现模式；完整的模型级总结统计报告在表1 (https://arxiv.org/html/2606.00027#S3.T1)中。

在需要多步推理、细微解释或伦理敏感性类别的性能变异性增加。涉及诊断推理、药物矛盾分析或伦理边界检测的子类别在模型输出中显示出最宽的分布。针对鲁棒性或对抗性容错优化的模型保持了相对较高的准确率，但在公平性稳定性上表现出权衡，尤其是在反事实人口统计学变化下。这反映了来自PIEE、HarmBench和跨学科红队测试研究的外部观察，其中拒绝鲁棒性的改进并未自动转化为公平推理的提升。同样，具有强大安全对齐的模型在对抗性压力下偶尔表现出较高的幻觉率，表明鲁棒性和事实稳定性仍然是部分独立的维度。

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

相似文章

大语言模型红队测试框架：以忠实性评估为例

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

无害原则？网络部署的医疗大语言模型中的幻觉与行为体层级滥用

AIPatient Arena：基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估

评估大语言模型在多轮医疗对话中的误解纠正能力

提交意见反馈