无害原则？网络部署的医疗大语言模型中的幻觉与行为体层级滥用

arXiv cs.CL 2026/05/21 04:00 论文

medical-llm hallucination safety evaluation open-source policy-compliance dataset

摘要

本文对医疗大语言模型（包括定制MedGPT和开源模型）进行了大规模评估，发现其中25-30%的模型事实准确性较低，33.6-54.3%的模型违反操作阈值，揭示了系统性的安全风险。

arXiv:2605.20591v1 公告类型：新提交摘要：医疗大语言模型，包括定制医疗GPT（MedGPT）和开源模型，正越来越多地部署在网络平台上提供临床指导。然而，它们存在幻觉、政策违规和不安全设计的风险。我们对6,233个MedGPT进行了大规模评估，评估了1,500个分层样本以及10个开源大语言模型。我们引入了两个框架：用于幻觉检测的MedGPT-HEval评估框架以及用于评估政策违规和开发者意图的基于大语言模型的流水线。我们的结果显示，25-30%的MedGPT事实准确性较低，其中底层和中层模型风险最高；33.6-54.3%违反操作阈值，57.06%的支持Action的模型缺乏充分的隐私披露。与开源模型相比，MedGPT在事实准确性和语义对齐方面表现更好，但开源模型更为稳定。这些结果揭示了幻觉和合规方面的系统性差距，凸显了多指标评估和更强安全措施的需求。我们发布了HAA-MedGPT，这是一个结构化数据集，支持未来对面向Web的医疗大语言模型安全性的研究。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:34

# 不伤害？网络部署的医疗大语言模型中的幻觉与参与者层面滥用  
来源：https://arxiv.org/html/2605.20591  

###### 摘要  

医疗大语言模型（LLMs），包括定制医疗GPT（MedGPTs）和开源模型，越来越多地部署在网络平台上提供临床指导。然而，它们存在幻觉、政策不合规和不安全设计的风险。我们对6,233个MedGPT进行了大规模评估，从中分层抽样1,500个，并结合10个开源LLM一起评估。我们引入了两个框架：MedGPT-HEval用于幻觉检测，以及一个基于LLM的流水线用于评估政策违规和开发者意图。我们的结果显示，25–30%的MedGPT存在事实准确性低的问题，中低端模型风险最高；33.6–54.3%违反了运营阈值，57.06%的启用Action的模型缺乏充分的隐私披露。与开源模型相比，MedGPT实现了更高的事实准确性和语义对齐，尽管开源模型更稳定。这些结果揭示了幻觉和合规性方面的系统性差距，凸显了多指标评估和更强安全防护的必要性。我们发布了HAA-MedGPT，这是一个结构化的数据集，支持未来关于网络医疗LLM安全性的研究。  

## I. 引言  

大语言模型（LLMs）越来越多地被部署为商业平台上的用户中心应用，用户与可配置的代理（如OpenAI商店中的代理）进行交互。其中，定制的医疗GPT（MedGPTs）提供诊断建议、健康咨询、治疗解释和症状检查[5](https://arxiv.org/html/2605.20591#bib.bib21)。GPT商店[36](https://arxiv.org/html/2605.20591#bib.bib137)托管了数千个此类模型，用于咨询、分诊和教育[46](https://arxiv.org/html/2605.20591#bib.bib47)。尽管有自动化和人工审核，不安全或滥用的MedGPT仍然出现[34](https://arxiv.org/html/2605.20591#bib.bib45)，突显了平台级部署中持续存在的安全风险。与此同时，开源医疗LLM，如Galactica[48](https://arxiv.org/html/2605.20591#bib.bib113)、PMC-LLaMA[53](https://arxiv.org/html/2605.20591#bib.bib116)和MedAlpaca[18](https://arxiv.org/html/2605.20591#bib.bib115)，优先考虑透明度和灵活性。然而，它们通常在诊断性能上有所欠缺[16](https://arxiv.org/html/2605.20591#bib.bib675), [3](https://arxiv.org/html/2605.20591#bib.bib56), [38](https://arxiv.org/html/2605.20591#bib.bib57)，显示出可访问性与临床准确性之间的权衡。这些生态系统揭示了医疗LLM部署中的一个关键张力：平台托管的MedGPT提供高事实准确性，但存在安全风险；而开源模型提供透明度，但可能缺乏可靠性。这促使对医疗LLM的事实正确性、一致性和安全性进行系统评估。  

MedGPTs使用户面临两个关键但常被忽视的风险。第一个是临床幻觉——自信但虚假或捏造的医疗信息[22](https://arxiv.org/html/2605.20591#bib.bib18), [7](https://arxiv.org/html/2605.20591#bib.bib20)，例如不安全的治疗或错误的药物建议。第二个是设计层面的滥用，即GPT创建者违反OpenAI的隐私政策[41](https://arxiv.org/html/2605.20591#bib.bib201)或通过欺骗性的名称、描述或使用规避安全措施的工具来操纵用户。平台信任指标（如评分和评论）错误地使不安全的GPT合法化，从而放大了这些风险。危害既来自输出也来自模型配置。开发人员编写名称、描述和对话启动器来传达信任或权威，并可能启用诸如网页浏览[21](https://arxiv.org/html/2605.20591#bib.bib76)等工具，同时链接到模糊或失效的隐私政策。这些表面线索在用户与模型交互之前就塑造了用户的信任并引入了风险。与用户能够识别LLM错误的一般领域不同，患者通常缺乏评估LLM生成建议所需的医学知识[26](https://arxiv.org/html/2605.20591#bib.bib32)。  

最近的研究表明，尽管进行了领域调优和专家评估，临床幻觉在LLM中仍然存在。Kim等人[26](https://arxiv.org/html/2605.20591#bib.bib32)提出了一个幻觉分类法，并发现Med-PaLM[24](https://arxiv.org/html/2605.20591#bib.bib14)和GPT-4[35](https://arxiv.org/html/2605.20591#bib.bib9)即使在使用检索增强提示的情况下，仍会产生误导性输出。Asgari等人[6](https://arxiv.org/html/2605.20591#bib.bib15)同样观察到GPT-4产生了事实无支持但流畅的医疗声明，引发了对信任和可验证性的担忧。更广泛的GPT生态系统研究集中在越狱、使用模式和配置提取[34](https://arxiv.org/html/2605.20591#bib.bib45), [21](https://arxiv.org/html/2605.20591#bib.bib76), [60](https://arxiv.org/html/2605.20591#bib.bib227)，但将这些视为孤立的失败案例。此前没有工作系统性地分析网络GPT市场[11](https://arxiv.org/html/2605.20591#bib.bib228), [12](https://arxiv.org/html/2605.20591#bib.bib8), [36](https://arxiv.org/html/2605.20591#bib.bib137)中真实世界MedGPT的临床幻觉或参与者层面滥用。  

为填补这一空白，我们引入了HAA-MedGPT，这是第一个用于检测MedGPT中幻觉和意图层面滥用的大规模数据集和评估框架。我们的方法将多指标评分与政策对齐分析相结合，以揭示模型输出及其构建、呈现和部署方式中的结构性风险。我们从OpenAI商店爬取了6,233个MedGPT的元数据。我们选择了1,500个模型的分层样本，以平衡平台覆盖率，同时尊重OpenAI的查询限制，并与GPT商店保持负责任、非破坏性的交互。模型根据对话次数分为三个层级：前1000名、中间250名（随机）和底部250名。每个GPT都使用标准化的临床提示和多指标评分框架进行评估。同时，我们将10个开源医疗LLM——如Galactica[48](https://arxiv.org/html/2605.20591#bib.bib113)、PMC-LLaMA[53](https://arxiv.org/html/2605.20591#bib.bib116)和MedAlpaca[18](https://arxiv.org/html/2605.20591#bib.bib115)——纳入分析，以比较平台托管模型与透明、社区驱动的替代方案。我们还使用基于规则的名称、描述、对话启动器和政策声明分析来评估参与者层面风险，从而对平台托管和开源医疗LLM进行详细评估。与之前检查基础LLM幻觉[6](https://arxiv.org/html/2605.20591#bib.bib15)或一般GPT应用滥用[46](https://arxiv.org/html/2605.20591#bib.bib47)的研究不同，我们的工作是第一个在网络规模上实证分析已部署、面向用户的医疗GPT的研究，同时捕捉内容层面幻觉和开发者驱动的滥用信号。  

我们提出以下四个核心问题。  

- **RQ1**: 在OpenAI商店中，MedGPT的临床幻觉发生率在不同流行度层级之间如何变化？  
- **RQ2**: 用户能否识别MedGPT输出中的幻觉内容？  
- **RQ3**: 开发者定义的设计选择如何促成MedGPT中的滥用行为或削弱隐私保护？  
- **RQ4**: MedGPT与开源医疗LLM之间的临床幻觉有何不同？  

为评估RQ1，我们引入了MedGPT-HEval（第V-A节），这是一个结构化的多指标框架，用于评估MedGPT的临床幻觉。我们使用从MedQA基准[23](https://arxiv.org/html/2605.20591#bib.bib112)提取的临床场景查询每个模型，并重复同一问题五次以获得多个响应。这种方法捕捉了模型输出的可变性，并允许更稳健的幻觉评估。然后使用四个指标评估响应：G-Eval[54](https://arxiv.org/html/2605.20591#bib.bib110)、BARTScore[58](https://arxiv.org/html/2605.20591#bib.bib109)、语义熵[31](https://arxiv.org/html/2605.20591#bib.bib108)和余弦相似度[27](https://arxiv.org/html/2605.20591#bib.bib107)，同时捕捉事实对齐和一致性。我们发现，在顶级、中级和底部层级中，25–30%的MedGPT在G-Eval中的得分低于0.8，只有37.27%的模型达到BARTScore ≥ -3.5，41.07%达到余弦相似度 ≥ 0.4。同时，59.87%的模型具有小于2的语义熵，表明适度的响应稳定性。底部和中级MedGPT具有最高的幻觉风险和最弱的上下文对齐。这表明模型流行度并不是网络部署医疗GPT事实准确性或安全性的可靠指标。  

为评估RQ2，我们分析了前1000名MedGPT的对话量、星级评分和评论情感（第V-B节）。分析显示，用户参与度并不反映对临床幻觉的意识，对话次数的相关性接近于零（G-Eval: -0.0347；BART: -0.0196；熵: 0.0057；余弦: -0.0318），评论的相关性也极低（-0.0449 至 0.0732）。相反，评论与使用量强相关（正面评论 r=0.9999，负面评论 r=0.9656）。这表明用户反馈反映了活动量而非准确性，揭示了网络部署MedGPT中感知信任与实际可靠性之间的差距。  

为评估RQ3，我们应用了一个基于OpenAI运营化使用策略的自动评分流水线。我们使用K-means聚类确定一个阈值，将MedGPT分类为合规或不合规（第V-C节）。滥用现象在MedGPT中很常见：前1000名中有54.3%，中间250名中有48.0%，底部250名中有33.6%的模型超过了0.45的风险阈值，并且有两项或三项违规的情况在各级流行度中影响了33–64%的模型。隐私和合规性差距在170个启用Actions的MedGPT中也很普遍（第V-D节）：只有42.94%有可访问的隐私政策（57.06%缺乏文档），近70%的提取策略得分低于阈值，使用户暴露于不安全的数practices和监管违规行为之下。  

为评估RQ4，我们调查了开源医疗LLM中的临床幻觉，并将结果与MedGPT进行比较（第V-E节）。开源医疗LLM在准确性和一致性之间存在权衡：Galactica（G-Eval: 0.6480）和Aloe-Alpha（G-Eval: 0.5948）具有最高的事实准确性，而MedAlpaca（0.4863）、Apollo（0.4863）和MentalHealthChatbot（0.4354）实现了更强的语义对齐，BioMistral（2.3978）变化最大。与表现出更高G-Eval（0.9238）和余弦相似度（0.4054）但熵更大（1.9272）的MedGPT相比，这些结果表明MedGPT提供了更优越的事实性和语义连贯性。相比之下，开源模型更稳定和可预测，突显了多指标评估幻觉风险的必要性。  

**我们的贡献**。具体而言，本文的贡献如下：  

- **MedGPT的网络规模审计**。我们设计并部署了第一个可扩展的测量流水线，用于审计网络部署的医疗LLM生态系统，结合了自动发现、基于交互的推理探测、元数据提取和跨6,233个已部署代理的政策合规性分析。  
- **双层安全分析**。我们引入了MedGPT-HEval用于临床幻觉检测，以及一个互补的参与者层面滥用评估器，共同揭示先前工作中被忽视的风险。  
- **结构性治理失败的证据**。我们表明平台信任指标（评分、评论、对话次数）与安全性不相关，49.8%的模型违反运营政策。  
- **隐私风险量化**。我们提供了首个对启用Actions的GPT的隐私政策对齐的实证评估，显示57.06%缺乏功能性政策披露。  
- **公开数据集和工具**。我们发布了HAA-MedGPT¹——首个包含来自OpenAI商店的6,233个定制网络部署MedGPT的大规模数据集，支持未来的网络安全、平台治理和公共卫生研究。  

¹https://anonymous.4open.science/r/HAA-MedGPT-2E78  

## II. 相关工作  

在本节中，我们讨论文献中与我们工作相关的先前研究。  

### II-A. 医疗中的LLM部署  

最近的研究检查了临床环境中的LLM，主要集中在基础模型或受控环境中的孤立任务。Ahmed等人[4](https://arxiv.org/html/2605.20591#bib.bib6)和Shekhar等人[45](https://arxiv.org/html/2605.20591#bib.bib5)分别探讨了ChatGPT在心血管护理和救护车分诊中的潜力，但他们的工作仍然是概念性的。Gumilar等人[15](https://arxiv.org/html/2605.20591#bib.bib59)和Pagano等人[38](https://arxiv.org/html/2605.20591#bib.bib57)的基准测试工作评估了GPT-4、GPT-4o、LLaMA-3.1和Copilot在肿瘤学和骨科中的表现，仅关注准确性。广泛的综述[20](https://arxiv.org/html/2605.20591#bib.bib51), [32](https://arxiv.org/html/2605.20591#bib.bib64)提出了关于幻觉和伦理不透明性的担忧，但缺乏实证部署分析。诸如Health-LLM[56](https://arxiv.org/html/2605.20591#bib.bib54)和Polaris[33](https://arxiv.org/html/2605.20591#bib.bib62)等治理框架提供了注重安全的设计，但运行在严格控制或模拟环境中。显然，这些工作都没有评估定制MedGPT的真实世界风险。相比之下，我们的工作系统性地评估了已部署的MedGPT的幻觉和参与者驱动的滥用。  

### II-B. LLM中的临床幻觉  

几项研究使用专家基准、分类法和错误分析检查了医疗LLM中的幻觉。Kim等人[25](https://arxiv.org/html/2605.20591#bib.bib16)提出了跨模型（如GPT-4o、PMC-LLaMA[53](https://arxiv.org/html/2605.20591#bib.bib116)、MedAlpaca-13B[18](https://arxiv.org/html/2605.20591#bib.bib115)）的类型学（诊断性、事实性、过时性）。Asgari等人[6](https://arxiv.org/html/2605.20591#bib.bib15)和Vishwanarth等人[50](https://arxiv.org/html/2605.20591#bib.bib37)构建了包含临床医生在回路中的审计工具（如CREOLA）用于摘要。Qin等人[40](https://arxiv.org/html/2605.20591#bib.bib38)使用基于熵的对话建模来应对错误信息，但未针对LLM起源的幻觉或不安全设计。Zhu等人[62](https://arxiv.org/html/2605.20591#bib.bib35)提出了一个统一的分类法，将幻觉与数据、训练和推理联系起来，但未涉及已部署的GPT或开发者滥用。Agarwal等人[1](https://arxiv.org/html/2605.20591#bib.bib1729)的MEDHALU关注输出对作者意图的忠实度。总体而言，这些研究将幻觉定义为内容问题，忽略了与GPT作者身份和部署相关的结构性风险。我们的工作通过分析已部署MedGPT中输出层面的幻觉和参与者驱动因素来填补这一空白。  

### II-C. GPT部署中的参与者层面滥用与意图  

最近的大规模审计探测公共LLM应用中的滥用，但很少针对医疗领域。Zhang

无害原则？网络部署的医疗大语言模型中的幻觉与行为体层级滥用

相似文章

压力测试医学大语言模型揭示基准准确率之外的潜在安全病理

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

信任但验证：通过事后对抗性审计和多智能体反馈循环减轻医疗幻觉

在标准化病例中评估大语言模型在动态临床决策中的表现

评估大语言模型在多轮医疗对话中的误解纠正能力

提交意见反馈