语言模型能否识别乳腺癌放疗的副作用？

arXiv cs.CL 2026/05/12 04:00 论文

llm healthcare oncology breast-cancer evaluation clinical-nlp

摘要

本文提出了一种面向部署的压力测试框架，用于评估大型语言模型在识别乳腺癌放疗副作用方面的表现。该研究揭示了LLM在可靠性方面的局限性，例如对文档细微变化的敏感性以及对罕见副作用的低召回率，表明以临床医生整理的清单为输出依据可提高鲁棒性。

arXiv:2605.08439v1 发布类型：新文章摘要：向癌症幸存者准确传达癌症治疗的副作用至关重要，特别是在知情同意等场景下，临床医生必须清晰、全面地传达潜在的治疗毒性。然而，由于对不良反应的临床知识不足以及电子健康记录（EHR）系统之间的碎片化，这项任务仍然具有挑战性。大型语言模型（LLM）有可能协助完成此任务，但它们在肿瘤幸存者护理背景下的可靠性尚不明确。我们提出了一种面向部署的压力测试框架，用于评估LLM生成的乳腺癌治疗及幸存者护理中的放射副作用列表。我们利用21个乳腺癌患者档案，构建了仅放疗方案不同的配对患者临床场景，以评估七种指令微调的LLM在多种提示策略下的表现。随后，我们将LLM的输出与来自两家主要学术医疗中心的知情同意文件所衍生的临床医生整理参考数据进行比较，该参考数据由包括七名以上乳腺放射肿瘤学家在内的团队开发。该参考数据将辐射剂量分割、照射野和部位与相关毒性联系起来，并按频率和时间发生进行分类。在不同模型中，我们发现了其对文档细微变化的敏感性、精确度与召回率之间的权衡，以及对罕见和长期副作用的系统性低召回。单独使用时，对生成副作用数量的限制会降低精确度，而以临床医生整理的副作用列表为依据则可大幅提高可靠性和鲁棒性。这些发现强调了LLM在肿瘤学中应用的重要局限性，并为更安全、更具信息量的以幸存者为核心的应用提出了实用的设计选择。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:46

# 语言模型能否识别乳腺癌放疗的副作用？
来源：https://arxiv.org/html/2605.08439
\\theorembodyfont\\theoremheaderfont\\theorempostheader

:\\theoremsep \\jmlrvolume333\\jmlryear2026\\jmlrsubmittedLEAVE UNSET\\jmlrpublishedLEAVE UNSET\\jmlrworkshopConference on Health, Inference, and Learning \(CHIL\) 2026

\\NameDanielle S\. Bitterman\\Emaildbitterman@bwh\.harvard\.edu \\addrMass General BrighamDana\-Farber Cancer InstituteHarvard Medical School\\NameDaphna Spiegel\\Emaildyspiegel@bwh\.harvard\.edu \\addrMass General BrighamDana\-Farber Cancer InstituteHarvard Medical School\\NameThomas Hartvigsen\\Emailhartvigsen@virginia\.edu \\addrUniversity of Virginia

###### 摘要

准确向癌症幸存者传达癌症治疗的副作用至关重要，特别是在知情同意等场景中，临床医生必须清晰且全面地传达潜在的治疗毒性。然而，由于对不良治疗影响的临床知识存在不足以及电子健康记录（EHR）系统之间的碎片化，这项任务仍然具有挑战性。大型语言模型（LLMs）有可能协助完成此项任务，尽管它们在肿瘤学幸存关怀背景下的可靠性尚不清楚。我们提出了一种面向部署的压力测试框架，用于评估语言模型生成的乳腺癌治疗和幸存关怀中的放疗副作用列表。利用21个乳腺癌患者档案，我们构建了仅在放疗方案上存在差异的配对患者临床场景，以在多种提示策略下评估七种指令微调语言模型。随后，我们将语言模型的输出与由两个主要学术医疗中心的知情同意文件衍生、并由包括七名以上乳腺癌放疗肿瘤学家在内的团队开发的临床医生策划的参考标准进行比较。该参考标准将辐射剂量分次、照射野和位置与相关毒性进行了映射，并按频率和时间发作进行了细分。跨模型结果显示，模型对细微的文档变化敏感，在精确率和召回率之间存在权衡，并且系统性低估了罕见和长期副作用。单独使用时，对生成副作用数量的限制会降低精确率，而将输出建立在临床医生策划的副作用列表上则能显著提高可靠性和鲁棒性。这些发现强调了语言模型在肿瘤学中应用的重要局限性，并为更安全、信息更丰富的以幸存关怀为中心的应用提出了实用的设计选择。

##### 数据和代码可用性

本研究使用了来自两个公开来源生成的乳腺癌患者档案：（1）Chen 等人（chen2023impact）提供的合成癌症患者场景，以及（2）乳腺癌专家开发的合成乳腺癌场景（palepu2025exploring）。我们实验中使用的确切档案以及用于模型评估的真实副作用文件均在补充材料中提供。所有用于生成模型响应和评估输出的代码均可在 https://github.com/natalieseah/llm-radiation-side-effects 找到。

##### 机构审查委员会（IRB）

本研究不需要 IRB 批准。

## 1 引言

癌症筛查和治疗技术的进步导致了长期癌症幸存者人群的迅速增长，这凸显了有效治疗后护理的重要性（Tonorezos2024Prevalence）。幸存关怀包括对癌症及其治疗引起的长期身体、心理和社会影响进行持续监测、监测和管理，使得副作用的监测和管理成为其基本组成部分（Mollica2025Defining）。在美国，截至 2025 年初，估计有 1860 万人曾患癌症（wagle2025cancer），预计到 2040 年这一人群将超过 2600 万（Tonorezos2024Prevalence）。随着幸存者从肿瘤专科医生转向初级保健提供者，准确传达既往治疗及其潜在短期和长期副作用变得越来越重要，这对于起草知情同意文件和制定幸存关怀计划等特定临床任务至关重要（grunfeld2010interface;ke2024decision）。然而，临床记录系统中幸存相关信息碎片化，加上对癌症及其治疗长期影响的临床知识不足，使得向癌症幸存者成功传达最新的个性化治疗效果信息变得困难（alfano2022engaging;nekhlyudov2017integrating;nathan2013family）。

大型语言模型（LLMs）有可能总结和向癌症幸存者传达癌症治疗的影响（bitterman2024promise）。然而，它们在肿瘤学中的可靠性仍存疑问（chen2025medical）。例如，虽然语言模型可以生成流畅且看似相关的文本，但 prior work 已表明，在肿瘤学背景下，它们容易产生幻觉（yoon2025navigating）、事实不一致（singhal2023large）以及对输入措辞微小变化的敏感性（bitterman2024promise）。因此，了解当患者文档在治疗细节水平上存在差异（例如，一般提及放射治疗与特定类型或位置）时，在不同提示策略下，以及沿着副作用频率和时间发作等具有临床意义的维度上，语言模型输出的变化情况，对于评估其在肿瘤学和幸存关怀中的安全性和效用至关重要。

癌症治疗往往会引起具有临床意义的副作用，这些副作用可能严重或慢性，并可能限制治疗耐受性和长期生存率（gegechkori2017long;harrington2017late）。尽管如此，肿瘤学人力资源不足以满足这一不断扩大的幸存人群的需求（alfano2022engaging），且初级保健提供者经常报告对副作用监测和管理知识不足（vos2024primary）。患者自己也报告说获得的关于幸存问题的信息有限，包括副作用的潜在风险（ross2022still）。共同来看，这些因素使得确保患者和提供者拥有有效管理副作用和提供高质量幸存关怀所需的信息变得具有挑战性。

鉴于癌症类型、治疗和个人患者因素的广泛范围，评估所有可能的场景是不现实的。为了使问题可处理，同时解决一个临床重要的背景，我们专注于乳腺癌放射治疗。乳腺癌是美国女性中最常被诊断出的癌症，也是全球最常见的癌症之一（sung2021global;siegel2026cancer）。放射治疗是乳腺癌治疗的基石（boyages2018evolution），其副作用是长期生存和生活质量的重要驱动因素。它也高度专业化。副作用风险随辐射剂量、解剖位置和技术而变化，而且这种知识即使在其他专科的医生中也不广为人知（wang2021radiation;siau2021non）。

这凸显了对改进沟通患者特定风险以支持精准决策和个性化患者教育的需求。目前，用于教育患者和临床医生有关治疗相关副作用的工具大多缺乏（kivistik2025perceptions）。大型语言模型（LLMs）有可能填补这一空白，因为它们可以支持生成面向患者的知情同意文件，其中临床医生必须以简洁且结构化的方式清晰传达潜在治疗毒性的全谱系，包括罕见和长期效应（Shi2025Transforming）。更广泛地说，这种能力也可能支持幸存教育及临床决策制定（bitterman2024promise）。鉴于将语言模型应用于健康信息任务的兴趣日益浓厚，需要严谨的方法来评估其在此背景下的可靠性和临床效用。

在实践中，起草知情同意文件或幸存关怀计划的肿瘤学家必须准确列举患者特定治疗的潜在毒性。这是一项任务，其中遗漏罕见或长期效应会带来真实的临床后果。为了评估语言模型是否能可靠地支持这一工作流程，我们提出了一种压力测试框架，以衡量语言模型识别乳腺癌放疗副作用的准确性。鉴于足够的临床医生输入，该框架易于应用于其他癌症和治疗。我们整理了21个乳腺癌患者档案，包括他们的治疗和人口统计信息。然后，我们为每个档案创建一组扰动档案，在治疗中添加一个解剖位置，同时保持所有其他临床信息不变。执业肿瘤学家随后定义基于证据的真实副作用，将乳腺癌放射类型和解剖位置映射到其已知的副作用。每个副作用还根据其常见程度以及是否为短期或长期效应进行标注。这种结构使我们能够评估与幸存相关的区别，如罕见或延迟毒性，以及副作用准确性的指标。利用这一压力测试框架，我们评估了语言模型在多种提示策略下对输入变化的鲁棒性，包括自由形式生成、列表大小约束（即限制生成的副作用数量）以及从临床医生策划的副作用列表中选择。

我们对七种最先进的语言模型的实验揭示了模型行为中的几个一致模式。首先，精确率和召回率之间的权衡在不同模型间差异显著：一些模型生成的列表较宽泛，具有中等召回率但低精确率，而其他模型则以遗漏许多临床相关副作用为代价实现高精确率。其次，约束生成的副作用列表大小一致地降低了精确率，并对召回率产生轻微且不一致的影响。第三，语言模型往往低估罕见和长期放疗副作用的召回率，即使能可靠地捕捉常见的短期效应。第四，文档的微小变化，如指定辐射位置，会导致生成的副作用列表发生实质性变化。总体而言，在所有模型中，将输出建立在临床医生策划的副作用列表上显著提高了精确率、召回率和整体可靠性。

我们的工作做出了四项贡献。主要贡献是引入了一种用于评估语言模型在肿瘤学应用中可靠性的压力测试框架，该框架强调具有临床意义的扰动和与幸存相关的区别，而非抽象基准。该框架旨在跨模型重用，并可根据临床确立的治疗与副作用关系适应其他癌症类型。其次，我们首次进行了结构化实验评估，探讨提示策略、文档特异性以及副作用特征如何共同影响语言模型在乳腺癌放疗副作用生成中的表现。第三，我们证明将语言模型输出建立在专家策划的副作用词汇表上能显著提高可靠性，为在幸存相关信息任务中更安全地使用语言模型提供了实用的设计建议。第四，我们产生了一个公开可用的数据集，包含与肿瘤学家标注的乳腺癌放射治疗及其已知副作用集合配对的患者的档案。这些资源有助于促进这一重要领域的进一步研究，最终促进语言模型在癌症幸存信息需求方面的稳健和可靠使用。

## 2 相关工作

### 2.1 肿瘤学中的语言模型

关于人工智能和大型语言模型在肿瘤学中应用的综述强调了多种潜在应用。对于患者，语言模型被提议用于支持远程症状监测、提供心理社会支持、简化临床语言以便理解，并通过总结建议和指导随访计划来帮助导航护理（chen2025large;bitterman2024promise）。最近的研究还探讨了语言模型改善患者理解和教育的多种方式：GPT-4 可以生成临床笔记的通俗语言翻译，帮助患者理解其疾病过程和管理（kumar2025cross），其他语言模型也被用于生成保持准确性同时提高可读性、可理解性和可操作性的知情同意书（Shi2025Transforming）。

在面向临床医生的环境中，语言模型已被探索用于临床决策支持、总结文献以及从临床笔记中提取症状和不良事件（chen2025large;bitterman2024promise;ferber2025development）。例如， prior work 已表明，语言模型生成的治疗建议可以优于初级住院医师，但仍落后于经验丰富的肿瘤学家，这既展示了语言模型支持临床决策的潜力，也揭示了其当前局限性（palepu2025exploring）。除了治疗建议外，语言模型还被应用于分类治疗相关毒性并协助临床记录工作流程，表明它们可能简化临床护理的某些方面并改善对相关信息的访问，同时强调了部署前仔细验证的必要性（chen2025large;ruiz2024leveraging）。

### 2.2 肿瘤学背景下语言模型的评估

肿瘤学中语言模型的评估主要强调与既定临床知识或策划问题的比较。使用固定的一组医学考试题测试语言模型的研究表明，当前模型可以以中等至高的准确率回答肿瘤学相关问题，表现最佳的模型能够正确回答大部分问题（longwell2024performance）。然而，错误分析显示，即使整体准确率看似很高，仍存在具有临床意义的不准确之处，这强调了在解释性能指标时需要谨慎。

现有的关于肿瘤学中语言模型的综述显示，评估方法在不同研究间差异很大。研究涵盖了多样化的任务集，包括总结试验结果、生成患者教育材料以及预测治疗副作用，并依赖于各种数据源，如合成患者档案、临床笔记和结构化 EHR 数据（chen2025large;mehan2025development）。评估指标从标准的定量措施（例如，准确率、精确率/召回率）到定制的任务特定评分系统和定性评估不等（mehan2025development;carl2024large）。一项针对15种癌症类型中癌症决策制定中语言模型的全面系统综述发现，大多数研究优先考虑响应准确性和适当性，而相对较少评估安全性、潜在危害或清晰度——这些维度对于临床可靠性至关重要（hao2025large）。这些发现表明，尽管语言模型在策划任务上表现良好，但仍需要更标准化且临床现实的评估方法来评估其在现实世界肿瘤学应用中的表现（chen2025large;mehan2025development）。

尽管评估方法多种多样，但很少有研究探讨面向患者的幸存任务，如副作用信息内容生成，或系统测试模型对输入变化的鲁棒性，包括文档特异性或提示措辞。对此，我们的工作引入了一种压力测试框架来评估准确性

语言模型能否识别乳腺癌放疗的副作用？

相似文章

大型语言模型能否对检索到的信息保持审慎态度？

实验还是结果？探测大语言模型中的科学可行性

面向南非结核病诊疗的领域专用大语言模型开发与初步评估

社交媒体中因果关系提取的大型语言模型：灾害情报的验证框架

大语言模型在低资源语言人文学科研究中的机遇与挑战

提交意见反馈