面向在线患者咨询的可操作分诊分类的小样本大语言模型
摘要
本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
arXiv:2605.15680v1 公告类型:新
摘要:在线患者咨询通常是非正式的、不完整的,并且在专业评估之前书写,但仍然需要被路由到适当的临床随访级别。我们将此研究作为一个四类可操作分诊任务——自我护理、预约就诊、紧急临床审查或急诊转诊,并探究在低资源标注条件下,基于提示的大语言模型(LLMs)是否能够支持此类路由。利用公开的HealthCareMagic-100K语料库,我们构建了一个300例人工校准的金标准评估集、一个700例自动标注的银标准训练集和一个40例的小样本池。我们将基于银标准标签训练的TF-IDF(词频-逆文档频率)和BioBERT(用于生物医学文本挖掘的基于Transformer的双向编码器表示)基线,与六种基于提示的LLM分别在零样本、4样本和12样本条件下进行比较。相应地,我们使用macro-$F_1$以及安全感知指标(包括紧急召回率、低分诊率和严重低分诊率)进行评估。最强的LLM(Claude Haiku 4.5,12样本)达到了0.475的macro-$F_1$,在点估计上超过了最佳有监督基线(BioBERT,0.378),且置信区间重叠。小样本提示和双模型一致性的效果因标签而异:自我护理的一致性可靠,而紧急临床审查则不可靠。我们得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
查看缓存全文
缓存时间: 2026/05/18 06:33
# 少样本大语言模型用于在线患者咨询的可操作分诊分类 来源:https://arxiv.org/html/2605.15680 ###### 摘要 在线患者咨询通常是非正式的、不完整的,且在专业评估之前撰写,但仍然需要被路由到适当的临床随访级别。我们将此研究作为一个四类可操作分诊任务——自我护理、预约就诊、紧急临床医生复核或紧急转诊——并探究在大语言模型(LLMs)的提示下,是否能在低资源标注条件下支持此类路由。利用公开的HealthCareMagic-100K语料库,我们构建了一个包含300个示例的人工校准金标准评估集、一个包含700个示例的自动标注银标准训练集以及一个包含40个示例的少样本池。我们将基于词频-逆文档频率(TF-IDF)和用于生物医学文本挖掘的来自变换器的双向编码器表示(BioBERT)的基线模型(在银标准标签上训练)与六种提示下的大语言模型分别在零样本、4样本和12样本条件下进行比较。我们使用宏F1以及安全感知指标进行评估,包括紧急召回率、分诊不足率和严重分诊不足率。最强的大语言模型(Claude Haiku 4.5,12样本)达到宏F1为0.475,在点估计上超过了最佳监督基线(BioBERT,0.378),置信区间存在重叠。少样本提示和双模型一致性在标签依赖的方式下有所帮助:自我护理的一致性可靠,而紧急临床医生复核则不然。我们得出结论,大语言模型可以支持分诊优先排序和选择性人工复核,但不能支持自主部署。 ## 1 引言 在线患者咨询包含非结构化的症状描述、用药问题、检查结果疑虑以及寻求护理的请求。这些信息通常是在专业评估之前撰写的,可能不完整、非正式或在临床上不明确。因此,卫生系统和在线护理平台需要可扩展的方法来帮助将患者编写的消息路由到适当的随访级别。本研究侧重于可操作的分诊分类,而非诊断或治疗建议。给定一个患者咨询,任务是指定四个护理路由标签之一:自我护理、预约就诊、紧急临床医生复核或紧急转诊。此框架强调操作性问题,即何种类型的响应是合适的,而非患者患有何种疾病的临床问题。 自动分诊具有挑战性,原因有三。首先,患者撰写的文本通常缺乏关键的临床细节,如病程、严重程度、合并症、生命体征或当前护理状态。其次,高急性度病例相对罕见,但对安全至关重要。第三,诸如准确率甚至宏F1等标准聚合指标可能掩盖临床上不对称的错误。在分诊中,对紧急或急诊病例的分诊不足通常比保守的分诊过度更令人担忧,因此评估应明确测量高急性度召回率、假阴性和严重方向错误。 大语言模型(LLMs)可能对此场景有用,因为它们可以解释自由文本的症状描述,遵循标签定义,并通过提示适应,而无需针对特定任务进行微调。然而,它们对在线患者咨询分诊的价值不能想当然。先前的工作研究了临床文本分类、患者消息紧急程度、急诊科急性度评估以及基于LLM的医学自然语言处理(NLP),但关于少样本LLM在低资源、面向行动的分诊环境中(使用人工校准标签和安全感知评估)的表现知之甚少。特别是,尚不清楚提示下的LLM是否比轻量级监督基线具有实际优势,它们对提示设计的敏感程度如何,以及模型一致性是否能支持选择性人工复核。 我们利用公开的在线医疗对话数据和基于指南、人工校准的金标准评估集来解决这些问题。我们在零样本和少样本提示条件下,将监督的TF-IDF和BioBERT基线与开源及API服务的LLM进行比较。我们使用标准分类指标和安全感知的分诊指标评估模型;此外,我们分析模型不一致性作为人在环(HITL)选择性复核的信号。 我们将贡献总结如下: - •我们将在线患者咨询分诊表述为一个四类可操作路由任务,而非诊断生成或一般医学文本分类。 - •我们从公开的医疗对话数据中构建了一个基于指南、人工校准的金标准评估集,并分别划分出银标准训练集和少样本提示构建集。 - •我们将监督的TF-IDF和BioBERT基线与多个提示下的LLM在零样本、4样本和12样本设置下进行比较。 - •我们使用安全感知指标评估分诊性能,包括紧急和急诊召回率、分诊不足、严重分诊不足以及高急性度假阴性。 - •我们探索了双模型共识作为一种神谕HITL选择性预测策略,表明模型一致性是标签依赖的,不应被视为通用的自动接受信号。 ## 2 相关工作 ### 2.1 临床文本分类与分诊自然语言处理(NLP) 临床文本分类长期以来支持分诊和路由任务。在急诊科,机器学习和临床NLP已被应用于根据分诊文档和临床笔记预测急性度(Ivanov等人,2021),更广泛的综述显示了持续的兴趣,同时强调了临床环境、数据源和评估设计的异质性(Porto,2024)。另一条工作线从临床医生撰写的文档转向患者撰写的消息:Gatto等人(2022)研究了患者生成的远程医疗COVID查询中的感知严重程度,Si等人(2020)评估了基于BERT的方法在小数据环境中对患者消息分诊的效果。这些研究直接相关,因为患者撰写的文本是非正式的、不完整的,并且在专业评估之前撰写,但它们仍然是主要监督的特定任务系统,并未涉及安全感知、面向操作的路由,且未使用公开的在线医疗对话。 ### 2.2 LLM在医疗健康NLP中的应用 LLM使得零样本和少样本提示成为医疗健康NLP中针对特定任务监督训练的实际替代方案。然而,先前的证据并不支持假设提示下的LLM普遍更优。大规模生物医学NLP基准测试显示,不同任务和评估设计之间存在显著差异(Chen等人,2025),而在临床和生物医学NLP中,指令微调的LLM同样表现出任务依赖的少样本增益(Labrak等人,2024)。关于健康相关文本分类的比较研究进一步支持在共享实验框架内评估传统机器学习、监督预训练语言模型和LLM提示(Guo等人,2024)。这促使我们在相同的人工校准金标准集上比较TF-IDF基线、BioBERT和提示下的LLM,而不是将LLM性能视为不言自明的优越。 ### 2.3 LLM用于分诊和紧急程度评估 基于LLM的分诊最近成为一个活跃的研究方向,特别是在急诊急性度评估和患者消息紧急程度方面。Williams等人(2024)评估了LLM在急诊科环境中进行临床急性度评估的效果,Masanneck等人(2024)比较了LLM在急诊医学中的分诊性能,而大型回顾性急诊科评估进一步强调了在自主部署前需要谨慎(Nedos等人,2026)。在患者消息环境中,Gatto等人(2026)将紧急程度框定为异步门户消息上的成对排序问题。这些研究共同表明,LLM可能对分诊相关任务有用,但它们也强调分诊错误在临床上是不对称的,更重要的是,对紧急或急诊病例的分诊不足可能比保守的分诊过度带来更大的风险。因此,模型评估应包括安全感知的结果,如高急性度召回率、假阴性计数、分诊不足和严重分诊不足,而不仅仅是准确率或宏F1。 ### 2.4 本文定位 先前的工作主要将分诊视为急诊急性度预测(Williams等人,2024;Masanneck等人,2024;Nedos等人,2026)或患者消息的成对紧急程度排序(Gatto等人,2026)。我们则将其框定为一个四类可操作路由任务,询问患者咨询需要何种响应,而不是指示何种疾病。我们在单一人工校准金标准集上比较监督的TF-IDF和BioBERT基线与提示下的开源和API LLM,并增加了三个进一步的分析:提示敏感性、安全感知指标,以及双模型共识作为选择性预测信号。由此产生的系统定位为分诊优先排序和选择性人工复核的决策支持,而非临床医生判断的替代品。 ## 3 数据与标注 ### 3.1 源数据集 我们使用与ChatDoctor(Li等人,2023)一起发布的HealthCareMagic-100K数据集,这是一个来自HealthCareMagic.com的112,165条匿名患者-医生咨询交流的公开集合。每条记录包含一个患者咨询和一个医生回复。在本研究中,评估时仅使用患者咨询文本作为模型输入。我们选择HealthCareMagic-100K,因为它包含广泛的消费者健康咨询,而非局限于单一疾病领域。这使其比疾病特定的对话数据集(如专注于COVID-19相关咨询的CovidDialog(Zhou等人,2021))更适合一般在线分诊分类。 ### 3.2 过滤与预处理 我们首先对患者咨询文本应用质量过滤器。如果满足以下任一条件,则排除该记录: - •患者消息包含少于20个词元; - •患者消息包含超过500个词元; - •原始患者消息长度低于10个字符。 此过滤步骤移除了2,002条记录,剩下110,163条可用的患者消息。 ### 3.3 关键词分层抽样与数据划分 我们预计高急性度(如紧急转诊)病例在在线咨询数据中较为罕见,因此我们构建了一个关键词分层工作池,以增加潜在更高急性度咨询的代表性。每条记录获得一个紧急富集分数,该分数奖励患者消息中的强紧急和中等紧急关键词以及医生回复中的明确升级短语,同时惩罚暗示回顾性而非当前关注的过去时态指示词。然后,记录被分配到关键词派生桶中:自我护理富集桶、预约就诊富集桶、紧急临床医生富集桶和紧急富集桶,使用优先级排序,以便更高置信度的紧急信号优先。在每个桶内,记录按优先级分数排序(随机种子为42用于随机操作)。医生回复仅用于富集,并排除在所有模型输入之外。抽样目标是跨桶的平衡覆盖,而非平衡的最终分诊标签。完整的桶优先级规则、分数阈值和关键词列表见附录A.1。 | 划分 | 角色 | N | |---|---|---| | 银标准训练集 | 使用Claude Sonnet 4.5银标准标签进行监督模型训练 | 700 | | 金标准评估集 | 使用人工校准标签的留出评估集 | 300 | | 少样本集 | 用作上下文示例的高置信度、人工校准示例 | 40 | 表1:数据划分及其在训练和评估中的作用。 | 标签 | 行动 | 定义 | 示例线索 | |---|---|---|---| | self-care (自我护理) | 在家管理 | 可以合理地在没有临床接触的情况下管理的症状或问题,包括信息性、回顾性或低风险问题。 | 轻微、常规、自限性或已评估的问题 | | schedule-visit (预约就诊) | 常规预约 | 需要非紧急的临床医生评估、随访、用药管理或转诊。 | 持续症状、药物续方、转诊请求、非紧急的异常结果 | | urgent-clinician-review (紧急临床医生复核) | 24-48小时内复核 | 潜在严重、恶化或令人担忧的症状,需要及时的临床复核,但不明确需要急诊护理。 | 加重的疼痛、感染迹象、令人担忧的新症状、非突发的神经系统症状 | | emergency-referral (紧急转诊) | 急诊护理 | 潜在危及生命或时间紧迫的状况,需要立即的急诊评估。 | 严重胸痛、中风样症状、严重呼吸困难、虚脱、主动自杀计划 | 表2:分诊标签模式,包含定义和示例线索。 从候选池中,我们选择一个1,040条记录的工作池,并将其划分为三个互不相交的子集:一个700条记录的银标准训练集、一个300条记录的金标准评估集和一个40条记录的少样本池(表1)。由于关键词派生桶并不完美映射到可操作的分诊标签,最终的标签分布在标注和人工校准后仍然不平衡。 ### 3.4 分诊标签模式 我们将在线患者咨询分诊表述为一个四类可操作分类任务。每条咨询接收四个标签之一:自我护理、预约就诊、紧急临床医生复核或紧急转诊(表2)。目标是分配适当的临床响应级别,而非诊断病情或推荐治疗。标注指南还允许一个辅助的insufficient_info标志,用于捕获缺失或模糊的临床上下文。该标志不被视为第五个标签。最终分诊标签仅限于上述四个可操作类别。完整的标注指南见附录C。 ### 3.5 银标准、金标准和少样本标签构建 我们为四个分诊类别制定了一个结构化的标注指南,从对50个留出示例的两名研究人员试点研究开始;两名研究人员独立标注试点,然后比较决策并识别反复出现的分歧模式。该指南经过六轮修订:修订增加了“仅从文本分诊”原则、信息性与主动症状区分、信息不足标志、改进的自我护理标准、针对特殊人群和实验室结果问题的更严格边缘案例规则,以及明确的规则优先级排序。第
相似文章
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
ClinicalMC:面向大语言模型的多疗程临床决策基准
ClinicalMC是一个基准,旨在评估大语言模型在多疗程临床决策中的表现,包含中文和英文数据集以及一个多智能体评估框架。
周三提问:优化自动化法律分诊与转介中的“积极倾听”
本文介绍了FETCH分类器,它使用大型语言模型集成来为自动化法律受理生成跟进问题,评估问题质量和成本权衡。研究发现,需要GPT-5等高成本模型才能提出有效的平实语言问题,并提出了评估此类问题的评分标准。
ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理
ChatHealthAI 是一个多模态推理框架,它将结构化 EHR 表示与冻结的 LLM 对齐,从而在保持预测性能的同时实现基于临床的推理。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。