比较不同提示复杂度下LLM与微调模型在NVDRS场景提取中的性能
摘要
介绍了一种“复杂度评分”算法,用于确定详细提示何时能提升LLM从NVDRS叙述中提取自杀场景的性能,发现LLM在罕见场景上优于微调模型,并提出一种混合方法。
查看缓存全文
缓存时间: 2026/05/22 08:44
# 比较 LLM 与微调模型在 NVDRS 情境提取中的性能:不同提示复杂度的分析 来源:https://arxiv.org/html/2605.21845 Geoffrey Martin 威尔康奈尔医学院,人口健康科学系,纽约,美国 康奈尔大学,系统工程系,纽约,美国 Yifan Peng 威尔康奈尔医学院,人口健康科学系,纽约,美国 康奈尔大学,系统工程系,纽约,美国 通讯作者。电子邮箱:[email protected] (https://arxiv.org/html/2605.21845v1/[email protected]) ###### 摘要 自杀是美国的主要死因之一,理解自杀前的情境需要从死亡调查叙事中提取结构化信息。其中许多情境需要超越简单关键词匹配的语义推断。我们开发了一种“复杂度评分”算法,通过分析编码手册结构来预测何时详细的提示(包含完整编码指南)优于仅名称提示。然后,我们构建了一种混合方法,为每个情境选择提示策略。我们评估了大语言模型(LLM)与微调后的 RoBERTa 在从国家暴力死亡报告系统(NVDRS)中提取 25 个推理复杂度较高的情境上的表现。我们发现,在训练数据不足的低患病率情境中,LLM 显著优于微调模型。我们进一步证明,该框架可以泛化到前沿 LLM,GPT-5.2、Gemini 2.5 Pro 和 Llama-3 70B 均表现出一致的性能模式。这些发现支持了一种混合架构:LLM 处理罕见、推理复杂的情境,而微调模型处理常见情境。 ###### 关键词: 健康社会决定因素 自杀预防 大语言模型 自然语言处理 NVDRS ## 1 引言 国家暴力死亡报告系统(NVDRS)是美国唯一一个基于州的监测系统,它将暴力死亡事件中的死亡证明、验尸官/法医报告和执法报告的数据联系起来[1 (https://arxiv.org/html/2605.21845#bib.bib18)]。自 2003 年起,训练有素的抽象员从每个案例的自由文本叙事(称为死亡调查报告)中手动编码超过 60 个情境变量,为自杀风险因素的流行病学研究创建了丰富的数据集[16 (https://arxiv.org/html/2605.21845#bib.bib30)]。然而,人工抽象耗时且存在评估者间变异[18 (https://arxiv.org/html/2605.21845#bib.bib14)],而美国疾病控制与预防中心的预算受限威胁着这一编码工作的可持续性[6 (https://arxiv.org/html/2605.21845#bib.bib4)]。从死亡调查报告中自动提取情境可以在保持数据质量的同时减轻抽象员负担。 近期的研究越来越多地应用自然语言处理(NLP)从临床文本中提取健康社会决定因素(SDOH)[12 (https://arxiv.org/html/2605.21845#bib.bib3),11 (https://arxiv.org/html/2605.21845#bib.bib6),2 (https://arxiv.org/html/2605.21845#bib.bib7)]。像 SDoHO 这样的本体框架为表示社会因素提供了结构化词汇[4 (https://arxiv.org/html/2605.21845#bib.bib16)],而基于 Transformer 的模型在从电子健康记录中提取 SDOH 方面已取得强劲表现[3 (https://arxiv.org/html/2605.21845#bib.bib8),8 (https://arxiv.org/html/2605.21845#bib.bib2),14 (https://arxiv.org/html/2605.21845#bib.bib5)]。最近,大语言模型显示出特别的前景。例如,Guevara 等人[7 (https://arxiv.org/html/2605.21845#bib.bib36)] 证明了 GPT-4 在从临床笔记中提取诸如住房和就业等 SDOH 类别方面表现强劲。Consoli 等人[3 (https://arxiv.org/html/2605.21845#bib.bib8)] 证明了 LLM 能够捕捉到基于规则的系统遗漏的细微社会因素。此外,Gabriel 等人[5 (https://arxiv.org/html/2605.21845#bib.bib9)] 验证了基于 LLM 的分类器在临床社会需求筛查中的应用,Keloth 等人[8 (https://arxiv.org/html/2605.21845#bib.bib2)] 显示 LLM 可以在最少调整的情况下跨多个机构提取 SDOH。这些研究共同表明,LLM 可以从临床叙事中提取社会因素,但主要集中于目标概念明确陈述的、相对直接的 SDOH 类别(例如,“患者无家可归” → 住房不稳定),而将推理复杂和低患病率的情境留待进一步探索。 对于 NVDRS 而言,Wang 等人[17 (https://arxiv.org/html/2605.21845#bib.bib1)] 微调了 BioBERT 用于 NVDRS 情境提取,在高患病率类别上表现强劲,但在罕见情境以及需要多步推理的情境上效果不佳。Xu 等人[19 (https://arxiv.org/html/2605.21845#bib.bib10)] 扩展了这项工作,分析了不同人群群体中的社会因素。然而,微调分类器在处理此类情境时存在困难,因为它们学习的是表面模式而不是底层的推理规则[13 (https://arxiv.org/html/2605.21845#bib.bib31)]。监督模型需要足够的样本才能学习每个类别的决策边界,而许多 NVDRS 情境的正例数量少于 1000 个。 NVDRS 死亡调查报告中编码的情境对 NLP 提出了更具挑战性的提取任务,因为许多情境需要超出表面模式匹配的语义推断——文本描述了一种情况,但抽象员必须推理这种情况在特定语境下意味着什么[15 (https://arxiv.org/html/2605.21845#bib.bib15)]。例如,“家庭物质滥用”这一情境仅在满足三个条件时才被编码:(1) 受害者是 18 岁以下的儿童,(2) 物质使用必须涉及受害者以外的其他人,并且 (3) 该人居住在同一家庭中。因此,模型看到“在家中发现酒精瓶”时,必须推断出对于成年受害者而言,这反映了受害者自身的使用,并不符合“家庭物质滥用”的编码标准。类似地,“照护者负担”需要角色推断:诸如“妻子患有晚期癌症”这样的陈述意味着受害者正在提供照护,而不是接受照护。 为了应对这些挑战,我们假设 LLM 凭借其零样本推理能力[9 (https://arxiv.org/html/2605.21845#bib.bib32)],在需要深层语义推断的情境上优于微调模型,尤其是在训练数据稀缺时。我们提出一个包含三个组件的框架:(1) 从 NVDRS 编码手册中提取定义、编码指南和示例,以构建详细的提示;(2) 开发一种复杂度评分算法,通过分析编码手册示例的结构来预测何时需要详细提示,何时只需简单的仅名称提示即可满足要求;(3) 构建一种混合方法,使用复杂度评分为每个情境选择提示策略,无需为每个任务进行经验性调优。 我们评估了所提出的框架在 NVDRS 中提取 25 个推理复杂情境的效果。我们的混合方法在宏观 F1 上达到 0.893,而微调的 RoBERTa 为 0.800,提升最大的方面在于低患病率情境。我们比较了 GPT-5.2、Gemini 2.5 Pro 和 Llama-3 70B,观察到所有三种前沿 LLM 的一致性能模式,表明我们的框架是模型无关的。在被预测需要详细指导的情境中,复杂提示相比仅名称提示将 F1 提高了 9.5 个百分点,而复杂度评分算法在非平局情境中预测最优提示策略的准确率达到 87%。 ## 2 材料与方法 ### 2.1 框架概述 我们的框架利用 NVDRS 编码手册来指导提示的构建和选择。对于每个情境,我们首先从手册中提取定义、编码指南以及正例和反例。然后,我们基于反例的语言结构计算一个“复杂度评分”,该评分识别出 LLM 的默认解释在没有明确指导的情况下可能产生误报的情境。如果复杂度评分超过预设阈值,我们就使用包含完整编码指南的复杂提示;否则,我们使用仅包含情境名称的简单提示。这种混合方法会自动实时选择适当的提示。 ### 2.2 数据集与情境选择 我们使用了 NVDRS 的受限访问死亡调查报告[1 (https://arxiv.org/html/2605.21845#bib.bib18)]。每份报告结合了每个自杀案例的验尸官/法医(CME)和执法(LE)叙事。我们的数据集包含 191,696 条叙事。 为了隔离那些在 NVDRS 编码指南下需要语义推断的情境,我们排除了可以通过关键词匹配或强词汇线索提取的情境(例如,由“抑郁”或“精神分裂症”等术语指示的“心理健康问题”),以及需要超出我们当前范围的时间推理的危机时机变量。 最终分析集中在需要语义推断的 25 个情境上。选择这些情境是因为它们涉及“实体解析”(确定受影响的是谁)、“角色推断”(理解关系方向性)或“隐含推理”(识别描述的情况暗示了未明确陈述的情境,或应用非显而易见的排除标准)。 ### 2.3 提示策略 我们基于 NVDRS 编码手册开发了两种提示方法。我们使用一个 LLM(本研究使用 GPT-5.2)从手册中为每个情境提取结构化信息:定义、指定包含和排除标准的详细编码指南,以及应该和不应该编码的典型案例。这些信息填充到我们的复杂提示模板中。 **简单提示**(提示 1)仅使用情境名称,测试 LLM 的世界知识是否足以在没有任务特定指导的情况下完成任务。 [⬇](data:text/plain;base64,WW91IGFyZSBjbGFzc2lmeWluZyBkZWF0aCBpbnZlc3RpZ2F0aW9uIG5hcnJhdGl2ZXMgZm9yIHRoZSBwcmVzZW5jZSBvZiBzcGVjaWZpYyBjaXJjdW1zdGFuY2VzLgoKQ29kZSAiWWVzIiBpZiB0aGUgY2lyY3Vtc3RhbmNlIGlzIG1lbnRpb25lZCwgaW1wbGllZCwgb3IgY2FuIGJlIHJlYXNvbmFibHkgaW5mZXJyZWQgZnJvbSB0aGUgbmFycmF0aXZlLgpDb2RlICJObyIgaWYgdGhlcmUgaXMgbm8gbWVudGlvbiBvciBpbmRpY2F0aW9uIG9mIHRoZSBjaXJjdW1zdGFuY2UuCgpXaGVuIGluIGRvdWJ0LCBjb2RlICJZZXMiLgoKLS0tCgpJcyB0aGVyZSBhbnkgbWVudGlvbiBvZiAie2NpcmN1bXN0YW5jZV9uYW1lfSIgaW4gdGhpcyBuYXJyYXRpdmU/CgotLS0KTkFSUkFUSVZFOiB7bmFycmF0aXZlfQotLS0KCkVWSURFTkNFOiBbUXVvdGUgcmVsZXZhbnQgdGV4dCwgb3IgIk5vbmUgZm91bmQiXQpGSU5BTCBDT0RJTkc6IFtZZXMgb3IgTm9d)您正在对死亡调查报告进行分类,以判断是否存在特定情境。如果情境在叙事中被提及、暗示或可以合理推断,则编码“是”。如果没有提及或指示该情境,则编码“否”。如有疑问,编码“是”。 --- 此叙事中是否提及“{情境名称}”? --- 叙事:{叙事} --- 证据:[引用相关文本,或“未发现”] 最终编码:[是或否] **复杂提示**(提示 2)包含情境定义、带有包含/排除标准的详细编码指南,以及正例和反例([…] 表示因空间而截断)。这为模型提供了应用 NVDRS 编码规则所需的完整上下文。 [⬇](data:text/plain;base64,Wy4uLl0KCklzIHRoZXJlIGFueSBtZW50aW9uIG9mICJ7Y2lyY3Vtc3RhbmNlX25hbWV9IiBpbiB0aGlzIG5hcnJhdGl2ZT8KCkRFRklOSVRJT046IHtudmRyc19kZWZpbml0aW9ufQpDT0RJTkcgR1VJREFOQ0U6IHtkZXRhaWxlZF9ndWlkYW5jZX0KRVhBTVBMRVMgLSBDT0RFICJZRVMiOiB7cG9zaXRpdmVfZXhhbXBsZXN9CkVYQU1QTEVTIC0gQ09ERSAiTk8iOiB7bmVnYXRpdmVfZXhhbXBsZXN9CgpOQVJSQVRJVkU6IHtuYXJyYXRpdmV9ClsuLi5d)[…] 此叙事中是否提及“{情境名称}”? 定义:{nvdrs 定义} 编码指南:{详细指南} 示例 - 编码“是”:{正例} 示例 - 编码“否”:{反例} 叙事:{叙事} […] ### 2.4 复杂度评分 我们开发了一种启发式算法,从编码手册结构中预测适当的提示策略(复杂 vs. 简单)(算法 1 (https://arxiv.org/html/2605.21845#algorithm1))。该算法根据编码手册中“编码为否”示例的语言特征为每个情境打分,识别那些描述与目标类别一致但应被排除的场景。高分表明 LLM 的默认解释很可能产生误报,因此需要 NVDRS 编码指南中明确的纠正指导。 **输入**:编码手册中的“编码为否”示例列表 **输出**:预测情境提取复杂度的得分 得分 ← 0 positive_words ← {“使用”,“有”,“是”,“搬家”,“争吵”,“问题”,“病史”,“提到”,“发生”,“滥用”,“压力源”} 对于每个示例(在“编码为否”示例中): has_positive ← 示例中是否包含任何 positive_words 中的词 has_but ← 示例中是否包含“但” 如果 has_positive 且 has_but: 得分 ← 得分 + 3 否则如果 has_positive: 得分 ← 得分 + 2 如果“使用那个”或“使用其他”在示例中: 得分 ← 得分 + 1 如果示例以“否”开头且单词数 < 5: 得分 ← 得分 - 1 返回 得分 **算法 1 复杂度评分** 评分规则量化了每种排除类型在没有明确指导时导致误报的可能性。将积极语言与“但”结合的“否”示例获得 +3 分(例如,“不断争吵但没有具体事件”),因为它们部分匹配类别但在特定标准上失败,是最难正确分类的。仅积极语言获得 +2 分(例如,“受害者有财务困难”),因为提到了相关事项但不应编码。类别重定向在手册明确指导编码员使用不同情境时获得 +1 分(例如,“亲密伴侣冲突应编码为亲密伴侣问题,而不是其他关系问题”)。这些表示相似情境重叠的边界情况。简单缺失获得 -1 分(例如,“无财务困难。”)。与复杂排除不同,这些直接说明情境不存在,无需推断;主要由此类示例组成的编码手册表示直接分类。 在本研究中,我们将决策阈值设为 2,得分高于 2 的情境使用复杂提示,得分等于或低于 2 的情境使用简单(仅名称)提示。 ### 2.5 实验设置 NVDRS 数据高度不平衡,某些情境在 191,696 条叙事中只有不到 100 个正例。为了公平评估精确率和召回率,我们使用了平衡采样。对于每个情境,我们从每条叙事中均匀采样 200 条(100 条正例,100 条反例)用于评估。所有模型都在相同的采样集上进行评估,以便直接比较。我们报告精确率、召回率和 F1 分数,并附带 95% Wilson 置信区间[10 (https://arxiv.org/html/2605.21845#bib.bib37)]。 我们比较了五个模型。**RoBERTa** 被微调为多标签分类器,在 191,696 条叙事上使用二元交叉熵损失和与标签频率成反比的类别权重。训练使用了学习率 10⁻⁵,批量大小 12,最大序列长度 512,采用早停法。
相似文章
大语言模型可通过正确提示更好地捕捉人类判断
本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。
基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用
本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据
本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。
HyperLens:利用细粒度置信度轨迹量化大型语言模型的认知努力
本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。