基于知识引导扰动增强生物医学出版物类型与研究设计分类的鲁棒性
摘要
本文提出了一种针对生物医学出版物类型和研究设计分类的鲁棒评估框架及训练策略,利用知识引导的扰动来降低模型对虚假特征的依赖。
查看缓存全文
缓存时间: 2026/05/13 06:13
# 基于知识引导扰动实现稳健的生物医学文献类型与研究设计分类
来源: https://arxiv.org/html/2605.11502
Shufan Ming1, Joe D\. Menke1, Neil R\. Smalheiser1,2, Halil Kilicoglu1 1美国伊利诺伊大学厄巴纳-香槟分校, 美国 2美国伊利诺伊大学芝加哥分校, 美国
###### 摘要
准确且一致地按文献类型和研究设计对生物医学文献进行索引,对于支持证据综合和知识发现至关重要。以往关于自动化文献类型和研究设计索引的工作主要集中在扩展标签覆盖率、丰富特征表示以及提高域内(in-domain)准确率上,评估通常在来自与训练数据相同分布的数据上进行。尽管预训练的生物医学语言模型在这些设置下表现强劲,但针对域内准确率优化的模型可能会依赖浅层的词汇或特定于数据集的线索,导致在分布偏移下鲁棒性降低。在本研究中,我们引入了一种基于受控语义扰动的评价框架,以评估文献类型分类器的鲁棒性,并研究了结合实体掩码和域对抗训练的鲁棒性导向训练策略,以减轻对虚假主题相关性的依赖。我们的结果表明,当鲁棒性目标被设计为选择性抑制非任务定义特征同时保留显著的方法论信号时,通常观察到的鲁棒性与域内准确率之间的权衡可以得到缓解。我们发现,这些改进源于两种互补机制:(1) 当输入中存在此类线索时,增加对显式方法论线索的依赖;(2) 减少对虚假领域特定主题特征的依赖。这些发现强调了在文献类型和研究设计分类中进行特征级鲁棒性分析的重要性,并表明细化掩码和对抗目标以更选择性地抑制主题信息可能进一步改善鲁棒性。数据、代码和模型可在 https://github.com/ScienceNLP-Lab/MultiTagger-v2/tree/main/ICHI 获取。
## I 引言
随着每天添加到 PubMed 的生物医学文献迅速增长,研究人员和临床医生在努力跟上新兴的生物医学知识时,高效获取相关信息变得越来越具有挑战性。生物医学出版物包含大量信息,这些信息构成了知识发现和证据综合等关键下游应用的基础。因此,对这些出版物进行准确且一致的索引是实现此类研究和促进明智临床决策的基本前提。美国国家医学图书馆(NLM)已启动工作,使用医学主题词表(MeSH)和文献类型(PT)元数据自动索引 MEDLINE 中的文章\[29 (https://arxiv.org/html/2605.11502#bib.bib14)\]。几十年来,通过 NLM 的医学文本索引器\[3 (https://arxiv.org/html/2605.11502#bib.bib2)\]计划,在更一致和准确的 MeSH 索引方面取得了实质性进展。早期方法依赖于术语匹配,随后采用语义搜索方法,旨在消除复杂生物医学术语的同义词和缩写的歧义\[17 (https://arxiv.org/html/2605.11502#bib.bib11)\]。最近,微调基于 Transformer 的模型如 PubMedBERT\[13 (https://arxiv.org/html/2605.11502#bib.bib18)\]已成为主导范式,以 BERTMeSH\[41 (https://arxiv.org/html/2605.11502#bib.bib10)\]等系统为例,它们利用从大规模生物医学语料库中学到的丰富上下文表示,实现了卓越的索引性能。
虽然 MeSH 主题索引受到了广泛关注,并且非常适合按主题检索生物医学文献,但按方法论设计(反映研究如何进行,例如随机对照试验、队列研究)以及按文献类型(例如病例报告)对生物医学出版物进行索引,尽管其重要性,却相对缺乏探索。自动标记文献类型和研究设计(在此统称为 PTs)可以加速面向方法的文献检索,以及下游证据综合任务,如系统评价和荟萃分析,在这些任务中,评审人员经常花费无数小时手动筛选文章\[7 (https://arxiv.org/html/2605.11502#bib.bib4),34 (https://arxiv.org/html/2605.11502#bib.bib3)\]。例如,RCT Tagger\[9 (https://arxiv.org/html/2605.11502#bib.bib5)\]有助于识别文章是否描述了随机对照试验。这种自动识别对于循证医学(EBM)\[33 (https://arxiv.org/html/2605.11502#bib.bib29)\]中检索初级证据很有价值。基于这一系列工作,先前的研究引入了 MultiTagger,这是一种基于 SVM 的多标签系统,为 50 种 PT 分配预测分数\[8 (https://arxiv.org/html/2605.11502#bib.bib13)\]。最近的研究进一步使用基于 Transformer 的编码器模型扩展了这一方向\[21 (https://arxiv.org/html/2605.11502#bib.bib1),22 (https://arxiv.org/html/2605.11502#bib.bib9)\](例如,PubMedBERT\[13 (https://arxiv.org/html/2605.11502#bib.bib18)\], SPECTER2\[35 (https://arxiv.org/html/2605.11502#bib.bib45)\])。
先前的研究表明,深度学习模型经常依赖训练数据中存在的虚假相关性或表面线索,限制了它们泛化到此类关联不再成立的未见分布的能力\[27 (https://arxiv.org/html/2605.11502#bib.bib17)\]。因此,在现实世界部署中,文献类型和研究设计分类中的模型鲁棒性至关重要,其中相同的基础研究设计可能出现在不同的临床领域(例如,足病学与眼科学),并随着时间推移使用不同的生物医学术语进行描述。
鲁棒性评估涵盖了多个概念,具体取决于应用上下文和考虑的分布变化类型\[36 (https://arxiv.org/html/2605.11502#bib.bib54)\]。在 PT 分类中,标签旨在反映研究的方法论属性,而不是其主题生物医学内容或特定实体提及。遵循将鲁棒性概念化为在文本扰动下模型预测不变性的先前工作\[37 (https://arxiv.org/html/2605.11502#bib.bib51)\],本研究将鲁棒性定义为 PT 分类器在主题偏移下通过依赖方法特定信号而非主题捷径来保持正确预测的能力。
参见说明图 1:基线模型针对 PMID 30127137 的显著性可视化,说明了对 Randomized Controlled Trial Humans(预测概率 = 0.452)的假阴性预测。为了评估 Menke 等人\[22 (https://arxiv.org/html/2605.11502#bib.bib9)\]报告的模型在多大程度上利用其预测中的方法论信号,我们使用基于梯度的显著性映射\[4 (https://arxiv.org/html/2605.11502#bib.bib26)\]分析标记级重要性归因,该映射通过 Captum\[16 (https://arxiv.org/html/2605.11502#bib.bib27)\]实现。图 1 (https://arxiv.org/html/2605.11502#S1.F1)展示了一个例子,其中分配给主题术语的大量注意力稀释了核心方法论指标(例如,“randomized”和“prospective”)的相对贡献,导致即使明确陈述了随机研究设计,也会出现假阴性预测。这种行为促使我们对现有 PT 分类器的鲁棒性进行系统调查,并开发鼓励模型优先考虑方法定义信号而非主题相关性的训练策略。
我们的研究调查以下研究问题:
1. 1\. RQ1:PT 分类器对保持研究设计和文献类型语义的受控语义偏移有多敏感?
2. 2\. RQ2:我们能否减少对领域特定词汇线索的依赖,从而在不降低域内预测性能的情况下提高鲁棒性?
3. 3\. RQ3:哪种鲁棒性导向的训练策略——域对抗训练、掩码实体训练或其组合——在鲁棒性和域内性能之间取得了最佳权衡?
我们的贡献包括:
1. 1\. 为解决 RQ1,我们提出了一种知识引导的语义扰动框架,以系统评估 PT 分类器在保持方法论含义的受控语义偏移下的敏感性。
2. 2\. 为解决 RQ2,我们开发并评估了鲁棒性导向的训练策略,并检查减少对领域特定词汇线索的依赖是否能在不降低干净域内数据上预测性能的情况下,提高对语义扰动的鲁棒性,相对于 Menke 等人\[22 (https://arxiv.org/html/2605.11502#bib.bib9)\]报告的模型(称为基线)。
3. 3\. 为解决 RQ3,我们分析了域对抗训练和掩码实体训练如何影响模型对主题特征与方法论特征的依赖,并评估它们的组合能否缓解 PT 分类中的鲁棒性-准确性权衡。
## II 相关工作
近年来,评估生物医学 NLP 模型的鲁棒性日益受到关注。早期研究在对抗性和噪声扰动下检查了 BioBERT、PubMedBERT 和其他特定领域模型在多个生物医学 NLP 任务中的鲁棒性,表明即使是微小的词或字符级变化也会导致性能大幅下降\[24 (https://arxiv.org/html/2605.11502#bib.bib34)\]。同样,先前的研究表明,在生物医学命名实体识别和语义文本相似性任务中替换医学同义词会导致准确性显著下降\[1 (https://arxiv.org/html/2605.11502#bib.bib38)\]。
对抗训练已被广泛探索,以提高 NLP 模型对分布偏移和输入扰动的鲁棒性\[20 (https://arxiv.org/html/2605.11502#bib.bib36),12 (https://arxiv.org/html/2605.11502#bib.bib22)\]。例如,一项研究\[24 (https://arxiv.org/html/2605.11502#bib.bib34)\]通过混合噪声和实体交换的对抗样本以及干净输入来增强训练数据。在这种增强数据上训练的模型表现出对扰动测试输入的改进鲁棒性,并在干净数据上实现了 2% 的准确性提高。遵循类似的思想,实体掩码策略已被探索为减少对虚假词汇线索依赖的互补方法。例如,Pergola 等人\[30 (https://arxiv.org/html/2605.11502#bib.bib39)\]使用实体感知掩码策略微调生物医学 QA 模型,其中实体提及被替换为其语义类型或通用占位符。这种方法在 CovidQA\[23 (https://arxiv.org/html/2605.11502#bib.bib7)\]和 BioASQ\[18 (https://arxiv.org/html/2605.11502#bib.bib8)\]等数据集上取得了最先进的性能,展示了增强的上下文理解和语义鲁棒性。另一项工作引入了一个辅助域分类器,通过梯度反转层与主任务分类器联合训练,鼓励学习到的表示在不同领域之间变得不可区分,从而强制域不变性\[10 (https://arxiv.org/html/2605.11502#bib.bib19)\]。
NLP 中的先前列鲁棒性工作主要集中于减轻由域偏移引起的虚假相关性,例如数据来源、体裁或时间的变化\[6 (https://arxiv.org/html/2605.11502#bib.bib12)\],或由同义词替换或基于噪声的扰动引入的表面级词汇变化\[38 (https://arxiv.org/html/2605.11502#bib.bib6)\]。虽然这些研究评估了模型预测在分布或词汇变化下是否保持稳定,但它们通常不明确分析模型依赖哪些输入特征或信号来产生和维持正确预测。
相比之下,我们的工作专注于 PT 分类特有的挑战:方法定义信号通常与主题特定实体纠缠在一起,这些实体可能在统计上与目标标签相关,但并不一定指示研究设计。除了评估预测稳定性外,我们还分析了鲁棒性导向的训练如何重新分配模型对方法定义线索和主题特定特征之间的注意力,为鲁棒性改进发生的时间和原因提供特征级解释。
表 I:应用于原始文本的三种类型的扰动(PMID: 10050264)。操作句子原文饮食因素被广泛研究作为结直肠癌的风险因素,大量信息来自病例对照研究。同义词替换(例如,colorectal cancer→large intestine cancer)饮食因素被广泛研究作为大肠癌的风险因素,大量信息来自病例对照研究。概念替换(例如,colorectal cancer→an advanced bladder cancer)饮食因素被广泛研究作为恶性膀胱顶部IV期肿瘤的风险因素,大量信息来自病例对照研究。同义词/概念替换 + EDA(删除“Dietary”和“bladder stage”)因素被广泛研究作为恶性膀胱顶部IV期肿瘤的风险因素,大量信息来自病例对照研究。
## III 材料与方法
### III-A 任务公式化
给定输入文档 $x$(例如,生物医学文章摘要),模型预测一组 PT 标签 $y$。模型在样本 $(x,y) \sim \mathcal{D}$ 上训练和评估,并通过对扰动输入 $(x',y) \sim \mathcal{D}' \neq \mathcal{D}$ 上的模型行为进行评估来评估鲁棒性,这些输入保持任务相关的语义,遵循\[37 (https://arxiv.org/html/2605.11502#bib.bib51),12 (https://arxiv.org/html/2605.11502#bib.bib22)\]中的标准鲁棒性评估设置。
### III-B 数据集
该数据集最初由 Menke 等人\[22 (https://arxiv.org/html/2605.11502#bib.bib9)\]引入,包含 166,192 篇文章,分为训练集(70%, $n=116,368$)、验证集(10%, $n=16,619$)和测试集(20%, $n=33,205$),所有拆分具有相似的类分布。每个实例由从 PubMed 提取的多个文档级特征(例如,标题、期刊、关键词和化学物质)的 verbalization 构建,并与文章标题和摘要连接。
### III-C 基线模型
基线模型建立在 SPECTER2-base\[35 (https://arxiv.org/html/2605.11502#bib.bib45)\]之上,并使用带有标签平滑\[26 (https://arxiv.org/html/2605.11502#bib.bib46)\]的非对称损失(ASL)\[32 (https://arxiv.org/html/2605.11502#bib.bib16)\]优化多标签分类,以解决类别不平衡并提高模型校准。为了增强表示学习,训练目标进一步结合了 HeroCon\[42 (https://arxiv.org/html/2605.11502#bib.bib47)\],这是一种监督对比学习损失,以及无监督对比损失 ADjusted InfoNCE(ADNCE)\[40 (https://arxiv.org/html/2605.11502#bib.bib48)\],通过加权聚合与主要标签损失(ASL)结合。该模型作为我们分析和后续改进的基线。所有基线超参数遵循 Menke 等人\[22 (https://arxiv.org/html/2605.11502#bib.bib9)\]报告的配置。在以下部分中,我们首先评估相似文章
用于评估知识图谱构建方法和图神经网络的统一基准
本文介绍了一个统一的基准测试,旨在评估图神经网络在基于文本构建的噪声知识图谱上的鲁棒性,以及生物医学领域图构建方法的有效性。
模型选择在因果推断中的关键作用:基于InferBERT框架的药物警戒分类模型比较分析
本文系统评估了InferBERT框架中分类模型选择对因果不良药物事件检测的影响,发现领域特定预训练(BioBERT)优于简单模型及Med-LLaMA等大型语言模型。
表格基础模型在微生物组数据的真实查询分布偏移下是否鲁棒?
本文评估了表格基础模型在微生物组数据中受生物学启发的分布偏移下的鲁棒性,发现保护判别特征不足以保证稳定性,且零填充是最有害的扰动。
生物医学二分类中不平衡处理方法的系统评估
本文系统评估了五种不平衡处理方法(RUS、ROS、SMOTE、重加权、直接F1优化)在三个生物医学数据集(表格、文本、图像)上使用不同复杂度模型的效果。结果表明,收益取决于模型复杂度和数据模态,其中ROS、重加权和直接F1优化对非结构化数据上的复杂模型有效。
不同扰动类型之间对抗鲁棒性的迁移
# 不同扰动类型之间对抗鲁棒性的迁移 来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要 我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动,但这些并不能捕捉所有t