治疗药物-疾病关系的适用条件提取

arXiv cs.AI 论文

摘要

本文介绍了从生物医学文献中提取治疗药物-疾病关系适用条件的任务,创建了一个手动标注的三元组数据集,并提出了一种增强LoRA的方法,该方法优于现有基线方法。

arXiv:2606.14031v1 Announce Type: new 摘要:识别某种药物对目标疾病产生治疗效果的条件对于临床决策支持至关重要。然而,大多数现有的生物医学信息提取方法仅关注识别药物与疾病之间的关系,而很大程度上忽略了这些关系适用的具体上下文条件。为了解决这个问题,我们引入了从生物医学研究文献中提取治疗药物-疾病关系适用条件的任务。我们创建了第一个在生物医学论文摘要上手动标注药物、疾病和适用条件三元组的数据集,包含1,119个药物-疾病对。利用该数据集,我们系统地评估了一系列现有方法的性能。此外,我们提出了一种新方法,增强了LoRA以考虑药物与疾病之间的关系。我们的方法在不同评估设置下始终优于强基线方法。本文的源代码和数据集可以从以下地址获取:https://github.com/guantingluo98/Drug-ACE
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:10

# 治疗性药物-疾病关系的适用条件提取
来源:https://arxiv.org/html/2606.14031

Guanting Luo¹,², Noriki Nishida², Yuji Matsumoto²,⁴, Yuki Arase³,²  
¹大阪大学 ²理化学研究所 ³东京科学大学 ⁴东北大学  
[email protected], [email protected], [email protected], [email protected]

###### 摘要

识别某种药物对目标疾病产生治疗效果的适用条件,对于临床决策支持至关重要。然而,现有的大多数生物医学信息提取方法仅关注识别药物与疾病之间的关系,而很大程度上忽略了这些关系所适用的具体上下文条件。为解决这一问题,我们提出了从生物医学研究文献中提取治疗性药物-疾病关系适用条件的任务。我们构建了首个数据集,在生物医学论文摘要上人工标注了药物、疾病和适用条件的三元组,共包含 1,191 个药物-疾病对。利用该数据集,我们系统评估了一系列现有方法的性能。此外,我们提出了一种新方法,增强 LoRA 以考虑药物与疾病之间的关系。我们的方法在不同评估设置下均持续优于强基线。本文的源代码和数据集可从以下地址获取:https://github.com/guantingluo98/Drug-ACE

---

## 1 引言

治疗性药物-疾病关系在临床实践和生物医学研究中占据核心地位,是治疗方案选择和循证医学决策的基础。然而,在真实临床环境中,药物的适用性很少对所有患者群体普遍成立。药物能否有效治疗某种疾病,往往取决于具体的患者特征和情境因素,反映了患者群体显著的异质性。因此,识别药物能够有效且安全地应用于治疗目标疾病的条件至关重要。这些适用条件对于将生物医学证据转化为实际临床决策,以及准确解读生物医学研究文献中报告的治疗主张,都是关键所在。然而,尽管在药物-疾病关系提取方面已有大量研究(Wei 等,2016;Nguyen 和 Verspoor,2018;Bonner 等,2022;Luo 等,2022;Wang 等,2024),此类适用条件提取的研究却鲜有涉及。

**注释实例示例**

**标题:** 羟基脲在 D 期前列腺癌中的应用:一项初步研究。

**摘要:** 13 例经组织学证实为转移性前列腺腺癌的患者接受治疗,每三天单次口服剂量为 80 mg/kg 的羟基脲(根据理想体重或实际体重,取较小值),以及每天 12.5 mg 的三对甲氧苯氯乙烯。毒性反应轻微。最常见表现为恶心、偶发性呕吐、白细胞减少。明确尝试将白细胞计数抑制至约 2,000 个细胞/立方毫米。除非白细胞计数降至 2,000 个细胞/立方毫米以下,否则不停止使用羟基脲;此后通常省略单次剂量。省略单次剂量可使白细胞计数迅速恢复至 2,000 个细胞/立方毫米以上。13 例患者中有 6 例显示客观肿瘤消退,所有患者的生活质量均有明显改善。

**药物-疾病对:** (羟基脲,前列腺腺癌)

**适用条件:** “每三天单次口服剂量为 80 mg/kg 的羟基脲”

**条件类型:** 剂量

**图 1:** Drug-ACE 数据集中一个注释实例的示例。

在生物医学研究文献中,治疗证据往往以有条件的方式报告,而非普遍适用的结论(Lu,2011)。药物的有效性通常受到特定条件的限定,例如剂量、患者人群、生理特征、合并症或遗传背景。这些条件反映了患者固有的多样性和疾病机制的复杂性,对于准确解读治疗主张至关重要(Weinshilboum 和 Wang,2017)。然而,此类适用条件很少在文档中以明确的方式陈述(图 1)。相反,它们常常分散在多个句子中,嵌入更广泛的实验或临床描述中,并通过语境化的证据以隐含方式表达。因此,理解治疗的适用性需要对冗长且细微的文本语境进行推理。尽管生物医学信息提取取得了显著进展,但大多数现有研究主要集中于识别生物医学实体之间是否存在某种关系(Roy 和 Pan,2021;Jin 等,2022;Xiao 等,2024),或提取诸如不良反应等特定现象(Alimova 和 Tutubalina,2019;Henry 等,2020;D’Oosterlinck 等,2023;Sahoo 等,2024)。然而,关于该关系是否适用或不适用的条件却鲜有探索。因此,当前的生物医学信息提取框架往往提供不完整的治疗知识表示,限制了其在临床决策支持中的实用性。

为解决这一问题,我们提取治疗性药物-疾病关系的条件。具体来说,我们创建了药物-疾病适用条件提取数据集(Drug-ACE),如图 1 所示。该数据集包含 1,191 个实例,每个实例关联一个治疗性药物-疾病对以及对应的 PubMed 论文标题和摘要。每个实例都标注了给定药物能够治疗或缓解目标疾病的条件。我们还提出了角色条件 LoRA,将药物与疾病之间的关系角色显式地融入参数高效的低秩适配(LoRA)(Hu 等,2022)中。我们在 Drug-ACE 数据集上对现有生物医学关系提取方法进行的全面基准测试表明,我们的方法持续优于强基线。

我们的贡献有三点:
- • 我们提出了药物-疾病适用条件提取任务,并发布了 Drug-ACE 数据集,标注了 1,191 个实例。
- • 我们对传统的生物医学关系提取方法在 Drug-ACE 上进行了全面评估,包括基于跨度模型、LoRA 微调以及提示大型语言模型的方法。
- • 我们提出了一种用于药物-疾病关系适用条件提取的方法,该方法在不同评估设置下均持续优于强基线。

## 2 相关工作

### 2.1 生物医学关系提取

生物医学关系提取作为生物医学自然语言处理的核心任务,已得到广泛研究,特别是从科学文献中识别化学物质、疾病和基因之间的关系。早期的基准工作,如 BioCreative V CDR(Li 等,2016)任务语料库,建立了化学-疾病关系提取的标准评估设置,并促进了监督学习方法的发展。后续工作通过构建更大、更丰富的数据集,包括 BioRED(Luo 等,2022)和 ChemDisGene(Zhang 等,2022),进一步拓展了生物医学关系提取的范畴,这些数据集涵盖了多种实体类型和关系类别。DrugProt(Miranda-Escalada 等,2023)引入了用于细粒度药物-基因/蛋白质相互作用的大规模金标准。Sosa 等(2023)将细胞类型和组织与蛋白质-蛋白质相互作用的关联构建为一个分类任务,利用句法和元话语特征来丰富文献推导的知识图谱。

与此同时,研究人员探索了替代学习范式,以应对生物医学关系提取中的数据稀疏性和标注成本。Xiao 等(2024)首次将文档级关系提取扩展到联邦学习环境,并提出了一种基于图结构熵的新型非独立同分布场景。Wang 等(2024)研究了一种流水线方法,在实体提取之前执行句子级关系分类以缓解实体歧义,并进一步引入实体与关系之间的结构约束来指导模型的假设空间。这些研究显著推动了在各种实际约束下生物医学关系建模的发展。然而,尽管付出了这些努力,现有工作主要集中于识别实体之间关系的存在与否或类型,并未明确建模治疗性药物-疾病关系成立的适用条件。

### 2.2 细粒度信息提取基准

除了关系提取,先前的工作还探索了各种细粒度信息提取任务,旨在从文本数据中识别类似条件或属性级别的信息。在临床领域,不良事件提取作为一个代表性任务得到了研究,要求模型提取特定事件跨度并将其分配给预定义类别(D’Oosterlinck 等,2023;Sahoo 等,2024;Guellil 等,2025)。早期方法通常依赖序列标注框架,如条件随机场(CRF),来建模 token 级依赖关系并捕获结构化输出约束(Guellil 等,2025)。Srivastava 等(2025)探索了对大型语言模型(LLM)进行指令微调以用于事件提取,利用文本标注指南来指导模型预测。他们的结果表明,基于提示和指令的方法可以成为传统监督模型的有效替代方案,尤其是在低资源或跨模式场景中。这些发现支持将基于提示的方法作为细粒度信息提取任务的合理途径。

## 3 Drug-ACE 数据集

我们创建了 Drug-ACE 数据集,人工标注了某种药物对抗某种疾病具有治疗作用的条件。图 1 展示了一个示例,显示了输入和标注的适用条件。

### 3.1 标注数据准备

我们的数据集构建于 ChemDisGene 数据集(Zhang 等,2022)之上,该数据集包含 PubMed¹ 生物医学摘要,并标注了药物、疾病和基因实体以及它们之间的成对关系。原始 ChemDisGene 数据集涵盖多种实体类型和关系类别。在本工作中,我们仅关注涉及治疗性药物-疾病关系的实例,因为其具有实际价值,并过滤掉其他关系类型的实例。原始 ChemDisGene 包含通过体内和体外实验鉴定的关系。我们人工审查并进一步过滤掉那些未提及临床研究或临床试验的实例,仅保留具有临床依据的药物-疾病关系用于适用条件标注。我们还人工检查了治疗关系标注,并移除了那些似乎存在不正确或不一致关系标注的实例。请注意,我们的预处理步骤并未修改生物医学文献的原始文本内容。相反,我们仅将 Drug-ACE 中包含的实例限制为具有足够可靠证据的治疗关系。

¹https://pubmed.ncbi.nlm.nih.gov/

### 3.2 条件类型

为了更好地理解适用条件并促进其系统建模,我们为每个提取的条件分配类型标签。目前对于药物-疾病关系适用条件的详尽分类尚未达成共识。为了设计一套合理的条件类型,我们回顾了相关的生物医学文献(Wu 等,2019;Bhatt 等,2021;Hanlon 等,2023),并确定了常见讨论的、能够约束或限定治疗适用性的条件。随后,我们咨询了一位领域专家以确定标注范围,经过多轮讨论最终选定了六种条件类型。以下六种条件类型在生物医学文献中频繁出现,且具有临床意义,能够显著影响治疗效果和临床决策。

- • **剂量**:指给药的剂量或药量,包括有效或安全治疗所需的具体剂量值和范围。例如:“3.3 mg/70 kg 的 M6G”
- • **年龄**:指明患者的年龄或年龄组,包括影响治疗适用性的明确年龄或年龄相关类别。例如:“患有肾病综合征的儿童”
- • **基因**:指明患者的遗传特征,例如特定基因的存在,这些特征影响药物反应或治疗适用性。例如:“HDL-结合的对氧磷酶-1(PON1)”
- • **性别**:当治疗适用性因性别而异时,指明目标患者群体的生物学性别或社会性别。例如:“14 名男性患者”
- • **合并症**:指除正在研究的目标疾病之外,存在一种或多种额外的既有疾病、障碍或风险因素,这些因素可能影响药物的适用性或治疗效果。例如:“患有肾病综合征的儿童”
- • **体型**:描述患者的一般身体特征或身体状况,包括妊娠、肥胖、体重过轻或其他可能影响治疗结果的体成分相关因素。例如:“初产妇”

### 3.3 标注

标注工作于 2025 年 10 月至 12 月进行。主要沟通工具为 Slack;标注员可随时提问。

#### 标注员筛选

我们招募了两名...

相似文章

从Reddit平台中筛选与提取药物相关实体

arXiv cs.CL

介绍了ReDose数据集,该数据集包含6,435条Reddit帖子,标注了药物、剂量和效果实体,并评估了包括BiomedBERT、Llama-3 70B和GPT-4在内的多种模型的提取性能。