生物医学命名实体识别与实体链接基准测试究竟衡量什么?一个语料库中心的诊断框架
摘要
本文提出了一种以语料库为中心的诊断框架,用于分析生物医学NER和EL基准测试,揭示了九个语料库之间的显著差异,并论证了标准统计量不足以描述评估需求。
arXiv:2605.20537v1 公告类型: 新论文
摘要: 生物医学命名实体识别(NER)和实体链接(EL)强烈依赖于标注语料库,但这些资源作为基准测试的效用往往是假设性的而非经过表征的。我们提出了一种以语料库为中心的框架,用于直接从语料库标注、概念链接、训练-测试划分、文档元数据和术语映射中诊断基准测试相关属性。该框架将标准化统计量组织为五个家族:(1) 规模、密度和标签分布,(2) 词汇与概念结构,(3) 训练-测试重叠度,(4) 元数据构成,以及 (5) 适用情况下的术语覆盖度。将该框架应用于涵盖疾病、化学物质和细胞类型的九个语料库,我们发现即使面对相同的表面任务,语料库属性也可能存在显著差异。我们观察到它们在提供的评估信号、施加的泛化要求、允许的训练-测试复用程度以及所代表的生物医学文献和概念空间区域方面存在差异。这些差异表明,常用的语料库统计量可能不足以描述生物医学NER和EL基准测试所评估的内容。我们认为,以语料库为中心的诊断提供了一种实用框架,用于超越语料库规模和实体类型等表面描述符来分析语料库,识别潜在的迁移风险,并解释基准测试结论的范围。我们以开源代码和交互式仪表盘的形式发布该框架,以支持复现我们的分析并表征更多语料库。
查看缓存全文
缓存时间: 2026/05/21 06:33
# 生物医学命名实体识别和实体链接基准测试衡量什么?一个以语料库为中心的诊断框架 来源:https://arxiv.org/html/2605.20537 Robert Leaman Robert\.Leaman@nih\.gov &Rezarta Islamaj11footnotemark:1 美国国家医学图书馆,马里兰州贝塞斯达 Rezarta\.Islamaj@nih\.gov &Zhiyong Lu Zhiyong\.Lu@nih\.gov ###### 摘要 生物医学命名实体识别(NER)和实体链接(EL)在很大程度上依赖于标注语料库,但这些资源用于基准测试的效用通常是假设性的,而非经过充分表征的。我们提出了一个以语料库为中心的框架,用于直接从语料库标注、概念链接、训练-测试划分、文档元数据和术语映射中诊断与基准测试相关的属性。该框架将标准化统计量组织成五个系列:(1) 规模、密度和标签分布;(2) 词汇和概念结构;(3) 训练-测试重叠;(4) 元数据构成;以及 (5) 术语覆盖率(如适用)。将该框架应用于涵盖疾病、化学物质和细胞类型的九个语料库,我们发现,即使这些语料库针对的是相同表面任务,它们的属性也可能存在显著差异。我们发现了它们在提供的评估信号、施加的泛化需求、允许的训练-测试复用程度以及所代表的生物医学文献和概念空间区域方面存在差异。这些差异表明,通常报告的语料库统计量可能不足以表征生物医学命名实体识别和实体链接基准测试所评估的内容。我们认为,以语料库为中心的诊断提供了一个实用的框架,用于分析语料库(超越表面描述符,如语料库大小和实体类型)、识别潜在的迁移风险以及解释基准测试结论的范围。我们以开源代码形式发布该框架111https://github\.com/NLM\-DIR/CorpusBenchmarking,并附带交互式仪表板,以支持复现我们的分析并表征其他语料库。 # 生物医学命名实体识别和实体链接基准测试衡量什么?一个以语料库为中心的诊断框架 Robert Leaman††感谢:这些作者贡献相当。Robert\.Leaman@nih\.govRezarta Islamaj11footnotemark:1 美国国家医学图书馆,马里兰州贝塞斯达Rezarta\.Islamaj@nih\.govZhiyong LuZhiyong\.Lu@nih\.gov ## 1 引言 从生物医学文献中提取结构化信息需要系统识别实体(例如,基因、疾病、化学物质)并将其链接到标准化标识符。这些基础任务——命名实体识别(NER)和实体链接(EL)——在大语言模型(LLM)时代仍然至关重要,以确保输出是可审计、可比较和可复用的。 人工标注的语料库既作为训练数据,也作为评估基准(Kim et al., 2003 (https://arxiv.org/html/2605.20537#bib.bib19);Collier et al., 2004 (https://arxiv.org/html/2605.20537#bib.bib5);Morgan et al., 2008 (https://arxiv.org/html/2605.20537#bib.bib27);Lu et al., 2011 (https://arxiv.org/html/2605.20537#bib.bib24);Wei et al., 2013 (https://arxiv.org/html/2605.20537#bib.bib39);Doğan et al., 2014 (https://arxiv.org/html/2605.20537#bib.bib8);Krallinger et al., 2015 (https://arxiv.org/html/2605.20537#bib.bib20);Li et al., 2016 (https://arxiv.org/html/2605.20537#bib.bib21);Islamaj et al., 2021b (https://arxiv.org/html/2605.20537#bib.bib16), a (https://arxiv.org/html/2605.20537#bib.bib17);Bada et al., 2012 (https://arxiv.org/html/2605.20537#bib.bib4);Herrero-Zazo et al., 2013 (https://arxiv.org/html/2605.20537#bib.bib12);Wei et al., 2016 (https://arxiv.org/html/2605.20537#bib.bib40);Miranda-Escalada et al., 2023 (https://arxiv.org/html/2605.20537#bib.bib26))。当用作基准测试时,它们充当测量工具:关键问题不仅在于标注是否正确,还在于基准测试测试了哪些能力,以及结论是否可以迁移到预期使用场景。 这种区别之所以重要,是因为基准测试的效用是任务和领域相关的。一个语料库可能经过仔细标注,但过于狭窄、同质化或存在跨划分的数据泄露,以至于无法支持信息丰富的评估。生物医学自然语言处理(NLP)重视稀有、专门和新兴的概念,这使得评估对哪些实体、子领域、时间段和文档类型被表示非常敏感。如果不表征*语料库领域*和目标*应用领域*,就很难区分泛化问题与语料库特有的伪影、数据泄露或领域不匹配。基准语料库主要通过大小、实体类型或报告的系统性能进行比较。这些描述符并不反映重叠风险、词汇难度、领域偏差或概念覆盖范围。 为了填补这一空白,我们引入了一个以语料库为中心的框架,该框架直接根据标注、概念链接、语料库划分、元数据和术语表计算标准化统计量(图1 (https://arxiv.org/html/2605.20537#S1.F1))。这些统计量为基于PubMed和PMC的命名实体识别和实体链接语料库提供了多维分析:密度指示可用的评估信号量;词汇和概念变化指示需要何种泛化;重叠揭示数据泄露风险;元数据构成表征所代表的文献;术语覆盖率指示概念空间的哪些部分被覆盖。 将该框架应用于涵盖疾病、化学物质和细胞类型的九个语料库,结果显示,在任务标签或大小上相似的资源,在这些信号上可能存在显著差异。我们的贡献是:(1) 为生物医学命名实体识别和实体链接基准测试提出了“语料库作为测量工具”的框架;(2) 一个实用的以语料库为中心的诊断框架;(3) 一项分析,展示了结构差异如何影响评估敏感性、数据泄露风险、覆盖范围和可迁移性;(4) 提供开源代码和一个交互式仪表板,用于复现我们的结果并分析新的语料库。 参考图注图 1:语料库诊断框架。实体标注的语料库被转换为通用表示形式,从而能够计算关于标注、标识符和元数据的统计量。这些统计量表征了规模和密度、词汇和概念变化、训练-测试重叠、元数据构成以及术语覆盖率,从而能够对生物医学命名实体识别和实体链接基准测试进行原则性比较。 ## 2 相关工作 多年来,生物医学实体标注语料库大量涌现,但它们通常被当作基准测试使用,而没有任何系统性分析来探究它们实际测量了什么。早期的努力,如GENIA (Kim et al., 2003 (https://arxiv.org/html/2605.20537#bib.bib19)),建立了大规模的手动提及标注,带有细粒度的语义类别,后来在像JNLPBA (Collier et al., 2004 (https://arxiv.org/html/2605.20537#bib.bib5))这样的共享任务中被简化。随后的语料库引入了实体归一化,通常针对单一实体类型:疾病(NCBI Disease)、化学物质(CHEMDNER, BC5CDR)、基因组变异(tmVar)和基因(BioCreative挑战)(Doğan et al., 2014 (https://arxiv.org/html/2605.20537#bib.bib8);Krallinger et al., 2015 (https://arxiv.org/html/2605.20537#bib.bib20);Li et al., 2016 (https://arxiv.org/html/2605.20537#bib.bib21);Wei et al., 2013 (https://arxiv.org/html/2605.20537#bib.bib39);Morgan et al., 2008 (https://arxiv.org/html/2605.20537#bib.bib27))。像CRAFT (Bada et al., 2012 (https://arxiv.org/html/2605.20537#bib.bib4))这样的资源将范围扩大到多实体、全文标注。最近的语料库——包括NLM-Chem、BioRED和CellLink——进一步扩展了文档和实体覆盖范围,并融入了更丰富的标注结构,如关系(Islamaj et al., 2021b (https://arxiv.org/html/2605.20537#bib.bib16), 2024 (https://arxiv.org/html/2605.20537#bib.bib18);Rotenberg et al., 2026 (https://arxiv.org/html/2605.20537#bib.bib31))。尽管这些语料库被广泛一起使用,但它们在文档类型、标注密度、归一化支持、时间范围和领域焦点方面差异很大——这些差异很少从每个基准测试实际评估了什么的角度来审视。 自然语言处理研究已经表明,数据集属性可能会扭曲基准测试的解释。关于饱和的研究推动了聚合基准测试,如GLUE和SuperGLUE(Wang et al., 2018 (https://arxiv.org/html/2605.20537#bib.bib38), 2019 (https://arxiv.org/html/2605.20537#bib.bib37));关于伪影、数据泄露和记忆化的研究表明,明显的改进可能反映了捷径或重叠,而非预期的能力(Gururangan et al., 2018 (https://arxiv.org/html/2605.20537#bib.bib11);Liang et al., 2023 (https://arxiv.org/html/2605.20537#bib.bib22);Tutubalina et al., 2020 (https://arxiv.org/html/2605.20537#bib.bib34));而HELM强调多指标评估(Liang et al., 2023 (https://arxiv.org/html/2605.20537#bib.bib22))。像BLUE、BLURB和BigBIO这样的生物医学套件标准化了跨任务评估(Peng et al., 2019 (https://arxiv.org/html/2605.20537#bib.bib29);Gu et al., 2021 (https://arxiv.org/html/2605.20537#bib.bib10);Fries et al., 2022 (https://arxiv.org/html/2605.20537#bib.bib9)),但它们通常将语料库视为固定输入,而没有解释语料库属性如何影响有效性或可迁移性。 标注质量度量,特别是标注者间一致性(IAA),评估的是一致性而非基准测试的范围。先前的工作区分了跨越边界、标签和概念链接的一致性(Artstein and Poesio, 2008 (https://arxiv.org/html/2605.20537#bib.bib3)),对于缺乏明确定义负类的基于跨度的任务推荐使用F1(Hripcsak and Rothschild, 2005 (https://arxiv.org/html/2605.20537#bib.bib14)),并指出不一致可能反映歧义、错误或标注指南的限制(Aroyo and Welty, 2015 (https://arxiv.org/html/2605.20537#bib.bib2);Uma et al., 2021 (https://arxiv.org/html/2605.20537#bib.bib35))。高一致性是必要的但非充分的:简化标注可以提高一致性,同时消除现实的歧义(Hovy and Lavid, 2010 (https://arxiv.org/html/2605.20537#bib.bib13))。语料库论文通常报告计数和分布,但这些统计量很少围绕评估主张来组织。我们的框架将这些描述与重叠、记忆化、领域偏移、标注范围和术语覆盖率联系起来。 ## 3 方法 ### 3.1 框架概述与表示 我们的框架通过四个阶段表征命名实体识别和实体链接语料库:转换为共享表示、过滤、指标计算和可视化。语料库被标准化为包含文本、可选元数据和标注(跨度、表面形式、标签和链接的概念标识符)的文档。 这种设计支持仅命名实体识别以及命名实体识别+实体链接的基于PubMed或PMC的语料库。仅命名实体识别的语料库在文本、跨度和提及级别上进行评估,而支持实体链接的数据集则额外产生概念级别的诊断。指标在可配置的语料库集合、比较套件、实体范围和训练/开发/测试划分上进行计算,以便对异构数据集进行可解释的比较。 ### 3.2 分析的语料库 我们将该框架应用于九个语料库,涵盖不同的实体类型(例如,疾病、化学物质、细胞类型)和文档范围(摘要、图注、全文):AnatEM(Pyysalo and Ananiadou, 2014 (https://arxiv.org/html/2605.20537#bib.bib30))、BC5CDR(Li et al., 2016 (https://arxiv.org/html/2605.20537#bib.bib21))、BioID(Arighi et al., 2017 (https://arxiv.org/html/2605.20537#bib.bib1))、CHEMDNER(Krallinger et al., 2015 (https://arxiv.org/html/2605.20537#bib.bib20))、CRAFT(Bada et al., 2012 (https://arxiv.org/html/2605.20537#bib.bib4))、CellLink(Rotenberg et al., 2026 (https://arxiv.org/html/2605.20537#bib.bib31))、JNLPBA(Collier et al., 2004 (https://arxiv.org/html/2605.20537#bib.bib5))、NCBI-Disease(Doğan et al., 2014 (https://arxiv.org/html/2605.20537#bib.bib8))和NLM-Chem(Islamaj et al., 2021b (https://arxiv.org/html/2605.20537#bib.bib16))。在无法获取公开测试数据或原始标注层被更改时,我们使用了最接近的文档化子集,并在相关结果旁说明了这些限制。 ### 3.3 诊断统计量 该框架在五个系列中计算语料库统计量,以便在系统评估之前诊断基准测试属性: - •**规模、密度和标签分布**:我们计算总文档数、词元数、标注数以及每个文档的唯一提及数/标识符数。 - •**词汇和概念结构**:对于归一化的语料库,我们衡量提及歧义性(映射到单个表面形式的不同标签/链接对的数量)和标识符变异性(映射到标签/链接对的不同表面形式的数量)。这些区分了基准测试对上下文消歧的需求与对识别多样化词汇实现的需求。 - •**训练-测试重叠**:为了评估数据泄露和记忆化风险,我们计算训练集和测试集在四个抽象级别上的杰卡德重叠:通用词元词汇、实体提及内部的词元、精确提及字符串和概念标识符。 - •**元数据构成**:我们通过时间统计(出版年份范围和分布)和期刊多样性(唯一期刊数和顶级期刊集中度)来描述所代表的文献片段。如果可用,我们从文章的医学主题词表(MeSH)主题中推导出广泛的主题概况(Lipscomb, 2000 (https://arxiv.org/html/2605.20537#bib.bib23));如果必要,则回退到NLM目录的MeSH期刊主题。 - •**术语感知覆盖率**:对于疾病和化学物质,我们将标识符链接到它们在MeSH、MONDO(Vasilevsky et al., 2026 (https://arxiv.org/html/2605.20537#bib.bib36))或ChEBI(Malik et al., 2026 (https://arxiv.org/html/2605.20537#bib.bib25))中的相应概念;对于细胞类型,我们支持细胞本体(CL)(Tan et al., 2026 (https://arxiv.org/html/2605.20537#bib.bib33))。我们通过分析标注在高层分支中的分布来量化词汇覆盖率,并计算层次深度作为概念特异性的代理。 ### 3.4 实现 该框架作为一个开源、可配置YAML的Python流水线实现,输出结构化的JSON统计量。它包括用于下载、提取、转换、缓存和验证预期语料库文件的获取规范。输入支持包括BioC XML(Comeau et al., 2013 (https://arxiv.org/html/2605.20537#bib.bib6), 2019 (https://arxiv.org/html/2605.20537#bib.bib7))、PubTator(Wei et al., 2024 (https://arxiv.org/html/2605.20537#bib.bib41))、BRAT/standoff(Stenetorp et al., 2012 (https://arxiv.org/html/2605.20537#bib.bib32))和Knowtator(Ogren, 2006 (https://arxiv.org/html/2605.20537#bib.bib28))标注,并带有基于注册表的扩展点,用于添加额外的加载器和指标。OBO格式的本体直接支持作为术语来源。附带的独立HTML/JavaScript仪表板222https://nlm-dir\.github\.io/CorpusBench-marking/dashboard\.html结合了规模、重叠、元数据、术语和实体范围视图,用于复现我们的分析并评估新的语料库。 ## 4 结果 我们使用九个语料库来说明以语料库为中心的诊断如何阐明基准测试的评估作用。目标不是对语料库进行排名,而是展示具有相似任务标签的数据集通常扮演不同的测量工具:它们将系统暴露于不同数量的评估信号、不同形式的词汇和概念泛化、不同的数据泄露风险以及生物医学文献和概念空间的不同区域。 ### 4.1 规模、标注密度、词汇和概念变异
相似文章
BeLink:生物医学实体链接结合生成式重排序
BeLink 提出了一种集合式指令微调的方案,用于生物医学实体链接中的生成式重排序,与现有最先进系统相比,准确率提升了3-24%,并且推理速度更快。
GENEB:为何基因组模型难以相互比较
GENEB 是一个大规模诊断基准,在统一的探测协议下,跨 13 个功能类别的 100 项任务对 40 个基因组基础模型进行评估。研究结果揭示了综合排行榜的不稳定性,以及架构匹配度往往比模型规模更具决定性影响。该工作旨在解决基因组机器学习领域评估体系碎片化的问题,类似于 MTEB 在 NLP 领域所做的工作。
MedicalBench:评估大型语言模型以改进医学概念提取
MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。
EHRBench:用于大语言模型临床决策的自动化可靠电子健康记录基准
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。
PIIBench:个人可识别信息检测的统一多源基准语料库
PIIBench 是一个用于检测多种数据源中个人可识别信息 (PII) 的统一基准语料库。该资源解决了 PII 检测任务中标准化评估的需求,这对隐私保护的自然语言处理应用至关重要。