从Reddit平台中筛选与提取药物相关实体

arXiv cs.CL 2026/05/27 04:00 论文

摘要

介绍了ReDose数据集，该数据集包含6,435条Reddit帖子，标注了药物、剂量和效果实体，并评估了包括BiomedBERT、Llama-3 70B和GPT-4在内的多种模型的提取性能。

arXiv:2605.26445v1 公告类型：新摘要：医生主要通过临床过量案例了解非法药物，这限制了他们对真实世界使用情况的理解。与此同时，药物用户在网上分享第一手经验，提供了关于药物剂量和效果的见解。为了弥合这一差距，我们引入了ReDose（Reddit药物剂量与效果）数据集，包含6,435条关于物质使用的Reddit帖子。一位获得认证的毒理学家主要标注了训练集和测试集，同时两位医学科学学生参与了测试集的标注，标记了DRUG、DOSE和EFFECT实体。我们使用基于BERT、大型语言模型（LLM）和检索增强生成（RAG）模型对6,267条标注进行了基准测试。BiomedBERT在DRUG实体上取得了0.843的F1分数，而Llama-3 70B优于GPT-4（F1分数分别为0.79和0.72）。EFFECT提取仍然具有挑战性，GPT-4的召回率达到0.41。ReDose捕捉了患者自述故事，以推动从社交媒体中提取医学数据。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:06

# 从 Reddit 平台策划与提取药物相关实体
来源：https://arxiv.org/html/2605.26445
Zihan Xu 人口健康科学系，Weill Cornell Medicine，纽约市，美国
计算与信息系统学院，墨尔本大学，墨尔本，澳大利亚
Yishu Wei 人口健康科学系，Weill Cornell Medicine，纽约市，美国
Michael Chary 急诊医学系，Weill Cornell Medicine，纽约市，美国
通讯作者。电子邮箱：[email protected] (https://arxiv.org/html/2605.26445v1/[email protected]), [email protected] (https://arxiv.org/html/2605.26445v1/[email protected])
Yifan Peng 人口健康科学系，Weill Cornell Medicine，纽约市，美国
通讯作者。电子邮箱：[email protected] (https://arxiv.org/html/2605.26445v1/[email protected]), [email protected] (https://arxiv.org/html/2605.26445v1/[email protected])

###### 摘要

医生主要从临床过量案例中了解非法药物，限制了他们对真实世界使用情况的理解。与此同时，药物使用者在线上分享第一手经验，提供了关于药物剂量和效果的见解。为弥合这一差距，我们引入了 ReDose（Reddit 药物剂量与效果），这是一个包含 6,435 条 Reddit 帖子、涉及物质使用的数据集。一名认证毒理学家主要注释了训练集和测试集，两名医学科学专业学生贡献了测试集的标注，标记了药物、剂量和效果实体。我们使用基于 BERT 的模型、大型语言模型（LLM）和检索增强生成（RAG）模型对 6,267 个注释进行了基准测试。BiomedBERT 在药物实体上达到了 0.843 的 F1 分数，而 Llama-3 70B 的表现优于 GPT-4（F1 = 0.79 对 0.72）。效果提取仍然具有挑战性，GPT-4 的召回率为 0.41。ReDose 捕捉了患者策划的叙述，以推进从社交媒体中提取医学数据。

###### 关键词:

自然语言处理 命名实体识别 药物滥用 大型语言模型

## 1 引言

物质使用的流行病学已从单一物质使用转变为多物质使用，可能的药物种类也从寥寥几种扩展到令人眼花缭乱的新型精神活性物质（NPS）。NPS 包括新型合成阿片类药物、致幻兴奋剂和设计苯二氮卓类药物。根据联合国毒品和犯罪问题办公室的数据，已知 NPS 的数量从 2012 年的 251 种增加到 2016 年的 780 种[29 (https://arxiv.org/html/2605.26445#bib.bib23)]。这些物质出现和消失的速度太快，联邦调查难以追踪，常规毒理学筛查也难以检测，因此需要开发改进的检测方法。人们经常在社交媒体上讨论物质使用[13 (https://arxiv.org/html/2605.26445#bib.bib19),14 (https://arxiv.org/html/2605.26445#bib.bib6),27 (https://arxiv.org/html/2605.26445#bib.bib20)]，其中很大一部分讨论涉及 NPS 的使用[6 (https://arxiv.org/html/2605.26445#bib.bib22),31 (https://arxiv.org/html/2605.26445#bib.bib21)]。先前的研究已证明，关于阿片类药物使用的在线讨论（如 Twitter/X 上的讨论）可用于预测未来 30 天的真实使用情况[7 (https://arxiv.org/html/2605.26445#bib.bib26)]。除了之前从 YouTube 评论[8 (https://arxiv.org/html/2605.26445#bib.bib25)]和在线公告板[1 (https://arxiv.org/html/2605.26445#bib.bib24)]等在线平台提取剂量反应信息的工作外，Reddit 也常被引为各种医学主题的丰富信息来源[28 (https://arxiv.org/html/2605.26445#bib.bib7),14 (https://arxiv.org/html/2605.26445#bib.bib6)]。先前的研究表明，使用社交媒体文本是追踪人们如何使用特定物质的有效方法。然而，关于识别哪些新物质正在出现的研究较少。这一差距创造了一个机会，即判断分析在线评论是否有助于在严重公共卫生问题出现之前识别出有问题的新物质。

自然语言处理（NLP）技术非常适合处理大量非结构化文本。当前的关键挑战是缺乏用于基准测试提取方法的标准化、策划数据集。现有的来自社交媒体的命名实体识别（NER）数据集仅标注了少数物质实体，但都没有涉及效果或剂量[16 (https://arxiv.org/html/2605.26445#bib.bib9),14 (https://arxiv.org/html/2605.26445#bib.bib6),28 (https://arxiv.org/html/2605.26445#bib.bib7),24 (https://arxiv.org/html/2605.26445#bib.bib8),21 (https://arxiv.org/html/2605.26445#bib.bib17),12 (https://arxiv.org/html/2605.26445#bib.bib15)]。开源临床 NLP 数据集标注了药物剂量，但主要基于结构化的医生叙述[16 (https://arxiv.org/html/2605.26445#bib.bib9)]。相比之下，在线评论并未严格使用临床术语，以避免在线平台的敏感检查。这给开发能够在医生笔记和社交媒体文本数据之间良好迁移的模型带来了巨大挑战。

为克服这一障碍，我们引入了 ReDose（Reddit 药物剂量与效果），这是一个从 7 个药物相关子版块收集的包含 6,435 篇独立文档的数据集。ReDose 中的每篇文档都标注了三个实体：提到的药物、报告的剂量以及报告的效果。我们选择这三个实体是因为建立剂量-效应关系是药理学的基石。对于许多在线描述的物质，尚无其他可行的数据源可用于此目的（表1 (https://arxiv.org/html/2605.26445#S1.T1)）。ReDose 中的每个条目都包含一篇未处理的文档、其注释版本以及时间戳。所有可识别的和受保护的健康信息已被移除。我们通过 ReDose 旨在增强 NLP 模型提取关于新兴物质的临床相关信息的能力，从而为临床实践和公共卫生指南提供信息。据我们所知，ReDose 是第一个从在线平台收集并具有如此详细注释（包括三个属性）的数据集。

表 1：相关研究中的数据集摘要我们提供了基于 BERT 的模型、一次性提示的大型语言模型（LLM）以及基于检索增强生成（RAG）的 LLM 的基准结果。在传统的一次性或少次提示中，所有输入使用相同的示例，这限制了示例的影响，因为其语义可能与输入存在显著差异。为解决这一限制，我们开发了一种基于检索的方法，从训练数据集中提取最相似的示例并将其附加到提示中。这种方法显著提高了药物提取的召回率。在比较 BERT 和 LLM 时，我们发现尽管 LLM 可能更容易实现，但其性能尚不及微调后的 BERT。这种性能差异在效果实体的指标上最为显著。

总之，本研究提供了几项关键贡献。(1) 我们引入了 ReDose，这是一个关于药物使用的在线评论的综合数据集。该数据集包含 6,435 篇文档和 6,267 个药物、剂量或效果实体，具有 0.75 的高注释者间一致性分数。(2) 我们提供了基准结果，以便在 BERT 和 LLM 之间进行公平比较。(3) 我们对这些模型之间的差异进行了深入分析，探讨了 LLM 中固有的庞大知识数据库如何可能产生与基于 BERT 模型的监督训练结果相当的性能。这一分析有助于理解每种方法在处理复杂医学 NER 任务时的优势和局限性。

## 2 相关工作

### 2.1 生物医学命名实体识别（NER）数据集

已有大量数据集用于药物相关实体识别。我们收集了最相关的数据集，并在表1 (https://arxiv.org/html/2605.26445#S1.T1) 中展示了它们的注释属性。我们在以下讨论中强调现有数据集的一些主要局限性。

首先，一些数据集的范围超出了药物，涵盖了一般用药。虽然大多数药物都有可能被滥用，但研究表明，某些药物，如镇静剂、阿片类药物或吗啡衍生物以及神经兴奋剂，似乎比其他药物更容易成瘾[26 (https://arxiv.org/html/2605.26445#bib.bib5)]。与基于一般用药的数据集相比，ReDose 是一个更聚焦的数据集，更适合专注于物质滥用的研究。此外，由于 ReDose 中因频繁过量用药而导致不良事件普遍存在，它也可以作为药物不良事件相关研究的补充数据集。

大多数从 Reddit 提取的现有数据集都不是开源的，这限制了它们的可重复性和重用性。同时，广泛使用的开源数据集（如 n2c2）主要依赖于医疗专业人员撰写的、使用标准临床术语的报告。相比之下，ReDose 引入了更广泛人群使用的新术语，有助于医生熟悉药物的同义词。

此外，一些数据集只研究单一物质。例如，在 Graves 等人的工作中[14 (https://arxiv.org/html/2605.26445#bib.bib6)]，挖掘了来自 /r/suboxone 子版块的 Reddit 帖子，以研究用户围绕特定药物（Suboxone）的讨论，重点关注其症状和使用模式。虽然富有洞察力，但该方法范围狭窄，仅针对一种物质，缺乏对不同用户群体中多种物质的更广泛覆盖。相比之下，ReDose 将来源扩展到了 7 个相关子版块，覆盖多种药物。这将使医学研究人员能够更广泛地了解常见滥用的药物。

关于 NLP 技术和物质滥用，Spadaro 等人[28 (https://arxiv.org/html/2605.26445#bib.bib7)]通过分析 2012 年至 2021 年间来自七个阿片类药物相关子版块的 267,136 篇帖子，研究了在使用芬太尼和丁丙诺啡诱导期间引发的阿片类药物戒断（POW）。通过结合关键词搜索和 NLP 过滤，他们识别并主题分析了几百篇专门提及 POW 和微剂量（Bernese 方法）的帖子。虽然他们的方法为社区经验提供了有价值的见解，但它受限于对基于关键词检索的依赖，这可能会排除其他社区中的相关讨论——可能引入选择偏差并限制其发现的可推广性。Henry 等人[16 (https://arxiv.org/html/2605.26445#bib.bib9)]专注于 2018 年国家 NLP 临床挑战赛共享任务，该任务旨在从临床记录中提取药物不良事件（ADE）。该任务评估了三个主要领域：概念提取、关系分类和端到端系统。研究采用了基于深度学习的方法，特别是 BiLSTM-CRF 模型，并在各个领域取得了高性能。然而，BiLSTM-CRF 模型在识别 ADE 和原因概念方面面临重大挑战，因为这些需要跨多个句子或段落进行推理。症状或反应可能是隐含的而非明确陈述，这使得擅长局部序列标注但难以处理长程依赖的模型难以应对。

在最近的数据集“Reddit Impact”中，Ge 等人[12 (https://arxiv.org/html/2605.26445#bib.bib15)]使用 Reddit 数据分析了物质使用障碍（SUD）的临床和社会影响。他们引入了 Reddit-Impacts 数据集，该数据集来源于十四个阿片类药物相关子版块的帖子，旨在捕捉个人在讨论自身经历时所报告的物质使用的临床和社会影响。研究人员采用了 NLP 技术，包括 BERT、RoBERTa、DANN 和 GPT-3.5，自动识别和分类这些影响。尽管该数据集在突出 SUD 的现实影响方面具有价值，但其局限性包括注释影响的稀疏性，这反而依赖于 LLM 的判断。这可能导致注释不可靠，因为语言模型难以从包含俚语的 SUD 中准确提取影响。专注于特定子版块可能引入潜在的选择偏差，未能准确代表更广泛的人群。

与其他研究相比，我们的研究具有更高的注释标准，包括医学毒理学专家的参与。此外，为确保准确性，还引入了其他注释者来标注验证数据集中的文档。因此，我们相信 ReDose 涵盖了更广泛的药物，并具有专业注释，使其成为医学研究中更有力的候选。

### 2.2 医学 NER 任务中的模型

大型语言模型：自 LLM 时代以来，关于如何在医学领域使用它们已开展了大量工作。Li 等人[24 (https://arxiv.org/html/2605.26445#bib.bib8)] 最近的研究调查了各种 LLM 在医学 NER 上的性能。GPT-4 取得了令人满意的 F1 分数，像 PromptNER 和 GPT-NER 这样的模型在 BC5CDR 和 NCBI 数据集上获得了超过 90% 的 F1 分数。Ashok 和 Lipton[4 (https://arxiv.org/html/2605.26445#bib.bib30)] 引入了 PromptNER，它使用思维链方法通过生成逻辑步骤序列来识别文本中的实体，从而改进命名实体识别。Wang 等人[30 (https://arxiv.org/html/2605.26445#bib.bib31)] 引入了 GPT-NER，通过附加特殊标记并添加自我验证策略。

Hu 等人[18 (https://arxiv.org/html/2605.26445#bib.bib32)] 的另一项工作评估了使用 GPT-3.5 和 GPT-4 进行临床 NER 任务，重点关注 MTSamples 和 VAERS 的数据集。通过采用结构化提示工程框架，这些模型在提取医学问题、治疗和测试方面，以及在识别与神经系统疾病相关的相关不良事件方面，表现出了改进。尽管有所改进，GPT 模型仍然落后于 BioClinicalBERT，后者在两个数据集上都具有更优越的性能。该研究强调了 GPT 模型在临床 NER 任务中的潜力，但也强调了需要进一步改进和开发更好的评估指标。所有数据集和代码都是公开可用的，促进了该领域的进一步研究和发展。

小语言模型：小语言模型（SLM）对训练数据量表现出更高的敏感性，随着数据量的增加，性能显著提高。例如，像 W-PROCER[25 (https://arxiv.org/html/2605.26445#bib.bib34)] 和 MetaNER[9 (https://arxiv.org/html/2605.26445#bib.bib33)] 这样的模型在 5-shot 数据集上的表现优于 1-shot 数据集。然而，SLM 在注释较少时难以应对，并且缺乏 LLM 所具有的稳健性，尤其是在训练数据有限的场景中。

## 3 材料与方法

### 3.1 数据来源

ReDose 中的文档是从表2 (https://arxiv.org/html/2605.26445#S3.T2) 中详述的七个子版块收集的。选择这些子版块是因为先前的小规模研究已证明其丰富性和有效性[14 (https://arxiv.org/html/2605.26445#bib.bib6),28 (https://arxiv.org/html/2605.26445#bib.bib7),12 (https://arxiv.org/html/2605.26445#bib.bib15)]。我们首先使用 `praw`[5 (https://arxiv.org/html/2605.26445#bib.bib18)] 编写自定义程序，`praw` 是一个广泛使用的 Reddit API 的 Python 包装器，允许通过身份验证以编程方式访问帖子、评论和元数据。

从Reddit平台中筛选与提取药物相关实体

相似文章

RedBench：大型语言模型综合红队测试通用数据集

基于大语言模型的社交媒体抑郁风险评估

公司利用Reddit操纵ChatGPT和Google AI搜索

在线社区中抑郁症的认知语言指标：基于DistilBERT和全息约简表示的分析

EmbGen：利用重组语料库进行教学

提交意见反馈