用于改进临床试验工作流程准确性和效率的AI辅助协议信息提取
摘要
Banting Health AI的研究人员展示了一个利用生成式大语言模型和检索增强生成(RAG)技术进行临床试验协议信息自动提取的AI系统,准确率达89%,相比独立LLM的62.6%有显著提升,AI辅助工作流程任务完成速度快40%,并降低认知负荷。
查看缓存全文
缓存时间: 2026/04/20 08:33
# AI 辅助协议信息提取在临床试验工作流程中提高准确性和效率 来源: https://arxiv.org/html/2602.00052 Ramtin Babaeipoura, François Charesta, Madison Wrighta aBanting Health AI,bantinghealth\.ai (https://bantinghealth.ai/) 357 Bay St\., Toronto, ON, M5H 4A6, Canada ###### 摘要 临床试验协议的复杂性不断增加、修订频繁以及知识管理方面的挑战对试验团队造成了重大负担。将协议内容结构化为标准格式有可能提高效率、支持文档质量并强化合规性。我们评估了一个人工智能(AI)系统,该系统使用生成式大语言模型(LLM)结合检索增强生成(RAG)技术来自动提取临床试验协议信息。我们比较了临床试验特定 RAG 流程与公开可用的独立 LLM 的提取准确性。我们还评估了 AI 辅助对模拟提取临床研究协调员(CRC)工作流程的实际影响。 我们的 RAG 流程显示更高的提取准确性(89.0%),相比于具有微调提示的独立 LLM(62.6%)与专家支持的参考标注相比。在模拟提取工作流程中,AI 辅助任务完成速度快 40% 以上,被评为认知负荷较低,用户强烈倾向使用。虽然专家监督仍然必要,但这表明 AI 辅助提取可以实现大规模协议智能,推动将类似方法纳入实际临床工作流程,以进一步验证其对可行性、研究启动和激活后监测的影响。 关键词:临床试验、CRC 工作流程、协议、信息提取、事件表、RAG、LLM ## 1 引言 在规划得当且执行得力的情况下,临床试验已被证明是评估医学干预措施有效性和安全性的最佳实验方法。临床试验协议是研究人员、研究团队、参与者和科学界之间的书面协议,通过提供试验的背景、目标和设计组织细节来协助沟通[friedman2015]。因此,它包含团队必须提取和解释的基础信息,以确保执行的一致性和合规性。 然而,随着协议复杂性的增加[jones2013,varse2019,getz2018],协议文档的完整性和对质量指南的遵守存在差异[gryaznov2022],且耗时的、本可避免的修订变得更加频繁[getz2024]。在这种情况下,从协议文档中进行结构化数据提取和参考即使具有提高下游效率、支持文档质量、促进伦理审查流程和强化合规性的潜力[kargren2023,georgieff2023,fda2023],仍可能耗时且容易产生不一致[datta2024,kramer2025]。最终,协议质量和审查效率的改进将降低负担和延迟,同时改善证据生成、透明度和转化为更好的医疗服务[chan2025]。 传统上,协议结构化、理解和操作化依赖于专家驱动的审查、迭代的跨职能澄清,以及将关键要素(如终点、干预措施、纳入标准、安全性、访视计划表)手动抽取到电子表格和下游系统(如 CTMS、IRB 平台、EDC)中。由于其高度手动执行,此过程耗时且通过重复转录、分散交接和修订引入了可避免的变异性、不完整性和不准确性。用于提取非结构化协议数据并将其映射到下游系统的全面技术解决方案仍处于初期阶段,专业工具仅处理工作流程的零散部分(如孤立脚本、供应商特定模块),而通用临时解决方案(如对话 AI)通常缺乏集成、可重复性、性能和合规性。 然而,LLM 是能够将复杂的非结构化信息提炼为关键数据元素和摘要的 AI 系统。它们可以作为已建立的工作流程中的辅助层,生成可提交给专家验证的标准化初始版本的数据和文档。通过减少花费在常规结构化和文档导航上的时间,此类系统可以帮助团队专注于更高价值的活动(如模糊情况的裁决、质量监督),同时改进协议派生数据的一致性和可审计性。 除了基础信息提取外,它们还提供自动推理和内容生成能力。后者有可能通过自动文档创作来加速协议文档标准化(例如[maleki2024]),但其更直接的应用在于从现有的非结构化协议文档中提取结构化信息并提供初步的自动化分析。虽然[babaeipour2026]将超越信息提取,评估 RAG 方法以在公开可用框架下生成协议复杂性估计(如复杂性领域列表上的分数和理由),但本文首先聚焦于信息提取。 我们设计、实施和评估了一个具有事件表特定方法的新型临床试验特定 RAG 系统,用于广泛的自动化协议信息提取。它结合了文本表示的领域特定 RAG 与表格事件表数据的专门视觉方法,支持在多样化协议结构间进行全面提取。这解决了独立 LLM 和通用提取方法的根本局限,扩展了当前文献中发现的提取程序的范围和规模。 我们经验性地比较了我们的 RAG 方法与独立 LLM 在 23 个跨越多个治疗领域的公开可用协议上,证明了对复杂、分散信息的提取准确性的改进。通过与 13 名 CRC 进行的对照实验,我们评估了信息提取准确性以及实际操作影响,测量节省时间、认知负荷和用户偏好。为了实现稳健的评估方法,我们开发了一个 LLM 辅助的评估和标注裁决框架,支持在数百个半结构化数据字段上的可扩展、一致的评估(参见表1[https://arxiv.org/html/2602.00052#S1.T1])。 表 1:显著性声明 ## 2 相关工作 当前文献显示 LLM 被用于从研究文档中提取某些研究设计特征,如纳入标准[datta2024,liu2021]和研究事件表[kramer2025,snorkel2022]。最近的例子包括从非结构化肿瘤学医学记录中提取更多一般半结构化信息[wiest2025]。本文呈现了一个更加全面的提取方法。 从非结构化文档中提取信息时,直接方法涉及使用详细指令提示 LLM 并将整个文档作为其上下文的一部分(独立 LLM)。虽然最近的 LLM 允许非常大的上下文窗口,但此方法具有理论上的局限: - • 上下文窗口限制:这些 LLM 仍然只能处理有限的文档长度,协议文档可能超过其输入令牌限制[hosseini2024], - • 上下文窗口分布:它们可能无法始终识别和提取所有相关信息,特别是当细节分散在冗长协议的不同部分时[liu2024], - • 查询数量权衡:一方面,使用少数提示来提取数百个独立、个别数据元素可能导致次优性能,另一方面,使用许多包含此类大型上下文的提示会增加成本和完成时间[lewis2020], - • 缺乏元素特定的上下文和参考:每个提取的数据元素可能需要专门的上下文和提示、临床研究术语和输出要求的知识[rajpurkar2022]。从业者可能还需要参考特定的协议部分以实现可审计性和可追溯性,独立 LLM 可能不能以自然的方式提供。 检索增强生成(RAG)[lewis2020]通过结合 LLM 中封装的一般知识与元素特定的信息检索查询、上下文和生成提示来解决这些限制。 由于事件表(SoE)定义了众多下游流程依赖的研究时机和程序,它对操作执行至关重要[jscdm2025]。临床试验协议非常频繁地使用表格格式来表示信息,最值得注意的是事件表。此外,事件表通常涉及多页跨度、复杂的单元格合并和通过视觉布局编码的分层访视结构。 当前 PDF 提取方法通常在这些特定挑战上遇困,从标记转换[ferres2018](繁琐且劳动密集)、基于图像的识别[zhong2020](主导方法,但严重依赖于训练模型)到文本和元数据直接提取(难以泛化)。由于事件表格式在协议间差异很大,传统的基于规则或依赖元数据的方法被排除,无法可靠地捕获层级关系。相反,我们通过涉及协议页面上表格检测后跟这些页面上视觉多模态生成以进行信息提取的专门两阶段方法来处理事件表提取。此方法似乎足以在事件表上实现与其他信息类别相似的性能水平。 需要具体考虑的另一个挑战是半结构化数据输出的质量评估。最近的工作已证明使用 LLM 作为评估器(通常称为"LLM-as-a-judge")来评估 AI 生成内容质量的有效性。一项全面的调查表明,在许多情况下,基于 LLM 的评估与人类判断的相关性良好[gu2024]。在医疗保健领域,已证明 gpt-4o 可以有效地自动化 AI 生成的临床文本的评估,与专家临床医生实现强一致性,同时显著减少评估时间和成本[croxford2025]。此方法在临床研究中特别有价值,其中人类专家评估资源密集,但维护质量标准至关重要。在此基础上,我们采用了一个基于 LLM 的评估框架来评估我们研究中协议抽取的准确性和完整性。 除了评估受到输出措辞变化的影响外,还存在对构成基本事实的主观性质,因为专家有时对什么构成必要和充分的提取信息存在分歧。此外,鉴于文档密度和标注任务的广度,即使是专家审查员也容易产生不完整的数据捕获。这意味着少数几个专家标注员无法现实地保证真正详尽的基本事实。虽然增加人类审查员的数量可能会改进完整性,但此类冗余过程成本高昂且根本上不可扩展。在许多最近的可比工作中([yuan2025],[wang2024],[thomas2024]),研究人员在其标注过程中引入 LLM,既生成最终裁决候选也裁决这些输出。类似地,我们设计了一个 LLM 辅助的标注流程,向独立的基于 LLM 的裁决层呈现人类–AI 协作,其输出在低置信度情况下由人类审查,并在随机抽样子集上进行质量控制。 ## 3 方法 ### 3.1 协议文件选择 从 2025 年 3 月底 clinicaltrials.gov[ctgov] 列出的所有具有可识别协议文档的研究开始,我们选择在加拿大或美国进行的、以治疗为主要目的的干预性药物研究,从中我们随机抽样研究:9 项来自肿瘤学,7 项来自心血管,7 项来自其他治疗领域(详见清单 1[https://arxiv.org/html/2602.00052#LST1])。 对于这些研究,一名人类数据标注专家从第 3.2 节[https://arxiv.org/html/2602.00052#S3.SS2]中描述的数据模型手动创建一个半结构化数据集。 ### 3.2 提取的半结构化数据模型 为了结构化和评估不同方法的信息提取准确性,我们定义了一组代表从临床试验协议中提取的关键数据元素的半结构化数据模型。这些数据模型旨在以标准化、json 可表示的格式捕获基本协议信息,简化数据处理、比较和评估。 我们将待提取的信息分为六个大类:一般信息、纳入/排除标准、不良事件定义、干预措施、现场要求和事件表。每个类别细分为较小的数据元素,代表由 RAG 调用提取的相关(半)结构化输出,也作为性能评估的基础。这些数据元素的列表在以下小节和表 7[https://arxiv.org/html/2602.00052#A1.T7]中提供。 #### 3.2.1 一般信息 此类别的元素包括一般研究信息(如 NCT ID、协议版本、标题、赞助商、阶段、治疗领域、疾病/适应症、分配、掩盖、估计持续时间)以及主要和次要目标和终点(参见清单 3[https://arxiv.org/html/2602.00052#LST3]的示例)。 #### 3.2.2 干预措施 此类别的元素包括试验臂(名称、描述)和干预措施细节(类型、名称、剂量、计划表)以及处理级别信息(产品名称、剂量、给药、限制、修改)(参见清单 2[https://arxiv.org/html/2602.00052#LST2]的示例)。 #### 3.2.3 事件表 此类别的元素包括访视编号、访视时间和在每次访视时要执行的程序(参见清单 4[https://arxiv.org/html/2602.00052#LST4]的示例)。 #### 3.2.4 纳入/排除标准 此类别的元素包括纳入标准和排除标准(参见清单 5[https://arxiv.org/html/2602.00052#LST5]的示例)。 #### 3.2.5 不良事件定义 此类别的元素包括不良事件(AE)和严重不良事件(SAE)定义、严重程度分级、与研究治疗的关系、报告要求(时间表、数据收集、联系方式)、安全监测和管理(计划、停用标准、紧急程序)以及特定 AE 信息(预期 AE、潜在风险、伴随用药限制、特殊人群考虑)(参见清单 6[https://arxiv.org/html/2602.00052#LST6]的示例)。 #### 3.2.6 现场要求 此类别的元素包括现场设备、认证、样本处理要求以及研究产品(IP)存储条件(参见清单 7[https://arxiv.org/html/2602.00052#LST7]的示例)。 ### 3.3 数据提取方法 我们使用以下三种数据提取方法。 #### 3.3.1 RAG 提取 我们的临床试验特定 RAG 流程在三个关键步骤中工作,如图 1[https://arxiv.org/html/2602.00052#S3.SS3]所示
相似文章
利用AI改进患者对临床试验的获取途径
Paradigm 利用 GPT-4 的自然语言理解能力,显著改进了临床试验的患者筛选流程。相比传统人工审核每天约50名患者,该方案能够每分钟评估数百名患者,大幅减轻临床医生的工作负担,并改进患者获取治疗方案的机会。
与 Penda Health 一起开创医疗 AI 副驾驶
OpenAI 与肯尼亚 Penda Health 合作研究了一个由大语言模型驱动的临床助手 AI Consult,在 39,849 次患者就诊中诊断错误相对降低 16%,治疗错误相对降低 13%。该研究突出了 AI 在初级保健中的成功真实应用,并为 LLM 安全有效地部署以支持临床医生提供了模板。
"Excuse me, may I say something..." CoLabScience,一个用于生物医学发现和大语言模型-专家协作的主动型AI助手
CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。
AgenticRAG:面向企业知识库的代理检索
本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。
基准测试生物学 AI 智能体:ML@B 与 LatchBio 的合作
加州大学伯克利分校机器学习团队(ML@B)与 LatchBio 合作,对其 AI 智能体在空间转录组工作流程中的性能进行了基准测试,评估其自动化复杂生物信息学任务的能力。