一个基于生物医学工具库进行治疗推理的AI智能体

arXiv cs.AI 2026/06/30 04:00 论文

摘要

本文介绍了一个通过强化学习训练的AI智能体，能够推理自1939年以来所有FDA批准的药物，进行治疗建议，并整合疾病背景、合并症和禁忌症。

arXiv:2606.28692v1 公告类型：新摘要：治疗推理支撑着每一个治疗决策，整合疾病背景、合并症、药物、禁忌症以及不断演变的生物医学知识，以选择适当的疗法。它本质上是迭代的：在众多约束条件下权衡候选方案，随着证据的出现进行修正，并基于可验证的来源。这里我们介绍ATHENA-R1，一个用于治疗推理的AI智能体，覆盖自1939年以来所有FDA批准的药物，通过在212个生物医学工具构成的宇宙中进行强化学习训练。每一步它识别缺失信息，选择并运行相关工具，并整合证据。为了在无需人工标注轨迹的情况下训练它，我们构建了一个双层自学习框架：多智能体系统构建工具、任务和推理轨迹用于监督微调，然后通过具有科学反馈的强化学习奖励推理质量（证据收集、基于工具的使用、逻辑非冗余）。在五个基准测试中，包括3,168个药物推理任务和456个患者治疗案例，ATHENA-R1优于语言模型和工具使用系统，在开放式药物推理上达到94.7%的准确率，在治疗推理上达到82.9%，分别比GPT-5高出17.8和10.7个百分点。在28个罕见病组织的专家进行的盲评中，它在所有标准上均优于参考模型，医生在复杂住院心血管和传染病案例上给予了积极评价。它生成的不良事件假设在来自540万患者的电子健康记录中测试，调整后的优势比达到1.48-1.84，阴性对照组无升高。由于需要在得出结论前知道要寻找什么证据，治疗推理长期以来对AI来说很难；我们表明它可以被重新定义为一种可学习的迭代证据收集过程，而强化学习可以训练AI执行这一过程。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:31

# 一个用于生物医学工具宇宙中治疗推理的AI智能体
来源: https://arxiv.org/html/2606.28692

Ayush Noori¹,²,³https://orcid.org/0000-0003-1420-1236 · Richard Zhu¹https://orcid.org/0009-0004-6190-8503 · Curtis Ginder¹,⁴https://orcid.org/0000-0001-8507-9624 · Zhenglun Kong¹https://orcid.org/0000-0002-8120-4456 · Xiaorui Su¹ · Justin Kauffman⁵https://orcid.org/0009-0004-6371-4198 · Benjamin S. Glicksberg⁵,⁶,⁷https://orcid.org/0000-0003-4515-8090 · Joshua Lampert⁵,⁶,⁸ · Ankit Sakhuja⁵,⁹,¹⁰ · Ashwin Sawant⁵,⁹,¹¹https://orcid.org/0000-0003-1525-8541 · ATHENA-R1 Evaluation Consortium¹² · David A. Clifton²,¹³https://orcid.org/0000-0002-9848-8555 · Noa Dagan³,¹⁴,¹⁵https://orcid.org/0000-0001-8811-7825 · Ran Balicer³,¹⁴,¹⁶https://orcid.org/0000-0002-7783-6362 · Marinka Zitnik¹,³,¹⁷,¹⁸,¹⁹,†https://orcid.org/0000-0001-8530-7228

¹ 哈佛医学院生物医学信息学系，波士顿，马萨诸塞州  
² 牛津大学工程科学系，牛津，英国  
³ 哈佛医学院与Clalit研究机构的Ivan and Francesca Berkowitz家族生活实验室合作项目，波士顿，马萨诸塞州，美国  
⁴ 布列根和妇女医院心血管科，哈佛医学院，波士顿，马萨诸塞州  
⁵ 西奈山伊坎医学院人工智能与人类健康Windreich系，纽约，纽约州，美国  
⁶ 西奈山Hasso Plattner数字健康研究所，西奈山伊坎医学院及西奈山卫生系统，纽约市，纽约州，美国  
⁷ Mindich儿童健康与发展研究所及儿科学系、遗传学与基因组科学系，西奈山伊坎医学院，纽约，纽约州，美国  
⁸ 西奈山Fuster心脏医院，西奈山伊坎医学院，纽约，纽约州，美国  
⁹ 西奈山AI保障实验室，西奈山卫生系统，纽约，纽约州，美国  
¹⁰ 西奈山伊坎医学院重症监护医学研究所，纽约，纽约州，美国  
¹¹ 西奈山伊坎医学院医学系，纽约，纽约州，美国  
¹² ATHENA-R1评估组（成员名单及其所属机构见补充信息）  
¹³ 牛津大学苏州高等研究院，苏州，江苏，中国  
¹⁴ Clalit研究机构，创新部，Clalit医疗服务，拉马特甘，以色列  
¹⁵ 本·古里安大学计算机与信息科学学院，贝尔谢巴，以色列  
¹⁶ 本·古里安大学健康科学学院公共卫生学院，贝尔谢巴，以色列  
¹⁷ 哈佛大学自然与人工智能研究Kempner研究所，剑桥，马萨诸塞州  
¹⁸ MIT及哈佛Broad研究所，剑桥，马萨诸塞州  
¹⁹ 哈佛数据科学计划，剑桥，马萨诸塞州  
† 通讯作者: [email protected] (mailto:[email protected])

---

###### 摘要

治疗推理是医学中每一项治疗决策的基础，需要整合疾病背景、合并症、合并用药、禁忌症以及不断演进的生物医学知识，才能得出适合个体患者的治疗方案。这个过程本质上是迭代的：候选治疗方案必须根据多种约束条件进行评估，随着新证据的出现进行修订，并植根于可审查和验证的来源。本文提出了一个AI智能体，能够对自1939年以来所有FDA批准的药物进行治疗推理，并通过在包含212种生物医学工具的宇宙中进行强化学习训练。在每个推理步骤中，它能识别缺失信息，选择并执行相关工具，并在继续之前整合检索到的证据。为了在没有人工标注推理轨迹的情况下进行训练，我们开发了一个双层自学习框架：首先，多智能体系统构建工具、治疗任务和推理轨迹，用于监督微调；随后，基于科学反馈的强化学习（奖励包括推理质量，如证据收集、扎实的工具使用和逻辑非冗余性）来优化证据搜索策略。在跨越3,168项药物推理任务和456个患者治疗案例的五个基准测试中，我们的方法在语言模型和工具使用系统上均表现出色。在开放式药物推理任务中达到94.7%的准确率，在治疗推理任务中达到82.9%，分别比GPT-5高出17.8和10.7个百分点。在涉及来自28个罕见病组织专家的盲评中，我们的模型在所有评估标准上均优于参考模型。医生们对涉及心血管管理和感染性疾病的复杂住院患者案例给出了有利评价。通过来自540万患者的电子健康记录测试了模型生成的药物不良事件假设，预测的关联性达到调整后优势比1.48–1.84，而阴性对照未见升高。这些结果表明，治疗推理——长期以来被认为对AI困难，因为它要求在形成结论之前知道需要寻找什么证据——可以被重新定义为一种可学习的迭代证据收集过程，并且强化学习可以训练AI执行这一过程。

---

## 主要研究

治疗推理是医学中最具挑战性的任务之一，为个体患者选择治疗方案需要权衡疾病背景、患者特征、合并用药、安全性约束以及不断演进的证据[undef (https://arxiv.org/html/2606.28692#bib.bibx1), undefa (https://arxiv.org/html/2606.28692#bib.bibx2)]。与事实检索或模式识别不同，治疗推理是一个迭代过程：候选策略必须被收集、根据多种约束进行评估，并不断修订直到证据支持决策。大型语言模型（LLMs）通过预训练[undefb (https://arxiv.org/html/2606.28692#bib.bibx3)]、生物医学对齐[undefc (https://arxiv.org/html/2606.28692#bib.bibx4), undefd (https://arxiv.org/html/2606.28692#bib.bibx5), undefe (https://arxiv.org/html/2606.28692#bib.bibx6), undeff (https://arxiv.org/html/2606.28692#bib.bibx7)]以及智能体框架[undefg (https://arxiv.org/html/2606.28692#bib.bibx8), undefh (https://arxiv.org/html/2606.28692#bib.bibx9)]来获取医学知识。这些模型能生成流畅的回复并捕捉广泛的临床模式，但它们依赖于存储在模型权重中的参数化知识，缺乏对最新、经过验证的医学信息的访问权限，并且可能产生未能考虑相关禁忌症、相互作用或患者特定约束的建议。

检索增强生成[undefi (https://arxiv.org/html/2606.28692#bib.bibx10)]和工具增强型LLMs[undefj (https://arxiv.org/html/2606.28692#bib.bibx11), undefk (https://arxiv.org/html/2606.28692#bib.bibx12), undefl (https://arxiv.org/html/2606.28692#bib.bibx13)]可以在推理时让LLMs访问其模型权重之外的信息，例如医学文档、生物医学数据库和软件工具。然而，仅仅能够访问生物医学工具并不会自动产生治疗推理能力。模型必须确定需要哪些证据，选择合适的来源，在累积证据的背景下解读结果，并在证据不完整或存在矛盾时修正其分析。这种能力不能仅凭工具访问而假定具备，必须通过学习获得。

我们提出了一个用于治疗推理的AI智能体，它将多步分析与对医学证据的直接访问相结合。该智能体不是单步生成答案，而是确定需要哪些信息、检索相关证据，并利用这些证据更新其分析。在每个推理步骤中，它从一个包含212种生物医学工具的库中选择工具，检索关于药物、疾病和患者群体的信息，解读返回的证据，并将其纳入后续推理步骤。这使得它能够通过迭代的证据收集和分析来评估候选治疗方案，而不是仅仅依赖于模型权重中存储的知识。

生成具有训练所需规模和多样性的多步治疗推理轨迹，无法由人类标注者可行地完成，因为每条轨迹必须指定需要哪些证据、调用哪些工具，以及如何在数百种工具和多样化的药物、疾病和患者背景下解读检索到的信息。因此，我们通过两个顺序阶段进行训练。首先，一个多智能体系统自动构建生物医学工具、治疗任务和推理轨迹，由此产生ATHENA-R1-Instruct数据集，包含378,027个指令微调样本，源自85,340个推理轨迹，包括177,626个推理步骤和281,695次基于自1939年以来所有美国FDA批准药物的工具调用。在基于ATHENA-R1-Instruct进行监督微调之后，通过在一个包含212种工具的实时环境中进行强化学习来进一步优化，接收基于规则的科学反馈，涵盖推理质量的六个维度，包括答案正确性、证据收集、多步推理和工具使用有效性。

我们在五个数据集上进行了评估，涵盖药物推理和患者治疗案例。DrugPC包含3,168个治疗案例，涵盖11项治疗任务，包括适应症、剂量、安全性和药理学。BrandPC和GenericPC分别将药物名称替换为品牌名和仿制药名，DescriptionPC则用文本描述替换名称。TreatmentPC包含456个治疗案例，其中正确答案取决于患者特定的约束条件。在这些数据集上，我们的方法在开放式评估中始终优于LLMs和工具使用模型。在DrugPC上，它达到94.7%的准确率，超过GPT-5[undefm (https://arxiv.org/html/2606.28692#bib.bibx14)] 17.8个百分点，超过DeepSeek-R1 (671B)[undefn (https://arxiv.org/html/2606.28692#bib.bibx15)] 25.9个百分点。在TreatmentPC上，它达到82.9%的准确率，超过GPT-5 10.7个百分点，超过DeepSeek-R1 15.4个百分点。该方法在品牌名、仿制药名和多种药物描述（BrandPC、GenericPC和DescriptionPC基准；扩展数据图LABEL:fig:descriptionpc；补充说明LABEL:sec:note1_si）上也具有良好的泛化能力。

我们评估了三个真实世界场景。首先，来自28个罕见病组织的专家评估了针对罕见病治疗案例（涵盖神经发育障碍、癫痫、代谢疾病、罕见癌症、通道病和免疫介导性疾病）的盲评回复，在所有八个评估标准上都更偏好我们的模型而非参考模型，最大的提升体现在认知可追溯性和理由有用性方面。其次，执业医师评估了涉及心血管管理和感染性疾病的复杂住院患者案例，包括CABG术后合并CKD患者、抗凝治疗合并手术部位感染患者以及STEMI后合并严重哮喘患者。第三，我们利用来自540万患者的纵向健康记录测试了模型生成的药物不良事件假设，优先考虑了既往药物警戒证据有限或缺乏的预测；在最高风险的患者亚群中，预测的关联性达到调整后优势比1.48–1.84，而阴性对照保持接近零值。

---

## 结果

### 通过逐步收集证据推理治疗选择

治疗推理Agent通过结合逐步分析与对医学证据的访问来执行治疗推理（图1 (https://arxiv.org/html/2606.28692#Sx4.F1)）。它从一个包含212种工具的生物医学工具库（补充表LABEL:tab:tool_list）中调用工具，从经过筛选的来源[undefo (https://arxiv.org/html/2606.28692#bib.bibx16), undefp (https://arxiv.org/html/2606.28692#bib.bibx17)]中检索关于药物、疾病和患者群体的证据。这些工具支持关于适应症、禁忌症、药物相互作用、药理学、不良反应、疾病表型、治疗靶点和患者群体限制的查询。例如，它可以检索药物当前批准的适应症，识别候选治疗的禁忌症，检查合并用药之间的相互作用，将疾病映射到相关表型，并查询靶向表型证据。由于这些工具是实时查询的，因此它能够整合来自FDA处方信息和生物医学知识库的最新信息，而不仅仅依赖于模型参数中编码的知识。

该智能体利用检索到的证据指导下一步推理，从而能够综合评估机制、相互作用、禁忌症和安全性约束。在每个步骤中，它确定需要哪些信息，选择相关工具，检索证据，并将返回的信息纳入分析[undefq (https://arxiv.org/html/2606.28692#bib.bibx18)]。它持续这个过程直到证据支持最终答案。输出包括答案和一条推理轨迹，记录哪些证据被检索以及如何被使用。

该智能体还能将复杂的治疗任务分解为更小的分析。一个患者场景可能需要识别候选治疗、检查药物相互作用、评估合并症、比较安全警告并应用患者特定约束。它分析这些组成部分并将结果合并为最终答案（图1 (https://arxiv.org/html/2606.28692#Sx4.F1)）。推理过程的更多细节见方法LABEL:sec:skill_txagent和算法LABEL:alg:txagent_inference；关键智能体能力（知识扎根、目标导向的工具选择、多步推理和实时检索）的示例见补充图LABEL:fig:extend_4abilities。

### 治疗推理的自学习

多步治疗推理轨迹的规模和多样性使得手工标注不可行[undefr (https://arxiv.org/html/2606.28692#bib.bibx19), undefs (https://arxiv.org/html/2606.28692#bib.bibx20)]。每条轨迹必须指定检索哪些证据、使用哪些工具、如何解读返回的信息以及如何在多个推理步骤中组合证据。因此，该智能体通过两个层次的自学习进行训练，用生成的推理轨迹取代人工编写的轨迹[undeft (https://arxiv.org/html/2606.28692#bib.bibx21)]。第一层次教导智能体治疗推理的结构，包括问题分解、证据检索、工具使用和证据解读。第二层次教导智能体如何在此结构内行动，通过改进工具选择、证据收集和探索替代推理路径。

在第一层次，智能体自动构建自己的训练数据。直接生成治疗推理轨迹需要一个已经能解决该任务的模型。因此，一组智能体系统生成生物医学工具、治疗任务和多步推理轨迹。这个过程产生ATHENA-R1-Instruct数据集，包含378,027个指令微调样本，源自85,340个治疗任务，包括177,626个推理步骤和281,695次基于自1939年以来FDA药物标签的工具调用（扩展数据图LABEL:fig:multi-agent-system）。基于ATHENA-R1-Instruct的监督微调产生了初始模型。

在第二层次，智能体通过强化学习优化其策略（扩展数据图LABEL:fig:rl-system）。在训练过程中，它探索推理时使用的212种生物医学工具，并为每个提示生成多轮推理轨迹。每条轨迹接收基于科学反馈的奖励，奖励基于答案正确性[undefn (https://arxiv.org/html/2606.28692#bib.bibx15)]、输出格式有效性[undefu (https://arxiv.org/html/2606.28692#bib.bibx22)]、证据收集、多步推理、工具参数扎根和推理非冗余性。采用基于群体的相对策略优化[undefv (https://arxiv.org/htm)

一个基于生物医学工具库进行治疗推理的AI智能体

相似文章

SafeRx-Agent：一个基于知识的多智能体框架，用于安全且可解释的药物推荐

知识增强型智能体AI用于心理健康药物信息查询

一种专门用于加速罕见病诊断的推理型大型语言模型：一项随机AI医生辅助试验

关注工具故障：实现医疗代理的协同工具增益

RareDxR1：超越人类标注的罕见病诊断自主医疗推理

提交意见反馈