DeepER-Med:通过智能体AI推进医学深度循证研究

arXiv cs.AI 论文

摘要

DeepER-Med引入了一个用于循证医学研究的智能体AI框架,具有明确的证据评价标准和新的基准数据集(DeepER-MedQA),包含100个专家精选的医学问题,相比生产平台表现更优,并通过真实案例的临床验证。

arXiv:2604.15456v1 宣布类型:新增 摘要:可信性和透明度对于人工智能(AI)在医疗和生物医学研究中的临床应用至关重要。最近的深度研究系统旨在通过将AI智能体与多跳信息检索、推理和合成集成,加速基于证据的科学发现。然而,大多数现有系统缺乏明确且可检查的证据评价标准,造成误差复合的风险,使研究人员和临床医生难以评估其输出的可靠性。同时,现有基准方法很少评估在复杂、真实医学问题上的性能。在此,我们推出DeepER-Med,一个用于医学的深度循证研究框架,配备智能体AI系统。DeepER-Med将深度医学研究框架化为一个明确且可检查的循证生成工作流,包括三个模块:研究规划、智能体协作和证据合成。为支持现实评估,我们还提出了DeepER-MedQA,一个循证数据集,包含100个来自真实医学研究场景的专家级研究问题,由多学科11位生物医学专家精选。专家手动评估表明,DeepER-Med在多个标准上持续优于广泛使用的生产级平台,包括产生新科学见解的能力。我们进一步通过8个真实临床案例展示了DeepER-Med的实际应用价值。临床医生评估表明,DeepER-Med的结论在7个案例中与临床建议相符,突出了其在医学研究和决策支持中的潜力。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:33

# DeepER-Med:通过代理AI推进医学深度循证研究
来源:https://arxiv.org/abs/2604.15456
作者:Zhizheng Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z),Chih-Hsuan Wei (https://arxiv.org/search/cs?searchtype=author&query=Wei,+C),Joey Chan (https://arxiv.org/search/cs?searchtype=author&query=Chan,+J),Robert Leaman (https://arxiv.org/search/cs?searchtype=author&query=Leaman,+R),Chi-Ping Day (https://arxiv.org/search/cs?searchtype=author&query=Day,+C),Chuan Wu (https://arxiv.org/search/cs?searchtype=author&query=Wu,+C),Mark A Knepper (https://arxiv.org/search/cs?searchtype=author&query=Knepper,+M+A),Antolin Serrano Farias (https://arxiv.org/search/cs?searchtype=author&query=Farias,+A+S),Jordina Rincon-Torroella (https://arxiv.org/search/cs?searchtype=author&query=Rincon-Torroella,+J),Hasan Slika (https://arxiv.org/search/cs?searchtype=author&query=Slika,+H),Betty Tyler (https://arxiv.org/search/cs?searchtype=author&query=Tyler,+B),Ryan Huu-Tuan Nguyen (https://arxiv.org/search/cs?searchtype=author&query=Nguyen,+R+H),Asmita Indurkar (https://arxiv.org/search/cs?searchtype=author&query=Indurkar,+A),Mélanie Hébert (https://arxiv.org/search/cs?searchtype=author&query=H%C3%A9bert,+M),Shubo Tian (https://arxiv.org/search/cs?searchtype=author&query=Tian,+S),Lauren He (https://arxiv.org/search/cs?searchtype=author&query=He,+L),Noor Naffakh (https://arxiv.org/search/cs?searchtype=author&query=Naffakh,+N),Aseem Aseem (https://arxiv.org/search/cs?searchtype=author&query=Aseem,+A),Nicholas Wan (https://arxiv.org/search/cs?searchtype=author&query=Wan,+N),Emily Y Chew (https://arxiv.org/search/cs?searchtype=author&query=Chew,+E+Y),Tiarnan D L Keenan (https://arxiv.org/search/cs?searchtype=author&query=Keenan,+T+D+L),Zhiyong Lu (https://arxiv.org/search/cs?searchtype=author&query=Lu,+Z)

查看PDF (https://arxiv.org/pdf/2604.15456)

> 摘要:可信度和透明度是人工智能(AI)在医疗保健和生物医学研究中临床应用的关键。最近的深度研究系统通过整合AI代理与多跳信息检索、推理和合成来加速循证科学发现。然而,大多数现有系统缺乏明确的、可检查的证据评估标准,这存在复合错误的风险,使研究人员和临床医生难以评估输出结果的可靠性。与此同时,目前的基准测试方法很少能够评估复杂的真实医学问题上的性能。在此,我们介绍DeepER-Med,这是一个具有代理AI系统的医学深度循证研究框架。DeepER-Med将深度医学研究框架化为一个明确的、可检查的循证生成工作流,包括三个模块:研究规划、代理协作和证据合成。为了支持现实的评估,我们还提出了DeepER-MedQA,这是一个由来自真实医学研究场景的100个专家级研究问题组成的循证数据集,由一个由11名生物医学专家组成的多学科小组精心策划。专家手工评估表明,DeepER-Med在多个标准上持续优于广泛使用的生产级平台,包括生成新颖科学见解的能力。我们进一步通过8个真实临床案例展示了DeepER-Med的实际应用价值。临床医生的人工评估表明,DeepER-Med的结论与7个案例中的临床建议一致,突显了其在医学研究和决策支持中的潜力。

## 提交历史

来自:Zhizheng Wang [查看邮箱 (https://arxiv.org/show-email/798f7fe7/2604.15456)] **[v1]** 2026年4月16日星期四 18:17:24 UTC (4,720 KB)

相似文章

AutoMedBench:迈向基于智能体AI模型的医学自动研究

Hugging Face Daily Papers

AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。

Mind DeepResearch 技术报告

Hugging Face Daily Papers

# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug

DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理

arXiv cs.AI

本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。