AutoMedBench:迈向基于智能体AI模型的医学自动研究

Hugging Face Daily Papers 论文

摘要

AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。

自主智能体正日益被期望支持端到端的医学AI研究工作流,而不仅仅是孤立的预测任务或短形式的临床问答。然而,现有的医学智能体基准测试主要评估最终输出,对智能体在研究过程中的行为可见性有限。为填补这一空白,我们提出了AutoMedBench,这是一个面向自主医学AI研究工作流的基准测试,涵盖多种医学影像和多模态推理任务,将智能体执行组织为统一的五阶段工作流(S1-S5):计划、设置、验证、推理和提交。它包含长时间跨度的任务,每次运行平均包含33次智能体交互,涵盖五个研究赛道:分割、图像增强、视觉问答(VQA)、报告生成和病灶检测。每个任务在两个难度级别(Lite和Standard)下进行评估,这两个级别使用相同的数据和指标,但任务简报中的脚手架支持程度不同;每次运行都使用最终任务性能和S1-S5阶段分数进行评分,从而能够从初始任务简报到最终提交产物的整个流程进行阶段级分析。在数千次记录运行中,阶段级评分显示,验证是平均最弱的工作流阶段,而设置阶段最强,表明当前智能体更擅长使流程可执行,而非验证其可靠性。运行后错误分析进一步显示,验证和提交失败主导了标记的错误,分别占触发代码的37.7%和38.1%,而任务理解错误很少,仅占0.9%,且触发一个错误代码的运行的平均总体得分比无错误代码的运行低48%。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - AutoMedBench:迈向基于Agent AI的医疗自动研究

来源: https://huggingface.co/papers/2606.01961 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

AutoMedBench 是一个面向自主医疗AI研究的全面基准测试,它评估Agent在五个工作流阶段中的表现,揭示了验证阶段是最薄弱的环节,并强调了在医疗AI工作流中可靠流水线执行与验证的重要性。

自主Agent(https://huggingface.co/papers?q=Autonomous%20agents)正日益被期望支持端到端的医疗AI研究(https://huggingface.co/papers?q=medical-AI%20research)工作流,而不仅仅是孤立的预测任务或简短形式的临床问答。然而,现有的医疗Agent基准测试主要评估最终输出,对Agent在研究过程中的行为可见性有限。为填补这一空白,我们提出了AutoMedBench,一个面向自主医疗AI研究的工作流感知基准(https://huggingface.co/papers?q=workflow-aware%20benchmark),覆盖多种医学影像与多模态推理(https://huggingface.co/papers?q=inference)任务,并将Agent执行过程组织为统一的五阶段工作流(https://huggingface.co/papers?q=five-stage%20workflow)(S1-S5):规划(https://huggingface.co/papers?q=Plan)、设置(https://huggingface.co/papers?q=Setup)、验证(https://huggingface.co/papers?q=Validate)、推理(https://huggingface.co/papers?q=Inference)和提交(https://huggingface.co/papers?q=Submit)。该基准包含长期任务(https://huggingface.co/papers?q=long-horizon%20tasks),每次运行平均33个Agent轮次,涵盖五个研究方向(https://huggingface.co/papers?q=research%20tracks):分割(https://huggingface.co/papers?q=segmentation)、图像增强(https://huggingface.co/papers?q=image%20enhancement)、视觉问答(https://huggingface.co/papers?q=visual%20question%20answering)(VQA)、报告生成(https://huggingface.co/papers?q=report%20generation)和病灶检测(https://huggingface.co/papers?q=lesion%20detection)。每个任务在Lite和Standard两个难度等级下进行评估,二者使用相同的数据和指标,但任务简要脚手架(task-brief scaffolding)的详细程度不同;每次运行同时使用最终任务性能得分和S1-S5阶段得分进行评分,从而支持从初始任务简要到最终提交制品的阶段级分析(https://huggingface.co/papers?q=stage-level%20analysis)。在数千次记录运行中,阶段级评分显示,验证(https://huggingface.co/papers?q=Validate)是平均表现最弱的工作流阶段,而设置(https://huggingface.co/papers?q=Setup)是最强的阶段,这表明当前Agent更擅长使流水线可执行,而非验证其可靠性。运行后错误分析(https://huggingface.co/papers?q=error%20analysis)进一步表明,验证(https://huggingface.co/papers?q=verification)和提交失败(https://huggingface.co/papers?q=submission%20failures)占据标签错误的绝大多数,分别占触发代码的37.7%和38.1%,而任务理解错误(https://huggingface.co/papers?q=task-understanding%20errors)很少见,仅占0.9%,并且触发一个错误代码的运行的平均整体得分比未触发错误代码的运行低48%。

查看arXiv页面(https://arxiv.org/abs/2606.01961) 查看PDF(https://arxiv.org/pdf/2606.01961) 项目页面(https://automedbench.github.io/) GitHub(https://github.com/AutoMedBench/AutoMedBench) 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01961)

在您的Agent中获取该论文:

hf papers read 2606.01961

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.01961 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.01961 以从此页面链接。

引用该论文的Spaces0

没有Space链接此论文

请在Space README.md 中引用 arxiv.org/abs/2606.01961 以从此页面链接。

包含该论文的收藏集0

没有收藏集包含此论文

请将此论文添加至收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

介绍 HealthBench

OpenAI Blog

OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。

AutoResearch AI:迈向人工智能驱动的研究自动化以实现科学发现

arXiv cs.AI

本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。