AutoMedBench:迈向基于智能体AI模型的医学自动研究
摘要
AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。
查看缓存全文
缓存时间: 2026/06/03 07:36
论文页面 - AutoMedBench:迈向基于Agent AI的医疗自动研究
来源: https://huggingface.co/papers/2606.01961 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
AutoMedBench 是一个面向自主医疗AI研究的全面基准测试,它评估Agent在五个工作流阶段中的表现,揭示了验证阶段是最薄弱的环节,并强调了在医疗AI工作流中可靠流水线执行与验证的重要性。
自主Agent(https://huggingface.co/papers?q=Autonomous%20agents)正日益被期望支持端到端的医疗AI研究(https://huggingface.co/papers?q=medical-AI%20research)工作流,而不仅仅是孤立的预测任务或简短形式的临床问答。然而,现有的医疗Agent基准测试主要评估最终输出,对Agent在研究过程中的行为可见性有限。为填补这一空白,我们提出了AutoMedBench,一个面向自主医疗AI研究的工作流感知基准(https://huggingface.co/papers?q=workflow-aware%20benchmark),覆盖多种医学影像与多模态推理(https://huggingface.co/papers?q=inference)任务,并将Agent执行过程组织为统一的五阶段工作流(https://huggingface.co/papers?q=five-stage%20workflow)(S1-S5):规划(https://huggingface.co/papers?q=Plan)、设置(https://huggingface.co/papers?q=Setup)、验证(https://huggingface.co/papers?q=Validate)、推理(https://huggingface.co/papers?q=Inference)和提交(https://huggingface.co/papers?q=Submit)。该基准包含长期任务(https://huggingface.co/papers?q=long-horizon%20tasks),每次运行平均33个Agent轮次,涵盖五个研究方向(https://huggingface.co/papers?q=research%20tracks):分割(https://huggingface.co/papers?q=segmentation)、图像增强(https://huggingface.co/papers?q=image%20enhancement)、视觉问答(https://huggingface.co/papers?q=visual%20question%20answering)(VQA)、报告生成(https://huggingface.co/papers?q=report%20generation)和病灶检测(https://huggingface.co/papers?q=lesion%20detection)。每个任务在Lite和Standard两个难度等级下进行评估,二者使用相同的数据和指标,但任务简要脚手架(task-brief scaffolding)的详细程度不同;每次运行同时使用最终任务性能得分和S1-S5阶段得分进行评分,从而支持从初始任务简要到最终提交制品的阶段级分析(https://huggingface.co/papers?q=stage-level%20analysis)。在数千次记录运行中,阶段级评分显示,验证(https://huggingface.co/papers?q=Validate)是平均表现最弱的工作流阶段,而设置(https://huggingface.co/papers?q=Setup)是最强的阶段,这表明当前Agent更擅长使流水线可执行,而非验证其可靠性。运行后错误分析(https://huggingface.co/papers?q=error%20analysis)进一步表明,验证(https://huggingface.co/papers?q=verification)和提交失败(https://huggingface.co/papers?q=submission%20failures)占据标签错误的绝大多数,分别占触发代码的37.7%和38.1%,而任务理解错误(https://huggingface.co/papers?q=task-understanding%20errors)很少见,仅占0.9%,并且触发一个错误代码的运行的平均整体得分比未触发错误代码的运行低48%。
查看arXiv页面(https://arxiv.org/abs/2606.01961) 查看PDF(https://arxiv.org/pdf/2606.01961) 项目页面(https://automedbench.github.io/) GitHub(https://github.com/AutoMedBench/AutoMedBench) 添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01961)
在您的Agent中获取该论文:
hf papers read 2606.01961
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.01961 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.01961 以从此页面链接。
引用该论文的Spaces0
没有Space链接此论文
请在Space README.md 中引用 arxiv.org/abs/2606.01961 以从此页面链接。
包含该论文的收藏集0
没有收藏集包含此论文
请将此论文添加至收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。
介绍 HealthBench
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
CHI-Bench: AI智能体能否自动化端到端、长周期、政策密集的医疗工作流程?
本文介绍了CHI-Bench,这是一个用于评估AI智能体在需要基于政策的决策、多角色组合和多边交互的复杂医疗工作流程端到端自动化方面的基准。实验结果表明,最佳智能体仅实现了28%的任务解决率,突显了当前智能体在政策密集的企业领域中的能力差距。
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。
AutoResearch AI:迈向人工智能驱动的研究自动化以实现科学发现
本综述审视了人工智能驱动的研究自动化(AutoResearch)这一新兴领域,分析了AI系统如何从孤立的任务辅助转向完整的工作流级别的科学发现。它定义了从人类引导的‘Vibe Research’到AI主导系统的光谱,并提出了五个评估科学可信度的维度。