标签
AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。
文章认为,公司是算法的集合,AI很快将优化每一个组成部分,从而引发一波由咨询主导的透明化和效率提升浪潮。