medical-software

#medical-software

MedCUA-Bench：面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI ↗ · 19小时前缓存

MedCUA-Bench是一个新的基准测试，用于评估计算机操作智能体在临床软件任务上的表现，涵盖10个医学领域的18个场景，并包含安全维度。结果显示，当前智能体表现不佳，尤其在真实OpenEMR上，凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞