medical-software

标签

Cards List
#medical-software

MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试

arXiv cs.AI · 19小时前 缓存

MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈