multi-role

标签

Cards List
#multi-role

CHI-Bench: AI智能体能否自动化端到端、长周期、政策密集的医疗工作流程?

arXiv cs.CL · 2026-05-19 缓存

本文介绍了CHI-Bench,这是一个用于评估AI智能体在需要基于政策的决策、多角色组合和多边交互的复杂医疗工作流程端到端自动化方面的基准。实验结果表明,最佳智能体仅实现了28%的任务解决率,突显了当前智能体在政策密集的企业领域中的能力差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈