标签
本文介绍了OfficeEval,一个基于中国全国计算机等级考试(NCRE)的基准测试,用于评估大语言模型代理在复杂办公自动化任务上的表现。前沿模型在单轮交互中最高得分36.6%,在使用智能体系统时达到68.8%,远低于人类水平。