ncre

标签

Cards List
#ncre

注意差距:前沿大语言模型能否通过标准办公能力考试?

arXiv cs.AI · 2026-06-10 缓存

本文介绍了OfficeEval,一个基于中国全国计算机等级考试(NCRE)的基准测试,用于评估大语言模型代理在复杂办公自动化任务上的表现。前沿模型在单轮交互中最高得分36.6%,在使用智能体系统时达到68.8%,远低于人类水平。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈