ncre

#ncre

注意差距：前沿大语言模型能否通过标准办公能力考试？

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了OfficeEval，一个基于中国全国计算机等级考试（NCRE）的基准测试，用于评估大语言模型代理在复杂办公自动化任务上的表现。前沿模型在单轮交互中最高得分36.6%，在使用智能体系统时达到68.8%，远低于人类水平。

0 人收藏 0 人点赞