注意差距:前沿大语言模型能否通过标准办公能力考试?

arXiv cs.AI 论文

摘要

本文介绍了OfficeEval,一个基于中国全国计算机等级考试(NCRE)的基准测试,用于评估大语言模型代理在复杂办公自动化任务上的表现。前沿模型在单轮交互中最高得分36.6%,在使用智能体系统时达到68.8%,远低于人类水平。

arXiv:2606.10956v1 公告类型: 新论文 摘要: 大语言模型代理在计算机自动化领域的部署正在加速,但它们驾驭复杂、专业级生产力软件的能力在很大程度上尚未经过测试。我们认为,办公自动化是衡量文档自动化能力的理想环境,因为它需要长程规划与推理、精确的参数配置以及多应用集成。为了量化这一能力,我们引入了一个基于中国全国计算机等级考试(NCRE)的评估,包含Word、Excel和PowerPoint中的200项综合性实际操作任务。每项任务采用100分制评分,依据7,118个机器可评分标准进行打分,得分率指在这些任务中获得的平均评分百分比。我们对7个前沿大语言模型进行了基准测试,观察到明显的局限性:单轮模型最高得分为36.6%。一个带有执行反馈、迭代修复和更广泛办公自动化访问权限的更强智能体系统达到了68.8%,但仍低于作为评分合理性检查的社区参考分数95.5%。最终,我们的实验表明,尽管近期代码生成取得了进展,但实现可靠、细粒度的办公文档自动化对于当前代码生成大语言模型和智能体系统来说仍然是一个重大挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:18

# 正视差距:前沿大语言模型能否通过标准化办公能力考试?

来源:https://arxiv.org/html/2606.10956

###### 摘要

大语言模型(LLM)智能体在计算机自动化领域的部署正在加速,但其驾驭复杂、专业级生产力软件的能力在很大程度上尚未经过检验。我们认为,办公自动化是评估文档自动化能力的理想环境,因为它需要长程规划与推理、精确的参数配置以及多应用集成。为了量化这一能力,我们引入了一项基于中国国家计算机等级考试(NCRE)的评估,包含200项涵盖Word、Excel和PowerPoint的综合实操任务。每项任务按照100分制评分标准进行评分,使用7118个机器可评分的评判标准,得分率(SR)表示在这些任务中获得的平均评分百分比。我们测试了7个前沿LLM,并观察到显著的局限性:单轮模型的最高得分为36.6%。一个更强的智能体系统——具备执行反馈、迭代修复和更广泛的办公自动化访问权限——达到了68.8%,但仍低于作为评分合理性检查的95.5%社区参考分数。最终,我们的实验表明,尽管近期在代码生成方面取得了进展,但对于当前的代码生成LLM和智能体系统而言,实现可靠的细粒度办公文档自动化仍然是一个重大挑战。

## 1 引言

向自主大语言模型(LLM)智能体的转变推动了从软件工程到网页导航等多个领域的快速发展(Jimeneze等人,2024 (https://arxiv.org/html/2606.10956#bib.bib3);Zhou等人,2024 (https://arxiv.org/html/2606.10956#bib.bib1);Xie等人,2024 (https://arxiv.org/html/2606.10956#bib.bib2);Mialon等人,2024 (https://arxiv.org/html/2606.10956#bib.bib11))。然而,如果这些智能体要作为可行的“数字员工”发挥作用,它们必须掌握人类实际工作所依赖的环境。办公套件仍然是知识工作中使用最广泛的环境之一,并且熟练掌握Word、Excel和PowerPoint等应用仍然是基本的工作场所技能。然而,尽管其现实世界重要性,智能体在办公自动化领域的评估却出奇地不发达。当前的研究严重依赖合成环境、狭窄的单应用切片,或主观的LLM-as-a-judge评分,这些都无法充分捕捉真实办公工作流的复杂性。

为了为基于办公套件的智能体建立一个严格的标准,我们建议使用与认证人类专业人员相同的实操考试来评估它们。在本文中,我们引入了一个新颖的基准框架,基于中国国家计算机等级考试(NCRE),这是一个大规模标准化测试系统,已评估超过1.1亿名考生(国家教育考试院,2024a (https://arxiv.org/html/2606.10956#bib.bib17))。利用现有的人类认证体系可以同时解决多个基准测试瓶颈。NCRE提供了一套由领域专家设计、经过精心校准难度,并且关键之处在于使用客观的、机器可读的评分标准进行评估的基础和高级任务。此外,与传统的问答或孤立的代码补全任务不同,一个NCRE问题要求智能体对真实文档执行数十个不同的、相互依赖的操作。这便将人类专业考试转化为一个理想的、极具挑战性的测试平台,用于评估长程顺序决策能力。

参见图注
图1:OfficeEval中一个Word任务的端到端示例。根据任务指令(中间),原始文档(左侧)被转换成一个带有标题图像、标题样式和邮件合并标签的样式化手册(右侧)。仅显示2页文档的第1页;几个步骤(例如,3栏布局、水印)适用于第2页。该任务由分布在6个技能类别中的30个确定性标准进行评分。指令从原始中文翻译而来;在附录中提供了跨Word、Excel和PowerPoint的其他示例。

具体来说,我们引入了OfficeEval,这是一个综合基准,由200个NCRE任务构建,并根据7118个机器可评分的标准在Word、Excel和PowerPoint上进行评估。使用这个基准,我们在两种范式下系统评估了7个前沿LLM:单轮代码生成和自主编码智能体系统。我们的主要贡献和关键发现总结如下:

- **基于真实世界专业认证的基准。** 通过将NCRE转化为OfficeEval,我们提供了一个评估框架,该框架以提取的实操子集的60分参考阈值和作为评分合理性检查的95.5%社区参考分数为锚点。这为标准化实操任务评分标准下的长程办公自动化建立了一个高度真实且可量化的基线。
- **揭示关键性能差距的系统评估。** 我们的评估表明,在提取的实操子集上,没有单轮模型达到60分参考阈值,最佳模型(Claude Opus 4.7)仅达到36.6%的得分率(SR)。虽然自主编码智能体显示出显著改进,其中Claude Code达到53.0%,Codex达到68.8%,但所有模型均低于社区参考分数。此外,性能高度分化(Grok-4.1-fast的SR降至2.8%),表明仅凭前沿API地位并不能保证强大的办公自动化性能。
- **细粒度诊断与错误分类。** 为了理解模型失败的原因,我们引入了一个标准级别的分类,将执行崩溃与逻辑错误区分开来。这揭示了一个关键见解:在更强的编码智能体设置中,代码执行成功率从低于50%上升到98-99%,但操作准确率仍然很低。当前的智能体可以成功编写能运行的代码,但仍然难以实现正确的特定于Office的语义操作。

## 2 相关工作

LLM智能体基准测试现已涵盖网页导航(Zhou等人,2024 (https://arxiv.org/html/2606.10956#bib.bib1);Deng等人,2023 (https://arxiv.org/html/2606.10956#bib.bib12))、软件工程(Jimenez等人,2024 (https://arxiv.org/html/2606.10956#bib.bib3))、多环境推理(Liu等人,2024 (https://arxiv.org/html/2606.10956#bib.bib5);Mialon等人,2024 (https://arxiv.org/html/2606.10956#bib.bib11))和桌面自动化(Xie等人,2024 (https://arxiv.org/html/2606.10956#bib.bib2);Bonatti等人,2024 (https://arxiv.org/html/2606.10956#bib.bib27);Xu等人,2026 (https://arxiv.org/html/2606.10956#bib.bib28))。据我们所知,没有先前的基准能够将真实的标准化办公考试任务与跨Word、Excel和PowerPoint的确定性标准级评分结合起来。

在办公自动化领域,现有工作涵盖单个应用或狭窄范围。Word任务作为更广泛套件中的次要组成部分出现(Xie等人,2024 (https://arxiv.org/html/2606.10956#bib.bib2);Wang等人,2024b (https://arxiv.org/html/2606.10956#bib.bib23);Mu等人,2025 (https://arxiv.org/html/2606.10956#bib.bib31)),但没有专门的格式化评估。电子表格基准(Li等人,2023 (https://arxiv.org/html/2606.10956#bib.bib4);Ma等人,2024 (https://arxiv.org/html/2606.10956#bib.bib25);Chen等人,2025 (https://arxiv.org/html/2606.10956#bib.bib29))侧重于公式和数据操作,对图表定制、数据透视表和条件格式化的代表性不足。演示文稿基准(Guo等人,2024 (https://arxiv.org/html/2606.10956#bib.bib24);Huang等人,2025 (https://arxiv.org/html/2606.10956#bib.bib26))涵盖布局和编辑,但省略了动画、切换和跨应用技能。

最可比的多应用努力是OfficeBench(Wang等人,2024b (https://arxiv.org/html/2606.10956#bib.bib23))和OdysseyBench(Wang等人,2025 (https://arxiv.org/html/2606.10956#bib.bib30)),它们研究跨应用的Office工作流,但它们的评估目标是工作流级别的任务完成,而非NCRE风格的确定性、标准级别的文档属性细粒度评分。OfficeEval与先前工作在两个方面有所不同:(1)任务来自NCRE,这是一个由国家组织的、由领域专家委员会设计的认证考试,提供了合成或众包任务无法匹敌的外部验证难度和广泛的技能覆盖;(2)所有7118个评分标准都是机器可评分的,从而无需LLM或人类评判的差异即可在Word、Excel和PowerPoint上进行确定性、细粒度的评估。(1)的进一步后果是,OfficeEval上的分数具有外部定义的含义。每个标准的分数分配直接取自NCRE任务评分标准,因此模型的SR是按照与提取的实操任务相同的每任务100分评分标准来报告的。它是模型在该子集上获得的分配分数的份额,从而为分数提供了外部的评分标准锚点,而不仅仅是系统之间的基准内排名。

## 3 OfficeEval

### 3.1 数据来源

OfficeEval源自中国国家计算机等级考试(NCRE)的实操部分,特别是一级和二级MS Office模块(国家教育考试院,2024c (https://arxiv.org/html/2606.10956#bib.bib19), d (https://arxiv.org/html/2606.10956#bib.bib20))。NCRE是由中国国家教育考试院管理的一项全国标准化水平考试,旨在评估实际计算技能(国家教育考试院,2024a (https://arxiv.org/html/2606.10956#bib.bib17))。一级评估基础Office技能,例如基本格式化、简单公式和标准演示文稿创建,而二级涵盖更高级的操作,包括邮件合并、数据透视表、图表定制和复杂动画(国家教育考试院,2024c (https://arxiv.org/html/2606.10956#bib.bib19), d (https://arxiv.org/html/2606.10956#bib.bib20))。完整的NCRE考试还包括关于计算机基础的多项选择题,以及在一级中增加的基本操作系统和互联网任务;我们仅提取*实际的Office操作*部分(Word、Excel和PowerPoint),这些部分占考试分数的大部分(一级60%,二级80%),并且构成动手Office能力的主要评估(国家教育考试院,2024c (https://arxiv.org/html/2606.10956#bib.bib19), d (https://arxiv.org/html/2606.10956#bib.bib20))。这种两级结构为分析模型性能如何随任务复杂性变化提供了自然的难度梯度。

NCRE证书是国家认可的资格证书。完整的NCRE考试结合了关于计算机基础的多项选择题和本工作研究的实操任务,考生通过完整考试达到至少60分(满分100分)即可通过并获得教育部颁发的证书(国家教育考试院,2024b (https://arxiv.org/html/2606.10956#bib.bib18))。我们的OfficeEval基准提取了实操子集。每个评分标准及其分数分配均取自任务评分标准,因此SR是模型获得的分配分数的份额,并按照这些实操任务的相同每任务100分评分标准报告,这是由合成或众包任务构建的基准无法提供的属性。在本文中,60分值作为子集分数解释的参考阈值。

任务指令为中文,所有在本工作中评估的多语言LLM都能很好地支持中文。为了研究指令语言是否影响模型性能,我们还构建了所有200个任务的英文翻译版本——包括文档内容、评分标准和字体/样式映射——用于跨语言分析(第7节 (https://arxiv.org/html/2606.10956#S7))。我们在附录中提供了示例任务的英文翻译以供参考。¹¹¹附录中的示例取自国家教育考试院公开发布的官方NCRE样本材料:https://ncre.neea.edu.cn/xhtml1/category/1507/848-1.htm

#### 范围与数据可用性。
NCRE实操考试任务、输入文档和评分配置是受版权保护的考试材料,由教育部考试院和备考出版商创作。因此,我们不重新分发原始任务陈述、原始输入文档或评分脚本。为了使研究可复现,我们在附录中提供了我们使用的全套提示、实验环境与设置、评估过程以及标准级统计数据,以便相同的流程可以在独立获取的NCRE材料上复现,或应用于类似的办公水平数据源。

### 3.2 任务格式

OfficeEval中的每个任务由三个部分组成:

1. **输入文档:** 初始文档文件(Word .docx、Excel .xlsx或PowerPoint .pptx),以及任何支持材料,例如指令中可能引用的图像、数据文件或主题模板。
2. **任务指令:** 所需操作的自然语言描述,通常包含5-15个不同复杂度的子任务。指令通常包含*参考图像*,用于说明目标格式、布局或样式(参见图1 (https://arxiv.org/html/2606.10956#S1.F1)中的代表性示例)。这是Office工作的自然结果:复杂的格式化目标(表格边框、图表样式、SmartArt布局)本质上是可视化的,通常通过图像比单独的文字更容易传达。这也反映了现实工作实践;同事或设计师可能只提供一个样式模型,并期望文档按此制作。将视觉样式转化为具体Office操作的能力本身就是一项正在评估的实用技能。因此,该基准本质上是**多模态的**:解决一个任务通常需要将视觉参考与文本描述结合起来理解。
3. **评分配置:** 一个机器可读的XML文件,定义了所有评估标准,包括要检查的属性、预期值、比较运算符和分数分配。评估流程与输出文档的产生方式无关:给定任务指令和输入文档,任何方法产生一个输出文档,然后根据评分配置自动评分。图2 (https://arxiv.org/html/2606.10956#S3.F2) 展示了整体任务格式和评估流程。

参见图注
图2:OfficeEval基准和评估流程概览。来自NCRE的200个考试任务涵盖三个应用和两个难度级别。任务由单轮代码生成器或自主编码智能体处理,输出文档由确定性评估引擎根据7118个细粒度标准进行评分。

### 3.3 评估框架

我们的评估引擎使用Open XML SDK(Microsoft,2023 (https://arxiv.org/html/2606.10956#bib.bib15))解析由ISO/IEC 29500(ISO/IEC,2016 (https://arxiv.org/html/2606.10956#bib.bib14))标准化的Office Open XML文档,并作为一组Windows可执行文件(.NET,x86)运行。大多数评分标准通过直接解析Open XML文档结构进行评估;然而,一部分检查...

相似文章

DLawBench:通过多轮法律咨询评估大语言模型

arXiv cs.CL

DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。

IndustryBench:探测大语言模型在工业知识领域的边界

Hugging Face Daily Papers

本文介绍了 IndustryBench,这是一个针对中文工业采购问答的大语言模型基准测试,以国家标准为参照评估模型表现,突显了安全合规方面的差距。研究揭示,在考虑安全违规的情况下,扩展推理往往会导致安全调整后的评分降低,并改变模型的排名。