PPT-Eval:面向PowerPoint任务的计算机使用代理基准测试

arXiv cs.LG 论文

摘要

介绍了PPT-Eval,一个包含120个PowerPoint任务的基准测试,用于评估计算机使用代理,采用基于评分标准的打分系统,可给予部分分数。像Claude-4.5-Opus这样的前沿强代理仅达到45%的成功率,凸显了此类任务的难度。

arXiv:2606.31154v1 公告类型:新 摘要:创建和编辑幻灯片是一项丰富的多模态活动,在专业和教育环境中无处不在,因此成为现实世界计算机使用代理的理想测试平台。Microsoft PowerPoint 是创建演示文稿最广泛采用且功能最丰富的环境之一。我们推出了 PPT-Eval,一个包含12个文件中120个PowerPoint任务的基准测试,涵盖内容创建和演示编辑场景,并按难度组织。该领域的一个核心挑战是评估:任务复杂、多模态,且通常存在多种有效解决方案。此外,当今的代理往往只取得部分进展,而二元成功指标无法捕捉这一点。为此,我们设计了一个稳健的评估框架,帮助创建针对PowerPoint任务的特定评分标准,借鉴并建立在以往基于评分标准的评估工作之上。这些评分标准对中间步骤给予部分分数,惩罚不必要的更改和不良美学,并提供自然语言反馈。这种细致的方法非常有效,与人类判断的Kendall's {\tau}-b相关系数达到0.77。我们发现现有的前沿代理在解决PowerPoint任务上仍面临困难,像Claude-4.5-Opus这样的强大模型仅达到45%的成功率和57%的平均部分分数。该基准测试位于:https://microsoft.github.io/ppteval。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:34

# PPT-Eval:面向 PowerPoint 任务的计算机使用智能体基准测试  
来源:https://arxiv.org/html/2606.31154  

Vishwas SuryanarayananRaja Hasnain AnwarFiroz ShaikShubhang DesaiThong Q. NguyenMuhammad Taqi RazaVishal ChowdharyGraham Neubig  

###### 摘要  

创建和编辑幻灯片是一项丰富的多模态活动,在专业和教育场景中无处不在,因此成为真实世界计算机使用智能体的理想试验场。Microsoft PowerPoint 是应用最广泛、功能最丰富的演示创建环境之一。我们提出了 **PPT-Eval**,这是一个包含 120 个 PowerPoint 任务的基准测试,覆盖 12 个文件,既包含内容创建也包含演示编辑场景,并按难度进行组织。该领域的一个核心挑战是评估:任务复杂、多模态,且往往有多种有效解决方案。此外,当前的智能体通常只能取得部分进展,而二元的成功/失败指标无法捕捉这种差异。为解决这一问题,我们设计了一个鲁棒的评估框架,帮助为 PowerPoint 任务创建特定任务的评分细则,该框架借鉴并扩展了以往基于细则的评估工作。这些细则为中间步骤分配部分分数,惩罚不必要的更改和不佳的美观性,并提供自然语言反馈。这种细致的方法非常有效,与人类判断的 Kendall’s τ_b 相关性达到 0.77。我们发现,现有的前沿智能体在解决 PowerPoint 任务方面仍然困难重重,即使是 Claude-4.5-Opus 这样的强模型也仅能达到 45% 的成功率和 57% 的平均部分分数。基准测试代码库位于:https://microsoft.github.io/ppteval。  
**关键词**:基准测试,智能体,计算机使用,PowerPoint,幻灯片,演示,多模态  

参见图注  
图 1:PPT-Eval 基准测试中任务求解的示意图。给定一个任务,智能体在 PowerPoint Online 的沙盒化实例中与文件进行交互。交互可以充分利用 PowerPoint 的 GUI 功能集。PPT-Eval 提供了评分细则,可以对不同完成度进行评分,同时提供细致的部分分数和自然语言反馈。  

## 1 引言  

创建和编辑演示幻灯片是一项核心活动,支撑着全球职场、课堂和会议的沟通。能够协助或自动化部分流程的智能代理有望带来巨大的生产力提升。根据 Buffalo 7(https://arxiv.org/html/2606.31154#bib.bib4)的数据,28.7% 的商业领袖报告每周花费五小时或更多时间创建幻灯片,员工将超过 10% 的工作时间用于准备演示。糟糕的幻灯片设计和低效率会带来实际成本:26% 的受访者表示因演示质量不足而失去潜在客户,25% 则失去现有客户。幻灯片创建和编辑的复杂性也使其成为计算机使用智能体的理想试验床。有效的智能体需要推理并操作多样化的多模态内容——包括文本、图像、表格、图表、图标、布局、过渡和动画——以充分利用现代演示工具。此外,现实中的演示工作流以迭代编辑为主,而非从零创建。调查显示,大多数演示者多次重用和改编现有 deck,并且许多组织维护共享的“幻灯片库”以促进混合和重用(Khoja, 2019(https://arxiv.org/html/2606.31154#bib.bib12);SlideUpLift Editorial Team, 2025(https://arxiv.org/html/2606.31154#bib.bib15))。然而,尽管该领域很重要,目前还没有基准测试能够捕捉真实幻灯片编辑的全部复杂性。广泛的计算机使用基准测试涉及许多应用,但在演示软件方面缺乏深度(Xie et al., 2024(https://arxiv.org/html/2606.31154#bib.bib19);Bonatti et al., 2025(https://arxiv.org/html/2606.31154#bib.bib3)),而针对演示的基准测试要么强调从零生成(Ge et al., 2025(https://arxiv.org/html/2606.31154#bib.bib8)),要么局限于通过有限的程序化 API 可解决的任务(Guo et al., 2024(https://arxiv.org/html/2606.31154#bib.bib10)),忽略了设计工具、高级图形、过渡、动画等原生功能。因此,真实的、基于 GUI 的 PowerPoint 编辑作为一个基准测试挑战仍未得到充分探索。  

为填补这一空白,我们提出了 **PPT-Eval**,一个针对基于 GUI 与 PowerPoint 网页版(PowerPoint Online)交互的基准测试。与受限于 API 的基准测试不同,PPT-Eval 使智能体能够访问人类用户可用的全部功能——包括图形、布局、过渡和动画——为评估计算机使用智能体提供了一个真实且全面的环境。PPT-Eval 包含 120 个任务,这些任务来自开放许可的 PowerPoint deck,并按难度分为简单、中等和困难三类。为这类任务开发评估框架面临独特挑战:幻灯片编辑目标本质上是多模态的、开放式的,且往往有多种有效解决方案。鉴于当前计算机使用智能体尚不成熟,完美完成任务仍具挑战性——智能体通常只能取得部分进展。因此,二元成功/失败指标无法捕捉智能体能力之间的有意义区分。受先前基于细则评估的工作启发(Gou et al., 2025(https://arxiv.org/html/2606.31154#bib.bib9);Viswanathan et al., 2025(https://arxiv.org/html/2606.31154#bib.bib16)),我们为每个任务设计了详细的评分细则,这些细则(1)为中间进展分配部分分数,(2)惩罚不必要或有损的编辑,(3)生成自然语言反馈。这实现了细致、可解释的评分和鲁棒的自动评估(见图 1(https://arxiv.org/html/2606.31154#S0.F1))。在一项元评估研究中,基于细则的分数与人类判断表现出高度一致性(Kendall’s τ_b = 0.77)。最后,我们在 PPT-Eval 上评估了一系列智能体,包括专有前沿模型如 OpenAI 的 Computer-Use-Preview(OpenAI, 2025(https://arxiv.org/html/2606.31154#bib.bib14))和 Anthropic 的 Claude-4-Sonnet 与 Claude-4.5-Opus(Anthropic, 2025(https://arxiv.org/html/2606.31154#bib.bib1)),以及开放权重模型如 Opencua(Wang et al., 2025(https://arxiv.org/html/2606.31154#bib.bib17))和 Qwen3-VL(Bai et al., 2025(https://arxiv.org/html/2606.31154#bib.bib2))的 7/8B 和 32B 变体。我们发现,最强的模型能够取得有意义的进展(例如,Claude-4.5-Opus 达到 45% 成功率和 0.57 平均部分分数),但仍然显著落后于人类表现(80% 成功率和 0.90 平均部分分数)。我们的发现突显了该基准测试的难度以及在真实 GUI 计算机使用能力方面仍有巨大的提升空间。  

## 2 相关工作  

##### 计算机使用基准测试。  
操作系统级别的基准测试,如 OSWorld(Xie et al., 2024(https://arxiv.org/html/2606.31154#bib.bib19))和 WindowsAgentArena(Bonatti et al., 2025(https://arxiv.org/html/2606.31154#bib.bib3)),在现实环境中评估跨多种桌面应用的智能体,但要么仅对 LibreOffice Impress 等演示软件提供表层覆盖,要么完全忽略此类任务。OfficeBench(Wang et al., 2024(https://arxiv.org/html/2606.31154#bib.bib18))针对涉及 Word、Excel、电子邮件和日历工具的多应用办公流程,但排除了 PowerPoint 或其他演示任务。  

##### 面向演示的基准测试。  
PPTC(Guo et al., 2024(https://arxiv.org/html/2606.31154#bib.bib10))通过 `python-pptx`(Canny & contributors, 2025(https://arxiv.org/html/2606.31154#bib.bib5))的程序化调用对 PowerPoint 编辑进行基准测试。这种方法排除了智能体使用设计工具、高级图形和 SmartArt 支持、主题、高级布局、过渡和动画等功能。另一个基准测试 SlidesBench(Ge et al., 2025(https://arxiv.org/html/2606.31154#bib.bib8))专注于文本到幻灯片的生成,评估程序化生成幻灯片的输出相似度和设计指标。它侧重于从零创建单张幻灯片的基准测试,而非在 PowerPoint 完整 GUI 环境中编辑整个幻灯片 deck,因此忽略了真实工作流中典型的迭代、接地编辑。  

##### 基于评分细则和检查表的结构化评估。  
虽然上述基准测试使用二元成功/失败标准来测量智能体性能,但近年来的网络基准测试和针对不可验证领域的强化学习工作,如 Mind2Web 2(Gou et al., 2025(https://arxiv.org/html/2606.31154#bib.bib9))和 WildChecklist(Viswanathan et al., 2025(https://arxiv.org/html/2606.31154#bib.bib16)),引入了能够捕捉成功程度的结构化评分细则或检查表。另一个例子是 SheetAgent(Chen et al., 2024(https://arxiv.org/html/2606.31154#bib.bib6)),它引入了电子表格操作基准测试,为每个任务配以详细的子目标序列,支持部分分数评分。受这些方法的启发,我们为 PPT-Eval 任务设计了分层、树状结构的评分细则,分配部分分数、惩罚无关编辑并生成自然语言反馈。附录中的表 8(https://arxiv.org/html/2606.31154#A3.T8)总结了 PPT-Eval 与相关基准测试的区别。  

## 3 PPT-Eval 基准测试  

### 3.1 PPT-Eval 任务  

每个 PPT-Eval 任务包含一个 **目标**(自然语言指令)、一个 **文件**(需要修改的 .pptx 文件)和一个 **评分细则**(结构化的评分脚本)。我们设计的任务充分利用了 PowerPoint Online 丰富的功能集。由于 GUI 智能体可以原生访问这些功能,而当前基于 API 的交互通常只支持子集,我们的主要实验集中在 GUI 智能体上。尽管如此,基准测试框架仍然兼容两种方法:评估仅依赖于 *原始* 文件和智能体的 *修改后* 版本——而 *不* 依赖于所采取的动作序列。这种设计使得 PPT-Eval 成为方法无关的。  

### 3.2 PPT-Eval 环境  

参见图注  
图 2:任务设置和评估工作流。  

图 2(https://arxiv.org/html/2606.31154#S3.F2)描绘了 PPT-Eval 的任务执行和评估工作流。为了准备一个任务,PPT-Eval 首先将任务的 PPTX 文件副本上传到 OneDrive,并获取一个 *匿名、可编辑* 的 PowerPoint Online URL。然后在基于 Ubuntu 的沙盒中启动任务(使用 screenenv(Hugging Face, 2025(https://arxiv.org/html/2606.31154#bib.bib11))实例化),该沙盒运行指向此 URL 的 Chromium 浏览器。这种设置使智能体能够访问 PowerPoint 网页版的完整最终用户功能表面,避免了诸如 `python-pptx` 等程序化 API 的覆盖限制。重要的是,由于该链接提供匿名编辑访问,基准测试可以在 *无需* Microsoft 365 订阅的情况下运行。111每个任务在隔离的 PowerPoint Online 会话中运行(通过匿名访问),从而实现确定性初始化、安全执行和并行评估。测试框架提供每任务超时、详细日志和工件捕获(前后文件及截图),以支持系统性调试。我们的环境为常见的 GUI 级别动作(鼠标、键盘、滚动)提供接口。环境执行每个动作,推进浏览器状态,并返回全屏截图作为观察,紧密模拟人类幻灯片编辑并捕捉演示操作的多模态特性。为了实现可重复性和并行化,每次运行都从文件的新副本和干净的浏览器会话开始,因此来自同一 deck 的任务保持独立,可以在多个沙盒中并发评估。  

### 3.3 文件选择  

参见图注  
图 3:来自 12 个基准测试文件的代表性幻灯片,涵盖主题(如医学、计算机科学、会计、历史)和视觉风格(从文字密集型到图形密集型),以支持异构任务类型。  

我们从互联网档案馆中精选了一组代表性、包含 12 个开放许可的 PowerPoint deck,共 404 张独特幻灯片,提供了广泛的幻灯片风格覆盖。图 3(https://arxiv.org/html/2606.31154#S3.F3)展示了各文件中的示例幻灯片,图 4(https://arxiv.org/html/2606.31154#S3.F4)显示了 PPT-Eval 任务相关幻灯片中各类元素(如图像、表格、动画、非标准布局等)的百分比。文件主题包括医学、计算机科学、会计、生命科学、历史、航空航天、建筑、社会科学、教育和环境科学。文件归属和许可证见附录 A.1(https://arxiv.org/html/2606.31154#A1.SS1)。  

参见图注  
图 4:PPTArena 任务相关幻灯片中元素的分布。“Has Shapes”指包含文本框、图像或表格之外其他形状的幻灯片;“Standard Layout”指默认的 PowerPoint“标题和内容”布局。  

### 3.4 任务整理  

我们采用半自动流水线为 12 个选定的文件每个整理出 10 个定制任务(共 120 个任务)。我们首先通过对一个计算机使用智能体(Claude-4-Sonnet)进行提示,让其探索每个文件并提出任务,从而生成一个包含 471 个候选任务的池子。这一过程受到近期利用 LLM 驱动探索生成接地计算机使用任务的工作的启发(Murty et al., 2024(https://arxiv.org/html/2606.31154#bib.bib13);Gandhi & Neubig, 2025(https://arxiv.org/html/2606.31154#bib.bib7);Zhao et al., 2025(https://arxiv.org/html/2606.31154#bib.bib20))。特别地,类似于 Go-Browse(Gandhi & Neubig, 2025(https://arxiv.org/html/2606.31154#bib.bib7)),我们扩展了智能体的动作空间,增加了一个额外工具(`add_tasks_to_dataset(tasks: list[str])`),使智能体能够在探索过程中显式提出和记录任务。我们以每文件 35 步的预算运行这个任务提议智能体。附录 A.2(https://arxiv.org/html/2606.31154#A1.SS2)提供了完整的任务提议提示。生成的候选任务随后分配给六名人类标注者,他们将池子筛选为每个文件 10 个最终任务,并对其进行清晰度、实用性和可行性方面的优化(附录 A.3(https://arxiv.org/html/2606.31154#A1.SS3))。任务难度根据估计的用户工作量确定:  

- **简单**:通常需要 ≤5 步或 ≤1 分钟的简单任务。这些任务捕捉了人类通常更容易直接完成的基本能力。尽管如此,它们提供了对智能体基础 PPT 熟练程度的有用见解。  
- **中等**:稍微复杂的任务,大约需要 5–10 步或 2–5 分钟。这些复合任务使用户开始看到智能体委托的真正价值。  
- **困难**:可能需要 ≥10 步或 ≥5 分钟的复杂任务,需要非平凡的推理或使用高级功能。将此类任务委托给智能体将节省用户大量时间和精力。  

图 5(https://arxiv.org/html/2606.31154#S3.F5)显示了按难度划分的任务分布。按难度级别的任务示例见附录中的表 4(https://arxiv.org/html/2606.31154#A1.T4)。  

参见图注  
图 5:120 个任务按难度(简单/中等/困难)和高层意图类别(如设计与布局、图像操作、表格/数据可视化)的分布。放大查看意图类别。  

### 3.5 任务特定评分细则设计  

评估演示编辑任务具有挑战性,因为幻灯片修改本质上是多模态的,且通常允许多种有效解决方案。一种成功的评估

相似文章

MyPCBench:面向个人智能计算机使用代理的基准测试

Hugging Face Daily Papers

MyPCBench 在模拟的 Linux 桌面环境中,通过真实世界的网络应用评估作为个人助手的计算机使用代理,结果显示 Claude Opus 4.6 的任务完成率最高,达到 55.4%,但在涉及多个应用和长时间操作的任务上仍存在困难。

@yaohui12138: 最近 guizang 、zarazhangrui 花叔等大佬纷纷开源 PPT Skill,我花了一天测试完了7个ppt skill项目,直接把结论分享给大家: AI 生成 PPT 丑的核心原因,不是 AI 能力不行,是你没给它正确的审美约…

X AI KOLs Timeline

作者评测了7个开源PPT Skill项目,指出AI生成PPT丑的核心原因是缺乏正确的审美约束系统,这些项目通过编译审美规则来提升AI生成PPT的设计质量,并分别介绍了各自的特点和适用场景。

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。

@KyrieCheungYep: 推荐一个 PPT 制作 Skill:ultimate-ppt-master-skill,它比较贴近真实工作时候需要做 PPT 的场景,功能和亮点如下: 1、先问清楚需求 很多 AI PPT 工具上来就做页,结果做出来全是空话。 PPT M…

X AI KOLs Timeline

推荐一个开源PPT制作工具ultimate-ppt-master-skill,它通过先明确需求、整理资料结构、生成可编辑PPTX或Web Deck、配图生成和成稿审阅等流程,贴近真实办公场景,解决AI PPT生成中常见的空话和不可编辑问题。