DeskCraft:在专业工作流和人机协作中评估桌面代理的基准

arXiv cs.AI 论文

摘要

DeskCraft 是一个新的基准,用于评估桌面GUI代理在长周期专业创意工作流中的表现,并纳入了人机协作协议。它通过需要超过50个步骤的设计、视频、音频和3D软件任务来测试代理。

arXiv:2606.03103v1 公告类型:新 摘要:现实世界中,专业创意和工程软件中的桌面工作流往往需要长时间跨度,并且通常需要人机协调,代理主动寻求必要信息,用户随着任务进展提供额外指示、澄清、反馈或更正。然而,现有的桌面GUI基准大多将此场景简化为短小、简单的任务,所有用户指示均提前给出。为解决此问题,我们引入了 DeskCraft,一个针对长周期创意和工程工作流及主动人机协作的桌面GUI基准。DeskCraft 将任务组织成多级难度分类,长周期任务需要超过50个执行步骤,涵盖设计、视频、音频和3D创作领域的专业创意软件。此外,DeskCraft 将人机协作形式化为一个交互协议,包括回合中和回合后交流。回合中交互捕捉代理在不确定情况下的主动澄清和用户在代理执行过程中的主动打断,而回合后交互则容纳用户在代理示意完成后提供的反馈,共同涵盖真实协作模式的所有空间。我们在538个任务上评估了18个专有和开源代理,发现 GPT-5.4 在标准任务上达到31.6%,在交互任务上达到27.6%。进一步分析揭示了在长周期工作流交付和主动澄清方面的持续失败。我们将在 https://github.com/mrwwk/DeskCraft 开源所有评估代码、任务和数据。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:42

# DeskCraft:面向专业工作流和人机协作的桌面智能体基准测试

来源:https://arxiv.org/html/2606.03103

Wenkai Wang¹,*, Tao Xiong¹,*, Jingchen Ni²,*, Yunpeng Bao¹,*, Xiyun Li³, Tianqi Liu¹, Hongcan Guo⁴, Zilong Huang³, Shengyu Zhang¹,†

¹浙江大学  
²清华大学  
³腾讯  
⁴香港大学  
*同等贡献。  
†通讯作者

###### 摘要

现实世界中专业创意与工程软件中的桌面工作流往往持续时间长,且通常需要人机协作——智能体主动寻求必要信息,用户则在任务推进中提供额外指令、说明、反馈或修正。然而,现有桌面GUI基准测试大多将这种场景简化为短期、简化的任务,且所有用户指令一开始就已完整提供。为解决这一问题,我们提出了DeskCraft,一个专注于长时创意与工程工作流以及主动人机协作的桌面GUI基准测试。DeskCraft将任务组织为多级难度分类,其中长时任务需要超过50个执行步骤,并涵盖设计、视频、音频和3D创作等专业创意软件。此外,DeskCraft将人机协作形式化为一个包含**回合中**和**回合后**交互的交互协议。回合中交互捕捉了智能体在不确定时主动澄清以及用户在执行过程中主动打断的情况,而回合后交互则处理智能体发出完成信号后由用户驱动的反馈,共同覆盖了真实协作模式的全部空间。我们在538个任务上评估了18种专有和开源智能体,发现GPT-5.4在标准任务上达到31.6%,在交互任务上达到27.6%。进一步分析揭示了在长时工作流执行和主动澄清方面的持续失败。我们将在https://github.com/mrwwk/DeskCraft开源所有评估代码、任务和数据。

DeskCraft:面向专业工作流和人机协作的桌面智能体基准测试

## 1 引言

前沿多模态模型,如GPT-5(Singh et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib17))和Claude(Anthropic, 2025 (https://arxiv.org/html/2606.03103#bib.bib3)),现已展示出强大的屏幕理解与GUI操作能力(Qin et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib14); Agashe et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib1); Wang et al., 2026a (https://arxiv.org/html/2606.03103#bib.bib19))。这一进展预示着桌面智能体有望在未来承担用户日常数字工作中的大部分常规任务。然而,现实桌面生产力的要求远超孤立的GUI操作。专业工作流跨越多个应用且时间跨度长;例如,一个3D渲染管线从建模过渡到光照、渲染和合成,涉及各种工具。在整个过程中,用户通过澄清、修正和反馈来迭代指导工作流。同时,智能体必须主动获取缺失信息,而非依赖于假设(Horvitz 1999 (https://arxiv.org/html/2606.03103#bib.bib7); Allen et al. 1999 (https://arxiv.org/html/2606.03103#bib.bib2))。因此,可部署的桌面智能体不仅需要维持长动作序列,还必须动态适应不断变化的用户意图。

现有的桌面基准测试(Xie et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib22); Bonatti et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib5); Yang et al., 2026 (https://arxiv.org/html/2606.03103#bib.bib26))成功地在实时虚拟机中评估了智能体,但其任务大多为短小的、原子的,并由预定指令指定,导致持续工作流和人机对话未被充分探索。明确包含用户交互的基准测试主要针对工具使用、企业工作流和移动助手(Yao et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib27); Xu et al., 2026a (https://arxiv.org/html/2606.03103#bib.bib23); Kong et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib9))。在桌面工作流中,智能体必须将每个澄清或修正映射到当前的GUI状态,修改计划,并从已完成的工作继续执行。因此,仍然需要一个能够评估实时环境中此类交互式长时工作流的桌面基准测试。

参见图注

图1:DeskCraft概览。左:386个标准任务,分为L1原子级、L2组合级和L3长时级,其中L3来源于真实的交付流程。中:152个交互任务,由三种可组合的触发条件(*步数*、*智能体询问*、*智能体完成*)驱动,通过人机协作演化任务。右:5个领域的11个应用,包括专业软件(如Blender、Kdenlive),相比以往基准测试,这些软件要求更精细的空间精度、更密集的用户界面和更深入的领域知识。

为弥合这一差距,我们提出了DeskCraft(图1 (https://arxiv.org/html/2606.03103#S1.F1)),一个包含538个任务的桌面基准测试,旨在评估智能体在实时桌面环境中的长时专业工作流和人机交互能力。DeskCraft贡献了三个设计组件。

**诊断性工作流难度。** 桌面任务对GUI智能体提出越来越复杂的执行要求,从遵循简单用户指令,到在任务内组合操作,再到维持多步骤的长时工作流。DeskCraft将此进展定义为L1/L2/L3难度分类(第3.2节),使得可以根据暴露的执行需求水平来诊断失败。特别是,L3任务源自真实专业场景,保留了实际交付流程的依赖结构,而非合成地链接独立操作。

**人机交互协议。** 真实的桌面协作文如执行过程演进:用户可能修改目标,而智能体可能需要请求缺失信息或升级风险决策。DeskCraft通过三种触发类型将此过程形式化,覆盖回合中和回合后交互。*回合中*触发在执行期间触发,包括两种类型:智能体发起的澄清和用户发起的打断。*回合后*触发在智能体发出完成信号后触发,允许用户提供后续指令。这些触发共同捕捉了广泛的人机协作真实模式。

**扩展的专业软件覆盖范围。** 先前的基准测试主要集中在办公套件上,忽略了专业创意工作流。DeskCraft将评估扩展到图像设计、矢量设计、视频编辑、音频制作和3D渲染,覆盖了要求空间精度和领域特定工具使用的工作流。

表1:与代表性智能体基准测试的比较,涉及领域、规模、长时关注点(LH Focus)、用户交互形式(User Int.)、难度分层(Diff. Lvls.)和评估粒度(Eval.)。当多步工作流或跨应用依赖是基准测试的核心轴线时,标记LH Focus。DeskCraft是首个同时支持长时专业工作流、人机协作协议和结构化难度级别的桌面基准测试。

在538个任务中,最强模型在标准任务上仅达到33.8%。在交互子集上,GPT-5.4达到27.6%,而在100步设置下,Kimi-K2.6达到25.7%。进一步分析表明,在L3工作流级别的工件交付上性能急剧下降,更长的步数预算在100步之外只能收回很少的额外成功,并且智能体很少主动寻求澄清。这些结果表明,主要的瓶颈已从简单的指令执行转向持续的工作流规划和主动的人机协调。

我们的贡献如下:
- •我们提出了DeskCraft,一个包含538个任务的桌面基准测试,具有L1/L2/L3难度分类和专业工作流,涵盖图像与矢量设计、视频编辑、音频制作和3D渲染。
- •我们提出了一个人机协作协议,将协作建模为基于阶段的、由用户反馈、智能体信息寻求和执行进度驱动的任务演化。
- •我们评估了18个专有和开源智能体,表明当前模型远未达到可靠,在L3工作流交付和主动澄清方面存在最大差距,并且更长的步数预算带来的额外成功有限。

## 2 相关工作

#### 桌面与长时基准测试。
桌面GUI基准测试已经建立了执行验证的评估体系,并扩展到平台、动作接口、初始状态鲁棒性和专业软件基础(Xie et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib22); Bonatti et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib5); Yang et al., 2026 (https://arxiv.org/html/2606.03103#bib.bib26); Jia et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib8); Zhao et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib30); Li et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib10); Nayak et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib13))。然而,它们仍然主要关注单指令任务,忽略了跨多个桌面应用的持续工作流和执行过程中的用户对话。与此同时,长时评估在Web、GUI轨迹和专业工作场所设置中取得了进展,揭示了智能体在多步任务完成方面的持续差距(Zhou et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib31); Liu et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib11); Xu et al., 2026a (https://arxiv.org/html/2606.03103#bib.bib23))。DeskCraft引入了一个跨多个应用的长时专业桌面工作流基准测试。

#### 交互式与人机协作评估。
交互式智能体评估已逐步超越静态的单轮任务完成,强调对话、演变的用户意图以及沿着新的评估轴扩展基准测试(Yao et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib27); Xu et al., 2026a (https://arxiv.org/html/2606.03103#bib.bib23); Kong et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib9); Mialon et al., 2024 (https://arxiv.org/html/2606.03103#bib.bib12); Deng et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib6); Zan et al., 2026 (https://arxiv.org/html/2606.03103#bib.bib28); Zhang et al., 2026 (https://arxiv.org/html/2606.03103#bib.bib29))。然而,这些进展在桌面环境中的覆盖范围有限,大多数基准测试仍在使用固定任务指令评估智能体,而没有执行中的用户反馈(Zhao et al., 2025 (https://arxiv.org/html/2606.03103#bib.bib30))。DeskCraft为长时专业桌面工作流引入了一个人机协作协议(表1 (https://arxiv.org/html/2606.03103#S1.T1))。

## 3 DeskCraft基准测试

DeskCraft是一个基于执行的桌面基准测试,针对长时工作流、用户交互和专业软件任务的联合场景。本节具体说明其任务形式化、L1/L2/L3难度分类、交互协议和评估流程。

### 3.1 任务定义

DeskCraft将GUI智能体评估形式化为一个在实时桌面环境中基于阶段的条件控制问题。一个任务定义为τ = (s₀, u₀, Φ, E, R),其中s₀是初始桌面状态,u₀是用户的指令,E是桌面环境,Φ = (φ₁, ..., φ_K)是一个可选的交互阶段序列(第3.3节),R是评估函数。每个阶段φ_k = (u_k, g_k)对应对一个后续用户消息和一个决定何时传递该消息的触发条件。

在每一步,智能体观察截图x_t和当前活跃指令,然后选择a_t ∈ A ∪ {DONE, ASK, FAIL},其中A包括GUI操作(点击、按键、滚动)。当智能体发出DONE或FAIL,或达到步数预算时,回合结束;ASK不会终止回合,但可能激活下一个阶段,更新当前活跃指令。标准任务设置K=0(单条固定指令);交互任务设置K>0,允许目标在执行过程中演变。最终得分R(s_T) ∈ {0, 1}由最终桌面状态计算得出。

### 3.2 难度分类

DeskCraft根据成功所需执行能力对标准桌面任务进行分类。**L1**任务包含简单的原子操作,智能体需要执行一个明确指定的GUI动作。**L2**任务通过组合相关的L1任务构建,通常涉及2-4个相互依赖的GUI操作。**L3**任务是长时任务,通过多个相互关联的子任务追求一个具体的、高层次的目标。这些任务被设计为模拟真实世界使用场景,避免L1级原子操作的平凡拼接,并且每个任务都提供了多个相关的资源文件。难度分布也因应用而异。一些新引入的专业软件领域目前包含更多L1风格的原子任务,而常见的应用则包含更高比例的L2/L3任务。

参见图注

图2:DeskCraft交互协议。三种可组合的触发条件(agent_done, agent_ask, step_count)定义下一个用户阶段何时进入会话:在完成后、智能体询问时或在固定步数预算后。

### 3.3 交互协议

在真实的桌面工作中,用户很少事先固定完整规格;他们在执行过程中会澄清、打断或修改。然而,无约束的对话使评估难以复现。因此,DeskCraft将交互表示为一个可执行的阶段协议,在保持确定性的同时捕捉目标演化。一个交互任务由一系列阶段Φ = (φ₁, ..., φ_K)组成。每个阶段φ_k = (u_k, g_k)包含一个用户消息u_k和一个触发条件g_k(·) ∈ {0, 1}。当g_k触发时,u_k被追加到交互历史中,并成为智能体的当前活跃指令。

#### 触发条件作为闭环最小集合。
参见图注
(a) 指令长度。
参见图注
(b) 评估器调用次数。
参见图注
(c) 规则原子数。
图3:难度分类统计。
尽管DeskCraft根据所需执行能力而非表面长度定义L1/L2/L3,但这些级别与可衡量的复杂度对齐:指令长度和评估器调用次数通常从L1到L3递增。一些任务使用金文件比较进行评估,无论任务复杂度如何,仅涉及一次评估器调用和规则。交互任务单独显示,因为其复杂度分布在多个阶段级用户消息中。

DeskCraft使用一个由三种可组合触发类型组成的最小集合来闭环人机交互循环,覆盖回合中和回合后交互。对于*回合中*交互,发生在智能体仍在执行时:agent_ask 在智能体发出ASK以寻求澄清时触发,而 step_

相似文章

知识工作的设计与报告基准

arXiv cs.AI

本文提出一个三步框架,用于设计和报告知识工作AI的基准,强调基准任务与实际工作活动之间的一致性。它从O*NET数据库中推导出18种工作活动,并分析了三个现有基准(GDPval、OfficeQA Pro、APEX-SWE),以展示基准分数与实际工作能力之间的差距。