SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
摘要
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。
arXiv:2605.15777v1 公告类型:新
摘要:计算机使用代理(CUA)正迅速将大型语言模型(LLM)从基于文本的推理扩展到在更复杂环境中的行动执行,例如网络浏览器和图形用户界面(GUI)。然而,现有的网络和GUI代理基准通常依赖于简化设置、孤立任务或短周期交互,使得难以评估代理在真实专业工作流程中的能力。软件即服务(SaaS)环境是CUA评估的自然选择,因为它们承载了现代数字工作的很大一部分,并且自然涉及动态系统状态、跨应用协调、领域特定知识和长周期依赖关系。为此,我们引入了SaaS-Bench,这是一个基于23个可部署SaaS系统的基准测试,覆盖六个专业领域,包含106个基于真实工作场景的任务。这些任务需要长周期执行,涵盖纯文本和多模态设置,并通过加权验证检查点进行评估,以衡量严格任务完成度和部分进展。实验表明,代表性的基于LLM的代理在SaaS-Bench上表现不佳,即使是最强的模型,端到端完成任务的比例也不足4%,暴露了在规划、状态跟踪、跨应用上下文维护和错误恢复方面的局限性。代码可在 https://github.com/UniPat-AI/SaaS-Bench 获取以进行复现。
查看缓存全文
缓存时间: 2026/05/18 06:34
# SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流? 来源:https://arxiv.org/html/2605.15777 Kean Shi¹,²,∗, Zihang Li²,∗, Tianyi Ma¹,∗, Zengji Tu¹,², Jialong Wu¹,², Xinbo Xu¹,², Qingyao Yang¹,³, Ruoyu Wu¹,², Weichu Xie², Ming Wu⁴, Jason Zeng⁴, Michael Heinrich⁴, Elvis Zhang⁵, Liang Chen¹,†, Kuan Li¹,†, Baobao Chang²,† ¹UniPat AI, ²PKU, ³HKU, ⁴0G Labs, ⁵Pipeline Lab ###### 摘要 计算机使用代理(CUAs)正迅速将大型语言模型(LLMs)从基于文本的推理扩展到更复杂环境中的动作执行,例如网页浏览器和图形用户界面(GUIs)。然而,现有的网页和GUI代理基准通常依赖简化设置、孤立任务或短周期交互,难以评估代理在真实专业工作流中的能力。软件即服务(SaaS)环境是CUA评估的自然选择,因为它们承载了现代数字工作的很大一部分,并且天然涉及动态系统状态、跨应用协调、领域特定知识和长周期依赖。为此,我们引入了**SaaS-Bench**,一个基于23个可部署SaaS系统、覆盖六个专业领域的基准,包含106个基于真实工作场景的任务。这些任务需要长周期执行,涵盖纯文本和多模态设置,并通过加权验证检查点进行评估,以衡量严格的任务完成和部分进展。实验表明,代表性的基于LLM的代理在SaaS-Bench上表现不佳,即使是最强的模型也只有不到4%的任务能够端到端完成,暴露了在规划、状态跟踪、跨应用上下文维护和错误恢复方面的局限性。代码可在[![[无标题图片]](https://arxiv.org/html/2605.15777v1/x1.png)UniPat-AI/SaaS-Bench](https://github.com/UniPat-AI/SaaS-Bench)获取以进行复现。 ††footnotetext:∗同等核心贡献者 ††footnotetext:†通讯作者:梁晨,李宽,常宝宝 参见说明 图1:SaaS-Bench排行榜。我们报告了七个前沿模型在106个长周期SaaS任务中的总体检查点分数(条形长度)和解析分数。 ## 1 引言 大型语言模型(LLMs)的近期进展催生了计算机使用代理(CUAs)的出现(Qin等人,2025 (https://arxiv.org/html/2605.15777#bib.bib26);Wang等人,2025 (https://arxiv.org/html/2605.15777#bib.bib27);OpenAI,2025 (https://arxiv.org/html/2605.15777#bib.bib28);Anthropic,2024 (https://arxiv.org/html/2605.15777#bib.bib29)),这标志着从被动理解到主动执行的范式转变(Zhou等人,2023 (https://arxiv.org/html/2605.15777#bib.bib10);Xie等人,2024 (https://arxiv.org/html/2605.15777#bib.bib4);He等人,2024 (https://arxiv.org/html/2605.15777#bib.bib30))。与传统模型仅关注语言理解和生成不同,CUAs能够通过图形用户界面、网页浏览器和API等多种接口与实际软件系统交互,从而完成端到端的工作流,如信息检索、数据操作和多步骤任务执行。因此,评估CUAs的真实能力已成为一个核心问题。然而,现有基准未能准确反映真实世界的代理能力,导致系统性的性能高估(Deng等人,2023 (https://arxiv.org/html/2605.15777#bib.bib2);Zhou等人,2023 (https://arxiv.org/html/2605.15777#bib.bib10);Koh等人,2024 (https://arxiv.org/html/2605.15777#bib.bib3);Xie等人,2024 (https://arxiv.org/html/2605.15777#bib.bib4))。首先,它们提供的应用级复杂性有限。即使基准使用可执行或自托管的网页环境,其页面逻辑、后端约束和状态转换通常也比真实SaaS系统简单。其次,它们未能捕捉真实世界的专业工作流,因为任务通常局限于孤立的、单一应用场景,目标简化,而真实专业工作自然涉及跨系统协调、领域特定知识和结构化的多步骤过程。第三,它们缺乏真实SaaS工作流所需的长周期依赖,完成一个任务可能涉及超过100个交互步骤。因此,现有基准在CUAs能否在真实、高价值场景中有效运行方面提供的洞察有限。 参考说明 图2:SaaS-Bench提供了一个在可部署SaaS环境中评估CUAs的真实基准。它由23个真实SaaS系统组成,分为六个专业领域,支持反映真实世界SaaS工作流的106个任务。 为解决这些局限,必须在反映真实工作的环境中评估代理。软件即服务(SaaS)平台已成为现代知识工作的主导基础设施,广泛应用于CRM、财务、运营和客户支持等领域(China,2025 (https://arxiv.org/html/2605.15777#bib.bib31);Gartner,2024 (https://arxiv.org/html/2605.15777#bib.bib32))。这些系统天然具有三个关键属性:(1) 复杂且真实的环境,具有完整的前端-后端交互和动态状态依赖;(2) 经济上有意义的工作流,涉及结构化的多步骤过程和跨系统协调;(3) 固有的长周期任务结构,需要在多个阶段进行扩展交互。与合成或简化基准不同,SaaS系统是为真实用户和真实操作流程设计的,其中动作与持久数据和系统约束紧密耦合。因此,代理在这类环境中的行为更真实地反映其实用性和鲁棒性。因此,SaaS平台为评估CUAs在现实性、复杂性和实际相关性方面提供了理想的试验场。基于这一洞察,我们引入了**SaaS-Bench**,一个旨在真实SaaS环境下评估CUAs的基准,如图2所示。 SaaS-Bench基于三个关键原则构建。首先,它提供真实且可部署的SaaS环境,由真实世界的开源SaaS系统构建,具有完整的前端-后端逻辑和动态约束,同时支持本地部署。这种设计确保代理必须在真实的系统动态下运行,而不是依赖简化环境带来的捷径,同时保持可复现性和可控性以进行系统评估。其次,它融入真实世界的组合工作流,模拟跨应用协调和多模态任务需求。这些工作流反映了真实系统中观察到的典型使用模式,要求代理整合异构信息并跨多个子系统协调。第三,它引入平均超过100个交互步骤的长周期任务,明确评估规划、状态管理和错误恢复能力。通过显著增加任务深度和依赖,这些任务暴露了在短周期设置中常被掩盖的失败模式,从而提供对代理行为更全面的评估。表1总结了SaaS-Bench与现有网页和GUI代理基准在关键维度上的差异。我们的贡献概括如下: - • **真实且可部署的SaaS基准环境**。我们将SaaS-Bench建立在23个跨六个专业领域的真实SaaS系统上,保留前端-后端动态,并通过Docker易于部署以实现可复现评估。 - • **专业、跨应用且多模态的长周期任务**。我们构建了106个基于真实世界SaaS工作流的任务,涵盖纯文本和多模态设置,要求代理在长交互序列中跨应用协调。 - • **揭示真实世界能力差距的系统评估**。我们使用基于检查点的验证评估了代表性的基于LLM的代理,并显示当前代理在端到端完成率方面较低,暴露了在真实SaaS工作流中规划、状态跟踪和错误恢复方面的局限。 表1:SaaS-Bench与现有网页和GUI代理基准的比较。✓表示完全支持,✗表示不支持,△表示部分支持。Long.表示任务平均需要超过100个交互步骤,MM表示多模态证据(如图像或文档)。 | 基准 | SaaS | Prof. | Multi-App | Long. | MM | |------|------|-------|-----------|-------|----| | Mind2Web (Deng等人,2023) | ✗ | ✗ | ✗ | ✗ | ✗ | | WebArena (Zhou等人,2023) | ✗ | △ | △ | ✗ | ✗ | | VisualWebArena (Koh等人,2024) | ✗ | ✗ | △ | ✗ | ✓ | | OSWorld (Xie等人,2024) | ✗ | △ | ✓ | ✗ | ✓ | | WorkArena (Drouin等人,2024) | ✓ | △ | ✗ | ✗ | ✗ | | WorkArena++ (Boisvert等人,2024) | ✓ | ✓ | ✗ | ✗ | ✗ | | AndroidWorld (Rawles等人,2025) | ✗ | ✗ | ✓ | ✗ | ✓ | | TheAgentCompany (Xu等人,2024) | △ | ✓ | ✓ | ✗ | △ | | **SaaS-Bench** | ✓ | ✓ | ✓ | ✓ | ✓ | ## 2 相关工作 ### 2.1 CUA任务基准 CUA基准已从小部件级别的简单交互演变为日益真实和多样化的任务设置。早期工作如MiniWoB++(Liu等人,2018 (https://arxiv.org/html/2605.15777#bib.bib1))使用合成环境探索基于强化学习的网页控制;后续工作通过离线演示数据集扩展到真实网页(Deng等人,2023 (https://arxiv.org/html/2605.15777#bib.bib2);Zhou等人,2023 (https://arxiv.org/html/2605.15777#bib.bib10)),然后增加了多模态感知(Koh等人,2024 (https://arxiv.org/html/2605.15777#bib.bib3))和桌面级通用性(Xie等人,2024 (https://arxiv.org/html/2605.15777#bib.bib4))。最近的基准已推动到现场评估和开放世界的多样性:Online-Mind2Web(Xue等人,2025 (https://arxiv.org/html/2605.15777#bib.bib5))显示,大部分报告进展在受控离线设置之外消失;而Mind2Web 2(Gou等人,2025 (https://arxiv.org/html/2605.15777#bib.bib6))和CocoaBench(Hao等人,2026 (https://arxiv.org/html/2605.15777#bib.bib7))进一步扩展了覆盖范围,涵盖代理搜索和异构真实应用。面向企业的基准包括WorkArena和WorkArena++(Drouin等人,2024 (https://arxiv.org/html/2605.15777#bib.bib8);Boisvert等人,2024 (https://arxiv.org/html/2605.15777#bib.bib9)),将评估引入专业SaaS环境,但仍基于单一企业平台,跨应用协调有限且任务周期短。SaaS-Bench通过跨六个专业领域覆盖23个开源SaaS系统,要求真正的跨应用协调,并评估平均超过100步的长周期任务且具有自动验证,从而解决了这一领域长期存在的空白。 ### 2.2 CUA环境与任务构建 构建高质量的CUA基准环境需要在现实性、可控性、可验证性和可扩展性之间取得平衡。手工制作方法如WebArena(Zhou等人,2023 (https://arxiv.org/html/2605.15777#bib.bib10))通过具有完整执行支持的目的设计环境实现高保真度,但扩展性差,因为每个新应用需要大量人工努力;基于生成的方法如WebArena-Infinity和(Zhou,2026 (https://arxiv.org/html/2605.15777#bib.bib11))通过使用LLMs合成新环境和任务来提高可扩展性,但可能牺牲真实部署软件的保真度;人工标注数据集(Deng等人,2023 (https://arxiv.org/html/2605.15777#bib.bib2))提供广泛的任务多样性,但缺乏实时执行和自动验证。SaaS-Bench采取不同的方法:它将评估基于真实的开源SaaS部署,并通过一个构建者-挑战者-优化者流水线生成任务,其中LLM生成的候选任务由领域专家迭代审查,以确保可执行性、可验证性和专业现实性——从真实软件获得保真度,从LLM辅助合成获得规模,从专家监督获得质量。 ## 3 SaaS-Bench ### 3.1 SaaS环境 SaaS-Bench基于真实、开源且可部署的SaaS系统构建,而非玩具网站或静态网页。图3展示了SaaS-Bench的整体框架。我们根据三个标准选择了23个SaaS系统。首先,每个系统应为真实的软件应用,具有完整的前端-后端逻辑、用户认证、持久数据库状态和领域特定的业务约束,从而提供接近生产环境的交互复杂性。其次,所选系统应覆盖广泛的专业场景,支持跨不同职业角色的任务设计。第三,我们优先选择具有强跨应用工作流潜力的系统,其中功能互补的应用可以自然地组合成多系统任务,而非孤立的单网站操作。为支持专业任务构建,我们将23个SaaS系统组织成六个领域:软件工程与项目管理(Software.)、业务运营与财务(Business.)、医疗管理(Healthcare.)、团队协作与文档工作流(Teamwork.)、手工农业食品供应链(Agriculture.)以及独立媒体创作(Media.)。每个领域对应一个代表性的真实工作场景,并包含多个功能互补的应用。例如,Software.领域的一个任务可能跨越项目管理、文档和数据库系统,而Business.领域的一个任务可能涉及CRM、财务和结构化记录管理系统。这种领域与集群的划分为构建需要代理跨多个应用协调的真实工作流提供了基础。 为将空白的SaaS部署转换为具有有意义业务上下文的任务就绪环境,我们对每个系统进行语义数据填充。我们首先导出每个SaaS应用的SQL模式,并结合网站结构、页面布局、字段语义和业务逻辑进行分析。这使我们能够识别需要填充的关键实体、字段和关系,以支持真实的任务执行。基于此分析,我们采用两种互补的数据填充策略。对于没有合适公共数据源的系统,我们使用LLMs根据模式和网站功能生成虚假但真实的数据。对于有合适公共资源的场景,我们导入开源数据集以产生更自然的数据分布。这些措施确保代理性能反映真实的交互能力,而非环境伪影。 我们进一步提供了轻量但可复现的部署和配置协议。所有SaaS系统都使用Docker容器化并作为浏览器可访问的服务暴露,确保代理通过标准网页接口与环境交互。在每次任务执行前,环境恢复到预定义的初始状态
相似文章
SaaSBench:探索编码智能体在长周期企业SaaS工程中的边界
SaaSBench是一个用于评估AI智能体在企业SaaS开发中的新基准,涉及多组件系统集成,包含30个任务、6个领域和5370个验证节点。实验表明,智能体的主要瓶颈在于系统配置与集成,而非孤立的代码生成。
SWE-WebDevBench:评估编码智能体应用平台作为虚拟软件代理商的能力
本文介绍了 SWE-WebDevBench,这是一个包含 68 项指标的综合框架,用于评估 AI 驱动的应用开发平台作为虚拟软件代理商的表现。研究强调了当前平台在规范理解、后端可靠性、生产就绪性和安全性方面存在的关键差距。
JobBench:让智能体工作与人类意愿对齐
JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。
CHI-Bench: AI智能体能否自动化端到端、长周期、政策密集的医疗工作流程?
本文介绍了CHI-Bench,这是一个用于评估AI智能体在需要基于政策的决策、多角色组合和多边交互的复杂医疗工作流程端到端自动化方面的基准。实验结果表明,最佳智能体仅实现了28%的任务解决率,突显了当前智能体在政策密集的企业领域中的能力差距。
智能体是否准备好教学?面向真实教学工作的多阶段基准
介绍了EduAgentBench,一个基于源的基准,用于评估辅导智能体在教学专业判断、多轮辅导以及自主教学工作流程执行方面的能力。对前沿模型的评估表明,它们在情境化辅导和工作流任务中仍未能达到专业教学标准。