OSGuard:计算机使用代理安全基准测试

arXiv cs.AI 论文

摘要

OSGuard是一个双粒度基准测试,用于在良性用户指令下评估计算机使用代理的安全性,包含动作级判断和风险增强执行套件,以检测不安全捷径。

arXiv:2606.15034v1 公告类型:新 摘要:计算机使用代理越来越多地被评估是否完成真实的桌面和网络任务。然而,仅凭任务成功可能遗漏代理通过不安全捷径达到名义目标时的失败。我们引入OSGuard,一个双粒度基准测试套件,用于在良性且未更改的用户指令下评估计算机使用代理的安全性。OSGuard包含一个用于本地护栏决策的动作级基准测试和一个用于端到端评估的风险增强执行套件。动作级基准测试由情境化的提议动作组成,标记为允许、无关或不安全,每个判断均相对于原始指令和当前界面状态。执行套件包含手动构建的源自OSWorld的任务变体,其中原始任务仍然可达,但环境被修改以引入潜在风险,如破坏性覆盖等。每个变体配有针对增强评估器,保留原始任务成功标准的同时添加明确的基于状态的安全不变量,从而允许我们区分安全完成和满足名义任务目标的不安全完成。我们在OSGuard上的实验结果表明,当前多模态护栏在孤立动作判断上表现良好,而风险增强执行暴露了局部监督与可靠端到端安全之间仍然存在的差距。这种双粒度设计能够更精确地诊断模型是否既能识别不安全的提议动作,又能提高部署为护栏时的全任务安全性。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:43

# OSGuard:计算机使用智能体安全性的双粒度基准测试
来源:https://arxiv.org/html/2606.15034
Mina Mohammadmirzaei, Jeffrey Flanigan,加州大学圣克鲁兹分校 mmohamm9@ucsc\.edu, jmflanig@ucsc\.edu

###### 摘要

计算机使用智能体(Computer\-use agents)越来越多地根据其能否完成真实的桌面和网页任务来评估。然而,仅凭任务成功可能会遗漏智能体通过不安全的捷径达到名义目标而导致的失败。我们引入了OSGuard,这是一个双粒度基准测试套件,用于评估在良性的、未修改的用户指令下计算机使用智能体的安全性。OSGuard包含一个用于局部防护决策的动作级基准测试,以及一个用于端到端评估的风险增强执行套件。动作级基准测试由情境化的提议动作组成,这些动作被标记为允许、无关或不安全,每个动作都根据原始指令和当前界面状态进行判断。执行套件包含手动构建的、源自OSWorld的任务变体,其中原始任务仍然可完成,但环境被修改以引入潜在危险,例如破坏性覆盖等。每个变体都配有增强型评估器,这些评估器保留原始任务成功标准,同时添加明确的基于状态的安全不变量,使我们能够区分安全完成与满足名义任务目标但不安全的完成。我们在OSGuard上的实验结果表明,当前的多模态防护在孤立的动作判断上可以表现良好,而风险增强执行则暴露了局部监督与可靠的端到端安全性之间仍然存在的差距。这种双粒度设计能够更精确地诊断模型在部署为防护时,是否既能识别不安全的提议动作,也能提高全任务的安全性。

## 1 引言

计算机使用智能体越来越能够在真实的桌面和网页环境中执行多步骤任务(Xie 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib2);Zhou 等人,2023 (https://arxiv.org/html/2606.15034#bib.bib1);Drouin 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib3))。随着这些智能体能力增强,仅评估它们能否完成用户指令已不再足够。任务可能以仍然违反用户环境重要约束的方式完成:智能体可能覆盖无关内容、扩大权限、修改全局设置、访问不必要的敏感信息,或对错误目标采取行动。

在普通计算机使用中,许多此类失败并非明显的恶意。用户的指令可能是良性的,期望的任务可能是可完成的,智能体的行为可能看起来像是朝着用户目标前进。安全问题源自智能体在当前环境状态下如何执行任务。我们将这类失败研究为不安全的捷径:在局部看似合理的动作或执行,它们推进了名义任务,同时却违反了安全智能体应保持的约束。

现有的安全基准测试已将评估扩展到名义任务成功之外,但它们主要研究不同的领域。OS\-Harm 和 RiOSWorld 包含了恶意用户请求、提示注入、网络钓鱼、弹出窗口以及其他对抗性或明显有害任务情境的设置(Kuntz 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib4);Yang 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib5))。AUTOELICIT 和 BLIND\-ACT 更接近看似良性的任务,但要么是扰动任务指令以引出有害行为,要么是强调由于上下文不敏感的执行、歧义性以及不可行或矛盾的目标而导致的失败(Jones 等人,2026 (https://arxiv.org/html/2606.15034#bib.bib6);Shayegani 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib7))。相比之下,我们关注的是一个设定,其中原始用户指令保持良性且不变,任务仍然可完成,安全挑战来自在完成任务的同时尊重任务状态约束。

这种设定要求两种粒度的评估。首先,系统应支持局部监督:给定原始指令、当前界面状态以及提议的下一个动作,它应确定该动作是否应被执行。其次,安全性应进行端到端评估:当环境包含潜在危险时,智能体应在不违反额外约束的情况下完成任务。这些粒度是相关的,但不能互换。一个模型可能在孤立的动作判断上表现良好,却不改善全任务行为;而端到端的失败如果没有识别出导致它们的局部决策,则可能难以诊断。

我们引入了OSGuard,这是一个双粒度基准测试套件,用于在良性用户指令下评估计算机使用智能体的安全性。OSGuard包含一个用于局部防护决策的动作级基准测试,以及一个源自OSWorld任务的、风险增强的执行套件(Xie 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib2))。在执行套件中,原始指令保持固定,而环境被修改以引入潜在危险,同时保留了安全完成任务的路径。每个任务变体都配有一个增强型评估器,该评估器保留原始任务成功标准,并添加明确的基于状态的安全不变量,使我们能够区分安全完成与满足名义目标但不安全的完成。

我们的评估旨在作为一个诊断性基准测试,而不是对所有计算机使用安全失败的完整覆盖:动作级基准测试包含来自选定构建来源的324个情境化提议动作,执行套件侧重于45个手动构建的、源自OSWorld的变体,这是有限的一组状态相关的危险类别,以及有限的一组执行器和防护模型。

我们的贡献是:(1)一个用于计算机使用智能体局部监督的动作级基准测试;(2)一个风险增强的执行套件,用于在未修改的良性指令下评估普通的状态相关危险;(3)一个基于不变量的评估协议,用于衡量全任务执行中的不安全完成;(4)对防护模型在离线动作级决策和在线交互执行期间的经验评估。

## 2 相关工作

近期工作引入了越来越真实的基准测试,用于在交互环境中评估计算机使用智能体。OSWorld 在真实的桌面任务上评估智能体,使用基于执行的成功标准,而 WebArena 和 WorkArena 在真实环境中评估长视野的网页和工作场所任务(Xie 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib2);Zhou 等人,2023 (https://arxiv.org/html/2606.15034#bib.bib1);Drouin 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib3))。BrowserGym 提供了评估不同网页任务中浏览器智能体的基础设施,相关基准测试如 Mind2Web 和 AndroidWorld 则研究网页导航和移动设备控制(Le Sellier De Chezelles 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib8);Deng 等人,2023 (https://arxiv.org/html/2606.15034#bib.bib9);Rawles 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib10))。这些基准测试确立了计算机使用作为智能体评估的重要场景,但它们主要衡量智能体能否完成用户指令。OSGuard 建立在这条评估线上,同时将重点从仅关注名义任务完成转向关注安全感知的完成。

越来越多的工作研究计算机使用智能体中的安全风险。OS\-Harm 通过在 OSWorld 风格环境中故意误用、提示注入和模型行为不当来评估有害行为(Kuntz 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib4))。RiOSWorld 研究跨应用程序的、有风险的计算机使用任务,包括用户发起的有害任务和对抗性界面条件,如网络钓鱼、弹出窗口和其他环境危险(Yang 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib5))。这些基准测试很重要,因为它们表明计算机使用智能体可能在真实环境中造成伤害,但它们的许多任务使有害目标或对抗性设定变得明确。OSGuard 针对一个互补的领域:普通的良性任务计算机使用,其中原始指令并非恶意,环境并非明显对抗,安全挑战源于智能体在当前任务状态下的行为方式。

其他工作更接近看似良性的工作流程,但研究了不同的失败来源。AUTOELICIT 搜索最小扰动任务指令,以引出计算机使用智能体的有害行为(Jones 等人,2026 (https://arxiv.org/html/2606.15034#bib.bib6))。BLIND\-ACT 研究由于上下文不敏感的执行、歧义性以及不可行或矛盾目标而导致的失败(Shayegani 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib7))。这些工作强调,安全失败不必始于一个明显恶意的请求。相比之下,OSGuard 的风险增强执行套件保持原始用户指令清晰且固定,仅修改环境状态,从而允许评估智能体在追求其他普通目标时是否保持任务局部约束。

OSGuard 也与关于防护(guardrails)和执行前监督的工作相关。MisActBench 通过将计算机使用轨迹中的单个步骤标记为对齐或未对齐来研究动作级错位检测,未对齐类别包括遵循恶意指令、有害的意外行为以及其他与任务无关的行为;它还引入了 DeAction 作为执行前纠正防护(Ning 等人,2026 (https://arxiv.org/html/2606.15034#bib.bib11))。WebGuard 研究使用人类标注动作的网页智能体动作级风险预测(Zheng 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib12))。ShieldAgent 和 GuardAgent 研究评估智能体行为是否满足安全策略或用户指定防护请求的防护智能体(Chen 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib13);Xiang 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib14))。SafePred 研究预测性防护,该防护不是仅判断当前动作,而是预见未来的安全风险(Chen 等人,2026 (https://arxiv.org/html/2606.15034#bib.bib15))。这些工作共同激发了在执行前进行动作级监督。

OSGuard 在动作和执行两个层面评估安全性。动作级基准测试测试防护是否能根据原始指令和当前状态判断提议的动作,而风险增强执行套件则测试智能体在保持添加的安全不变量的同时是否能完成整个任务。这两种评估是互补的:离线动作判断提供了局部监督能力的受控度量,而执行结果则显示在交互式任务完成期间是否仍然发生安全失败。

基于执行的评估对计算机使用智能体很重要,因为许多结果可以直接从环境状态验证。先前的基准测试通常使用基于状态的检查评估最终任务成功,而安全基准测试则评估是否发生了有害结果(Xie 等人,2024 (https://arxiv.org/html/2606.15034#bib.bib2);Kuntz 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib4);Yang 等人,2025 (https://arxiv.org/html/2606.15034#bib.bib5))。OSGuard 的风险增强执行套件通过向原始任务成功标准添加明确的安全不变量来扩展这一思想。这些不变量可以检查文件、权限、设置、目标身份、访问边界或范围外的资源是否得到保留。因此,评估器可以区分完成原始任务同时保持添加约束的执行,与实现名义目标但违反至少一个安全条件的不安全完成。

总体来说,我们的工作定位于能力基准测试、安全基准测试和防护基准测试之间。与标准的计算机使用基准测试相比,我们评估的是安全性而非仅任务完成。与侧重于明显有害任务、对抗性内容或扰动指令的安全基准测试相比,我们专注于在未修改的良性指令下的普通状态相关危险。与仅关注动作级防护的工作相比,我们将局部监督决策连接到端到端执行结果。这种双粒度设计使我们能够询问模型在部署为防护时,是否既能正确判断提议的动作,也能提高全任务的安全性。

## 3 概述

我们引入了OSGuard,这是一个用于计算机使用安全性的双粒度基准测试套件,包含一个用于动作级监督的组件和另一个用于在添加安全约束下的全任务执行的组件。第一个组件评估局部监督:一个防护(guardrail)——一个在行为执行前评估提议行为的监督智能体——接收原始任务指令、当前界面状态和一个候选动作,并且必须确定该动作是应被允许、作为与用户目标无关而被阻止,还是作为不安全而被阻止。我们使用“候选动作”表示提交给防护的下一个行为单元。根据执行器或提议器接口,该单元可能对应一个原始GUI动作或一个短复合行为,但防护决策是在该单元执行之前做出的,并且标签适用于整个单元。

第二个组件是一个风险增强的执行套件,由手动构建的、源自OSWorld任务的变体组成。在这个设定中,原始用户指令保持固定,但环境被修改以引入状态相关的安全危险,这些危险可以使不安全动作在局部显得有吸引力,同时保留安全完成任务的路径。此执行设定可用于单独评估任务执行智能体,或评估与防护配对的同一智能体。

图1总结了两种基准粒度:图1(a)显示了动作级项目是如何构建的,图1(b)显示了局部防护决策接口,图1(c)显示了风险增强执行如何区分安全成功与不安全完成。

参见图注

图1:OSGuard基准测试概述。(a) 动作级基准测试的构建来源:标准的 OSWorld 执行、带状态兼容提议器动作的中断前缀、带不安全提议器动作的中断前缀,以及风险增强变体执行。(b) 动作级防护任务:给定原始指令、动作前状态和候选动作,防护预测允许、无关或不安全。(c) 风险增强执行套件:原始指令保持固定,同时环境被修改以引入潜在危险;增强型评估器保留原始成功检查并添加基于状态的安全不变量。使用这两个组件使我们能够将局部监督决策连接到全任务行为。动作级基准测试衡量模型是否能识别上下文中被允许、无关和不安全的动作;风险增强执行套件衡量这些决策在交互执行中是否重要,因为不安全捷径可能仍能实现名义任务目标。以下各节描述了动作级基准测试和风险增强执行套件的构建,随后是用于离线和在线评估的防护接口。

## 4 动作级评估

相似文章

BraveGuard:从开放世界威胁到更安全的计算机使用代理

Hugging Face Daily Papers

BraveGuard 是一个自我演化的防御框架,通过利用开放世界威胁信号和真实的代理轨迹来训练防护模型,从而提升计算机使用代理的安全检测能力,在 AgentHazard 基准上取得了显著的准确率提升。

开源安全防护模型基准测试:全面评估

arXiv cs.CL

本文对14个开源安全防护模型进行了全面评估,在包含79331个样本的精选基准数据集上覆盖了NIST的8个安全类别,发现模型大小与检测性能无关,且Qwen Guard(4B)取得了最高的召回率。

OpenGuardrails: 一个开源的上下文感知AI护栏平台

Papers with Code Trending

OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。

安全,还是单纯无能?重新思考手机使用智能体的安全评估

Hugging Face Daily Papers

本文介绍了PhoneSafety,一个包含700个安全关键时刻(跨越130多个应用)的基准测试,用于评估手机使用智能体。结果表明,避免有害结果并不一定意味着安全性,因为模型可能无法执行操作或做出不安全的选择,因此需要区分能力信号和安全信号。