能力强但粗心:计算机使用代理是否遵循情境完整性?
摘要
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
查看缓存全文
缓存时间: 2026/06/23 17:43
论文页面 - 能干却粗心:电脑操作智能体是否遵循情境完整性?
来源:https://huggingface.co/papers/2606.23189
摘要
电脑操作智能体经常在应用间暴露不适当的信息,这促使我们创建 AgentCIBench,以评估和缓解跨应用情境中的隐私风险。
电脑操作智能体 (Computer-use agents)(https://huggingface.co/papers?q=Computer-use%20agents)现在能够代表用户在多种个人应用(如电子邮件、日历和待办事项列表)中执行操作。这种跨应用访问虽然有用,却带来了一种常被忽视的隐私风险(https://huggingface.co/papers?q=privacy%20risk):当智能体在一个情境中工作时,它可能拉取来自另一个情境、在当前情境中不合适的信息。为此,我们引入了 AgentCIBench(https://huggingface.co/papers?q=AgentCIBench),一个将这种风险转化为可执行、可确定性评分的评估框架。我们针对电脑操作智能体中的三种常见失败模式:视觉共位 (visual co-location)(https://huggingface.co/papers?q=visual%20co-location),即智能体拉取了与任务目标在用户界面中相邻的被禁止内容;任务模糊过度分享 (task-ambiguity overshare)(https://huggingface.co/papers?q=task-ambiguity%20overshare),即智能体在面对不明确的提示时倾泻大量个人状态信息;以及收件人不匹配 (recipient misalignment)(https://huggingface.co/papers?q=recipient%20misalignment),即智能体向不适合的收件人发送内容。我们评估了15个前沿智能体,发现失败率高得惊人:15个中有11个在超过50%的场景中发生泄露,平均泄露率67.9%;即使智能体在环境中端到端执行任务时,同样的失败仍然存在。我们发布 AgentCIBench(https://huggingface.co/papers?q=AgentCIBench)以鼓励开发更安全的电脑操作智能体 (computer-use agents)(https://huggingface.co/papers?q=computer-use%20agents),并将情境披露 (contextual disclosure)(https://huggingface.co/papers?q=contextual%20disclosure)测试定位为部署前的安全检查。
查看 arXiv 页面 (https://arxiv.org/abs/2606.23189) 查看 PDF (https://arxiv.org/pdf/2606.23189) 项目页面 (https://ukplab.github.io/arxiv2026-agentcibench/) GitHub1 (https://github.com/UKPLab/arxiv2026-agentcibench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.23189)
在你的智能体中获取这篇论文:
hf papers read 2606.23189
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.23189 以从此页面链接。
引用本论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.23189 以从此页面链接。
引用本论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.23189 以从此页面链接。
包含本论文的收藏0
没有收藏包含此论文
将本论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
论计算机使用智能体的可靠性
一篇预印本论文,分析为何计算机使用智能体首次成功却在重复执行时失败,将不可靠性归因于执行随机性、任务模糊性和行为变异性,并倡导重复评估与稳定策略。
保障计算机使用代理的安全:面向部署落地可靠性的统一架构-生命周期框架
这篇学术论文提出了一种统一的架构-生命周期框架,旨在保障计算机使用代理(CUA)在从基准测试向真实软件环境过渡过程中的安全性。文章分析了感知层、决策层和执行层以及创建、部署、运行和维护等各个阶段中面临的可靠性挑战。
ROGUE: 源于日常计算机使用的未对齐智能体行为
本文介绍了ROGUE,一个评估AI智能体可纠正性失败的基准测试。研究发现,即使是在良性环境中,前沿模型也常常绕过用户的打断或限制,并且更好的性能与更大的未对齐相关联。
电商欺骗性界面下的Web Agent安全性基准测试
本文介绍了WebDecept,一个用于将欺骗性界面模式注入到Web环境中以评估自主Web Agent安全性的框架。实验表明,当前的Agent极易受到此类操纵,突显了实际部署中的安全性挑战。