安全,还是单纯无能?重新思考手机使用智能体的安全评估
摘要
本文介绍了PhoneSafety,一个包含700个安全关键时刻(跨越130多个应用)的基准测试,用于评估手机使用智能体。结果表明,避免有害结果并不一定意味着安全性,因为模型可能无法执行操作或做出不安全的选择,因此需要区分能力信号和安全信号。
查看缓存全文
缓存时间: 2026/05/12 14:52
论文页面 - 安全,还是单纯无能?重新思考手机使用智能体的安全评估
来源:https://huggingface.co/papers/2605.07630 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
PhoneSafety 基准测试揭示:避免有害结果并不一定意味着安全,因为模型可能无法行动或做出不安全的选择,需要区分能力信号与安全信号。
当手机使用智能体避免伤害时,这究竟体现了安全,还是仅仅因为无能?现有评估往往无法区分。避免有害结果可能是因为智能体识别了风险并选择了安全动作,也可能是因为它未能理解屏幕或根本无法执行任何相关动作。这些情况的原因不同,需要不同的修复方案,但当前基准测试通常将它们混为一谈,归入任务成功、拒绝或最终有害结果。我们通过 PhoneSafety 来解决这个问题,这是一个包含 700 个安全关键时刻的基准测试,这些时刻来自超过 130 个应用的现实手机交互。每个实例隔离了风险时刻的下一步决策,提出一个简单问题:模型是采取安全动作、采取不安全动作,还是什么有用的事情都没做?我们在此框架下评估了八个具有代表性的手机使用智能体。结果揭示了两种主要模式。第一,更强的通用手机操作能力并不能可靠地预示在风险时刻做出更安全的选择。在普通应用任务上表现更好的模型,在下一步行动至关重要时并不总是行为更安全。第二,什么有用的事情都没做表现得像能力信号而非安全信号:它们集中在视觉和操作要求更高的场景中,并且在评估协议改变时保持稳定。跨模型来看,失败分为两种重复模式:在模型能够行动但选择错误的情境中出现不安全选择,以及在视觉和操作要求更高的屏幕上无法行动。总体而言,无害结果不足以作为安全的证据。评估手机使用智能体需要将不安全判断与无法行动区分开来。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07630) 查看 PDF (https://arxiv.org/pdf/2605.07630) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.07630)
在你的智能体中获取此论文:
hf papers read 2605\.07630
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07630 以从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07630 以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07630 以从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
论经验驱动自演化智能体的安全风险
# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式
我构建了一个AI支持代理,其主要指标是不安全自动操作率,而不仅仅是准确性
关于构建电信客户支持代理的技术实践,该代理优先考虑安全指标而非分类器准确性,采用了确定性访问门控、限域工具执行和路由级评估。
基准测试未衡量的:论自主智能体弃权能力的评估
本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。
SABER:在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准
SABER引入了一个基准,用于评估LLM编码代理在真实具有状态的项目工作空间中的操作安全性,显示即使是最佳模型也有超过54%的有害安全违规率,表明在真实世界环境中的对齐不足。
AI安全争论聚焦于错误的边界
本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。