安全,还是单纯无能?重新思考手机使用智能体的安全评估

Hugging Face Daily Papers 论文

摘要

本文介绍了PhoneSafety,一个包含700个安全关键时刻(跨越130多个应用)的基准测试,用于评估手机使用智能体。结果表明,避免有害结果并不一定意味着安全性,因为模型可能无法执行操作或做出不安全的选择,因此需要区分能力信号和安全信号。

当手机使用智能体避免伤害时,这是表现出安全,还是仅仅是无法行动?现有的评估通常无法区分。避免有害结果可能是因为智能体识别了风险并选择了安全行动,也可能是因为它未能理解屏幕或执行任何相关操作。这些情况有不同的原因,需要不同的修复方法,但现有的基准测试常常将它们混为一谈——无论是任务成功、拒绝还是最终的有害结果。我们通过PhoneSafety解决了这个问题,这是一个包含700个安全关键时刻的基准测试,这些时刻来自超过130个应用的真实手机交互。每个实例孤立了在风险时刻的下一个决策,并提出一个简单的问题:模型是采取安全行动、采取不安全行动,还是未能做任何有用的事情?我们在这个框架下评估了八个代表性的手机使用智能体。我们的结果揭示了两种主要模式。第一,更强的通用手机使用能力并不一定意味着在风险时刻做出更安全的选择。在普通应用任务上表现更好的模型,在下一个行动至关重要时并不总是行为更安全。第二,未能做任何有用的事情表现为能力信号而非安全信号:它们集中在视觉和操作要求更高的场景中,并且在评估协议变化时保持稳定。在所有模型中,失败分为两种重复模式:在模型可以行动但选择错误的场景中的不安全选择,以及在视觉和操作要求更高的屏幕上无法行动。总的来说,无害的结果不足以作为安全的证据。评估手机使用智能体需要区分不安全的判断和无法行动的能力。
查看原文
查看缓存全文

缓存时间: 2026/05/12 14:52

论文页面 - 安全,还是单纯无能?重新思考手机使用智能体的安全评估

来源:https://huggingface.co/papers/2605.07630 作者:

摘要

PhoneSafety 基准测试揭示:避免有害结果并不一定意味着安全,因为模型可能无法行动或做出不安全的选择,需要区分能力信号与安全信号。

当手机使用智能体避免伤害时,这究竟体现了安全,还是仅仅因为无能?现有评估往往无法区分。避免有害结果可能是因为智能体识别了风险并选择了安全动作,也可能是因为它未能理解屏幕或根本无法执行任何相关动作。这些情况的原因不同,需要不同的修复方案,但当前基准测试通常将它们混为一谈,归入任务成功、拒绝或最终有害结果。我们通过 PhoneSafety 来解决这个问题,这是一个包含 700 个安全关键时刻的基准测试,这些时刻来自超过 130 个应用的现实手机交互。每个实例隔离了风险时刻的下一步决策,提出一个简单问题:模型是采取安全动作、采取不安全动作,还是什么有用的事情都没做?我们在此框架下评估了八个具有代表性的手机使用智能体。结果揭示了两种主要模式。第一,更强的通用手机操作能力并不能可靠地预示在风险时刻做出更安全的选择。在普通应用任务上表现更好的模型,在下一步行动至关重要时并不总是行为更安全。第二,什么有用的事情都没做表现得像能力信号而非安全信号:它们集中在视觉和操作要求更高的场景中,并且在评估协议改变时保持稳定。跨模型来看,失败分为两种重复模式:在模型能够行动但选择错误的情境中出现不安全选择,以及在视觉和操作要求更高的屏幕上无法行动。总体而言,无害结果不足以作为安全的证据。评估手机使用智能体需要将不安全判断与无法行动区分开来。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07630) 查看 PDF (https://arxiv.org/pdf/2605.07630) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.07630)

在你的智能体中获取此论文:

hf papers read 2605\.07630

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07630 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07630 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07630 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将这篇论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式

基准测试未衡量的:论自主智能体弃权能力的评估

arXiv cs.AI

本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。

AI安全争论聚焦于错误的边界

Reddit r/AI_Agents

本文认为,AI安全辩论的方向有误,其关注点在于模型对齐和内部控制,而非关键的边界:对智能体执行的外部授权权限。文章警告称,能够自行授权高影响行动(如部署代码、转移资金)的系统构成了基本风险,日志记录和监控无法缓解这种风险。