电商欺骗性界面下的Web Agent安全性基准测试

arXiv cs.CL 论文

摘要

本文介绍了WebDecept,一个用于将欺骗性界面模式注入到Web环境中以评估自主Web Agent安全性的框架。实验表明,当前的Agent极易受到此类操纵,突显了实际部署中的安全性挑战。

arXiv:2606.13686v1 Announce Type: new 摘要:随着自主Web Agent越来越多地被部署于执行现实任务,确保其安全性已成为关键问题。本文研究了电商领域中,在逼真的欺骗性界面下Web Agent的行为。我们引入了WebDecept,一个轻量级且可配置的插件框架,能够将欺骗性界面模式可控地注入现有Web环境。利用WebDecept,我们实例化了开放网络上常见的七种欺骗模式,包括定向广告、域名重定向和购物操纵。通过在任务执行期间将这些模式注入前端,我们对多个多模态Web Agent进行了受控评估。结果表明,当前的Web Agent极易受到多类欺骗性界面的影响,且基于提示的约束往往不足以缓解这些失败。我们进一步分析了欺骗模式的设计选择如何影响此类操纵的成功率。这些发现凸显了在将Web Agent扩展至实际部署时需应对的安全性挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:56

# 电子商务欺骗性界面下的Web代理安全性基准测试
来源: https://arxiv.org/html/2606.13686
Zijing Shi¹, Meng Fang², Ling Chen¹ ¹AAII, 悉尼科技大学, 新南威尔士州, 澳大利亚 ²利物浦大学, 利物浦, 英国 Zijing\.Shi\-1@uts\.edu\.au, Ling\.Chen@uts\.edu\.au Meng\.Fang@liverpool\.ac\.uk

###### 摘要

随着自主Web代理越来越多地被部署用于执行现实世界任务,确保其安全性已成为一个关键问题。在这项工作中,我们研究了Web代理在电子商务领域真实欺骗性界面下的行为。我们引入了WebDecept,一个轻量级、可配置的插件框架,能够将欺骗性界面模式受控地注入到现有Web环境中。利用WebDecept,我们实例化了在开放网络上常见的七种欺骗模式,包括定向广告、域名重定向和购物操控。通过在执行任务过程中将这些模式注入前端,我们对多个多模态Web代理进行了受控评估。结果表明,当前Web代理对多类欺骗性界面高度脆弱,且基于提示的约束往往不足以缓解这些失败。我们进一步分析了欺骗模式的设计选择如何影响此类操控的成功率。这些发现凸显了随着Web代理向现实世界部署扩展所需解决的安全挑战。

电子商务欺骗性界面下的Web代理安全性基准测试

Zijing Shi¹, Meng Fang², Ling Chen¹¹AAII, 悉尼科技大学, 新南威尔士州, 澳大利亚²利物浦大学, 利物浦, 英国Zijing\.Shi\-1@uts\.edu\.au, Ling\.Chen@uts\.edu\.auMeng\.Fang@liverpool\.ac\.uk

## 1 引言

近年来,大型语言模型(LLMs)和视觉语言模型(VLMs)的进展 OpenAI (2023 (https://arxiv.org/html/2606.13686#bib.bib1)); Google DeepMind (2023 (https://arxiv.org/html/2606.13686#bib.bib2))催生了新一代通用Web代理 Zheng et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib7))。通过整合视觉感知、自然语言理解与多步规划,这些代理能够浏览复杂网站并执行广泛的在线任务 Yao et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib3)); Ning et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib4))。因此,Web代理正日益成为用户与开放网络之间的实用接口。

然而,赋予代理对现实世界Web环境的直接操作能力引入了重大安全风险 Chiang et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib6))。与独立的对话模型不同,Web代理在开放且可能具有对抗性的环境中运行,持续与可能不可信的第三方Web内容交互,安全故障不仅可能导致策略违规,还可能引发严重后果 Mudryi et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib5)),例如信息泄露和财务损失。

Web代理的安全性在近期研究中日益受到关注。先前研究考察了Web代理如何响应恶意用户指令,评估代理是适当地服从还是拒绝不安全请求 Kumar et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib13)); Tur et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib8))。其他工作则聚焦于间接提示注入,即恶意元素嵌入到代理执行任务期间所遇到的Web内容中 Evtimov et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib11))。例如,网页上具有说服力或类似指令的文本元素可能诱导敏感信息泄露 Liao et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib12)); Boisvert et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib10))。更近期的研究进一步表明,破坏性UI组件(如错误弹窗)会干扰代理决策并中断任务执行 Levy et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib9)); Boisvert et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib10))。

尽管取得了近期进展,现有工作主要通过直接针对代理输入或推理过程的对抗攻击来评估Web代理安全性。相比之下,现实世界的Web环境往往使代理面临源于欺骗性交互模式的风险 Mathur et al. (2019 (https://arxiv.org/html/2606.13686#bib.bib15))。由于这些模式是人类有意设计的,并在不同领域和工作流中差异显著,因此难以大规模系统建模和评估。

在这项研究中,我们评估了Web代理在电子商务领域真实欺骗模式下的表现,其中多步购物工作流自然催生了此类实践 European Commission (2023 (https://arxiv.org/html/2606.13686#bib.bib16))。我们引入了WebDecept,一个轻量级、可配置的插件框架,能够将欺骗性模式受控地注入到现有Web环境中。我们在VisualWebArena的购物环境中构建了WebDecept Koh et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib22)),这是一个基于OneStopShop平台的丰富电子商务网站。这一选择使得评估既真实又可重复。¹¹项目地址见 https://webdecept.github.io/。

在WebDecept中,我们实例化了七种可配置的欺骗模式,涵盖通过弹窗和横幅实现的静态与定向消息、域名重定向,以及购物操控(如附加项和价格漂移)。每种模式都参数化,具有多个可控的设计选择。在购物任务执行过程中,WebDecept将这些欺骗模式注入Web前端,以支持受控评估。我们评估了一系列多模态Web代理的任务表现和安全性,并分析了不同欺骗设计选择如何影响代理行为。结果显示,即使是先进的Web代理也对多类欺骗性交互高度脆弱,尤其是购物操控,且基于提示的安全约束往往不足以缓解此类失败。这些发现凸显了随着Web代理向现实世界部署扩展所需解决的关键安全挑战。

总的来说,本文做出了以下贡献。首先,我们提出了WebDecept,一个轻量级、可配置的插件框架,能够将欺骗性界面模式受控地注入Web环境,支持Web代理安全性的真实且可重复评估。其次,我们设计了一组电子商务领域常见的欺骗模式,并将其集成到端到端任务中,以评估最先进多模态Web代理的脆弱性。第三,我们进行了消融研究,分析了欺骗性界面的设计选择对代理行为和失败模式的影响。

参见图注图1:受控欺骗下的评估框架概览。在代理Web交互过程中,WebDecept在预定义的节点向环境插入状态触发的欺骗性界面,从而实现在真实欺骗下对Web代理行为的受控评估。
## 2 相关工作

#### Web代理与基准测试。

近期LLMs的进展显著提升了Web代理的推理和规划能力 Yao et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib3))。VLMs的融合进一步扩展了这些能力,使代理能够对渲染后的网页进行推理 He et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib31)); Zheng et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib7))。在此基础上,各种训练好的代理系统 Shen et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib23)) 和多代理框架 Zhang et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib20)) 在多步Web任务上展现了强劲性能。

与此同时,Web代理基准测试已被开发用于评估这些日益强大的系统 Zhou et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib21)); Deng et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib27)); Song et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib39))。现有基准测试通常评估代理在导航、表单填写和多步工作流方面的表现,涵盖合成或真实网站,评估主要围绕任务成功率 Koh et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib22)); Wei et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib26))。最近,一些基准测试开始探索这些代理的安全性评估,例如通过引入恶意用户指令 Kumar et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib13)); Tur et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib8)) 或向网页注入对抗性内容 Wu et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib25)); Levy et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib9)) 以测试鲁棒性。

#### 代理安全性。

基于LLMs和VLMs的自主代理的出现极大地扩展了代理能力 Shi et al. (2025b (https://arxiv.org/html/2606.13686#bib.bib40)); Xu et al. (2026 (https://arxiv.org/html/2606.13686#bib.bib42))。与对话模型不同,这些代理整合了工具使用 Shi et al. (2025a (https://arxiv.org/html/2606.13686#bib.bib34)),可能与其他代理协作 Duan et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib41)),并直接与动态、演进的环境交互,这大大扩展了其攻击面,使其暴露于上下文操纵和分布漂移等风险之中 Tian et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib33)); Yu et al. (2026 (https://arxiv.org/html/2606.13686#bib.bib43))。

对于Web代理而言,一类突出的威胁来自提示注入,即嵌入用户指令 Kumar et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib13)); Tur et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib8)) 或Web环境 Wang et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib19)); Evtimov et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib11)) 中的恶意内容使代理偏离其预定目标。Levy et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib9)) 将安全性评估扩展到企业级工作流,通过定义用户同意等安全策略,而 Ying et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib35)) 引入了攻击模式的结构化分类,并分析了内部推理、行为轨迹和最终结果方面的失败。Guo et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib14)) 专注于基准测试代理对真实网站上标准人类定义暗模式的敏感性。同时,现有的风险缓解策略仍处于早期阶段。诸如安全感知提示 Evtimov et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib11)) 和基于护栏的框架 Zheng et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib36)) 等方法在特定任务类型中效果有限。

相比之下,我们的工作引入了一个可配置的插件框架,用于将欺骗性界面模式受控地注入到可重复的Web环境中。这种设计能够在真实工作流中评估欺骗行为,包括购物车操控等先前Web代理安全基准测试中很少考察的场景。

## 3 问题形式化

#### Web代理交互。

我们将Web代理建模为一个与动态Web环境交互的顺序决策系统。用户指定一个以自然语言表达的任务目标 G ∈ G。代理运行于环境 E = (S, A, T) 中,其中 S 表示环境状态集合,A 是离散动作空间,T: S × A → S 是确定性转移函数。交互在离散时间步 t = 1, 2, ..., T 上展开。在每个时间步,代理接收观测 o_t,选择动作 a_t ∈ A,并引发状态转移:s_{t+1} = T(s_t, a_t)。所得动作序列 (a_1, a_2, ..., a_T) 构成代理的行为轨迹。理想的动作序列是满足目标 G 的序列。

#### 状态表示。

我们使用渲染后的截图和可访问性树(提供DOM的简化视图,包含语义和交互相关信息)来编码代理观测 o_t。

#### 动作空间。

在每个时间步,代理生成推理轨迹并根据策略 π_θ(a_t | G, a_{1:t-1}) 选择动作 a_t,其中 θ 表示底层模型的参数。所选动作 a_t 来自共享动作空间 A,包括离散的浏览器级命令:点击网页元素、在输入字段中键入文本、滚动视口以及在页面间导航。为了使动作在Web环境中落实,每个动作通过环境生成的符号标识符(通过可访问性节点ID暴露)引用目标网页元素。

## 4 WebDecept设计

### 4.1 概述

在本研究中,我们提出了WebDecept,一个轻量级的环境干预层,能够将欺骗模式注入现有Web环境。在WebDecept中,我们实例化了一组在线购物工作流中常见的代表性欺骗模式。我们采用VisualWebArena的购物领域 Koh et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib22)) 作为底层Web环境,这是一个基于OneStopShop平台的丰富电子商务网站。这一选择使得在受控条件下进行真实且可重复的评估成为可能。

在代理Web交互过程中,WebDecept通过基于状态、触发驱动的机制注入欺骗性界面操纵,对渲染后的网页进行运行时修改。图1 (https://arxiv.org/html/2606.13686#S1.F1) 展示了WebDecept在评估流水线中的作用。该设计可以方便地集成到其他工作流和Web基准测试中。

参见图注(a) 购物车附加项。
参见图注(b) 价格漂移。

图2:两个购物操控场景示例。(a) 在没有用户请求或显式代理操作的情况下,强制捐赠被添加到购物车中。(b) 总价膨胀至原价的120%。#### 触发引擎。

WebDecept通过引入受控的前端级干预来增强Web代理交互循环。在一个episode中,WebDecept在特定时间步 t* 应用基于状态、触发驱动的干预 δ_{t*},该干预由手动指定的配置实例化,定义了欺骗模式类型及其相关参数。干预 δ_{t*} 被应用于渲染后的Web界面,产生一个被干预的状态 \tilde{s}_{t*} = I(s_{t*}, δ_{t*}),代理从该状态接收修改后的观测 \tilde{o}_{t*}。这个修改后的观测使我们能够

相似文章

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式