电商欺骗性界面下的Web Agent安全性基准测试

arXiv cs.CL 2026/06/15 04:00 论文

web-agents safety e-commerce deceptive-interfaces benchmark adversarial llm

摘要

本文介绍了WebDecept，一个用于将欺骗性界面模式注入到Web环境中以评估自主Web Agent安全性的框架。实验表明，当前的Agent极易受到此类操纵，突显了实际部署中的安全性挑战。

arXiv:2606.13686v1 Announce Type: new 摘要：随着自主Web Agent越来越多地被部署于执行现实任务，确保其安全性已成为关键问题。本文研究了电商领域中，在逼真的欺骗性界面下Web Agent的行为。我们引入了WebDecept，一个轻量级且可配置的插件框架，能够将欺骗性界面模式可控地注入现有Web环境。利用WebDecept，我们实例化了开放网络上常见的七种欺骗模式，包括定向广告、域名重定向和购物操纵。通过在任务执行期间将这些模式注入前端，我们对多个多模态Web Agent进行了受控评估。结果表明，当前的Web Agent极易受到多类欺骗性界面的影响，且基于提示的约束往往不足以缓解这些失败。我们进一步分析了欺骗模式的设计选择如何影响此类操纵的成功率。这些发现凸显了在将Web Agent扩展至实际部署时需应对的安全性挑战。

查看原文

查看缓存全文

缓存时间: 2026/06/15 08:56

# 电子商务欺骗性界面下的Web代理安全性基准测试
来源: https://arxiv.org/html/2606.13686
Zijing Shi¹, Meng Fang², Ling Chen¹ ¹AAII, 悉尼科技大学, 新南威尔士州, 澳大利亚 ²利物浦大学, 利物浦, 英国 Zijing\.Shi\-1@uts\.edu\.au, Ling\.Chen@uts\.edu\.au Meng\.Fang@liverpool\.ac\.uk

###### 摘要

随着自主Web代理越来越多地被部署用于执行现实世界任务，确保其安全性已成为一个关键问题。在这项工作中，我们研究了Web代理在电子商务领域真实欺骗性界面下的行为。我们引入了WebDecept，一个轻量级、可配置的插件框架，能够将欺骗性界面模式受控地注入到现有Web环境中。利用WebDecept，我们实例化了在开放网络上常见的七种欺骗模式，包括定向广告、域名重定向和购物操控。通过在执行任务过程中将这些模式注入前端，我们对多个多模态Web代理进行了受控评估。结果表明，当前Web代理对多类欺骗性界面高度脆弱，且基于提示的约束往往不足以缓解这些失败。我们进一步分析了欺骗模式的设计选择如何影响此类操控的成功率。这些发现凸显了随着Web代理向现实世界部署扩展所需解决的安全挑战。

电子商务欺骗性界面下的Web代理安全性基准测试

Zijing Shi¹, Meng Fang², Ling Chen¹¹AAII, 悉尼科技大学, 新南威尔士州, 澳大利亚²利物浦大学, 利物浦, 英国Zijing\.Shi\-1@uts\.edu\.au, Ling\.Chen@uts\.edu\.auMeng\.Fang@liverpool\.ac\.uk

## 1 引言

近年来，大型语言模型（LLMs）和视觉语言模型（VLMs）的进展 OpenAI (2023 (https://arxiv.org/html/2606.13686#bib.bib1)); Google DeepMind (2023 (https://arxiv.org/html/2606.13686#bib.bib2))催生了新一代通用Web代理 Zheng et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib7))。通过整合视觉感知、自然语言理解与多步规划，这些代理能够浏览复杂网站并执行广泛的在线任务 Yao et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib3)); Ning et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib4))。因此，Web代理正日益成为用户与开放网络之间的实用接口。

然而，赋予代理对现实世界Web环境的直接操作能力引入了重大安全风险 Chiang et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib6))。与独立的对话模型不同，Web代理在开放且可能具有对抗性的环境中运行，持续与可能不可信的第三方Web内容交互，安全故障不仅可能导致策略违规，还可能引发严重后果 Mudryi et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib5))，例如信息泄露和财务损失。

Web代理的安全性在近期研究中日益受到关注。先前研究考察了Web代理如何响应恶意用户指令，评估代理是适当地服从还是拒绝不安全请求 Kumar et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib13)); Tur et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib8))。其他工作则聚焦于间接提示注入，即恶意元素嵌入到代理执行任务期间所遇到的Web内容中 Evtimov et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib11))。例如，网页上具有说服力或类似指令的文本元素可能诱导敏感信息泄露 Liao et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib12)); Boisvert et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib10))。更近期的研究进一步表明，破坏性UI组件（如错误弹窗）会干扰代理决策并中断任务执行 Levy et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib9)); Boisvert et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib10))。

尽管取得了近期进展，现有工作主要通过直接针对代理输入或推理过程的对抗攻击来评估Web代理安全性。相比之下，现实世界的Web环境往往使代理面临源于欺骗性交互模式的风险 Mathur et al. (2019 (https://arxiv.org/html/2606.13686#bib.bib15))。由于这些模式是人类有意设计的，并在不同领域和工作流中差异显著，因此难以大规模系统建模和评估。

在这项研究中，我们评估了Web代理在电子商务领域真实欺骗模式下的表现，其中多步购物工作流自然催生了此类实践 European Commission (2023 (https://arxiv.org/html/2606.13686#bib.bib16))。我们引入了WebDecept，一个轻量级、可配置的插件框架，能够将欺骗性模式受控地注入到现有Web环境中。我们在VisualWebArena的购物环境中构建了WebDecept Koh et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib22))，这是一个基于OneStopShop平台的丰富电子商务网站。这一选择使得评估既真实又可重复。¹¹项目地址见 https://webdecept.github.io/。

在WebDecept中，我们实例化了七种可配置的欺骗模式，涵盖通过弹窗和横幅实现的静态与定向消息、域名重定向，以及购物操控（如附加项和价格漂移）。每种模式都参数化，具有多个可控的设计选择。在购物任务执行过程中，WebDecept将这些欺骗模式注入Web前端，以支持受控评估。我们评估了一系列多模态Web代理的任务表现和安全性，并分析了不同欺骗设计选择如何影响代理行为。结果显示，即使是先进的Web代理也对多类欺骗性交互高度脆弱，尤其是购物操控，且基于提示的安全约束往往不足以缓解此类失败。这些发现凸显了随着Web代理向现实世界部署扩展所需解决的关键安全挑战。

总的来说，本文做出了以下贡献。首先，我们提出了WebDecept，一个轻量级、可配置的插件框架，能够将欺骗性界面模式受控地注入Web环境，支持Web代理安全性的真实且可重复评估。其次，我们设计了一组电子商务领域常见的欺骗模式，并将其集成到端到端任务中，以评估最先进多模态Web代理的脆弱性。第三，我们进行了消融研究，分析了欺骗性界面的设计选择对代理行为和失败模式的影响。

参见图注图1：受控欺骗下的评估框架概览。在代理Web交互过程中，WebDecept在预定义的节点向环境插入状态触发的欺骗性界面，从而实现在真实欺骗下对Web代理行为的受控评估。
## 2 相关工作

#### Web代理与基准测试。

近期LLMs的进展显著提升了Web代理的推理和规划能力 Yao et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib3))。VLMs的融合进一步扩展了这些能力，使代理能够对渲染后的网页进行推理 He et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib31)); Zheng et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib7))。在此基础上，各种训练好的代理系统 Shen et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib23)) 和多代理框架 Zhang et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib20)) 在多步Web任务上展现了强劲性能。

与此同时，Web代理基准测试已被开发用于评估这些日益强大的系统 Zhou et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib21)); Deng et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib27)); Song et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib39))。现有基准测试通常评估代理在导航、表单填写和多步工作流方面的表现，涵盖合成或真实网站，评估主要围绕任务成功率 Koh et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib22)); Wei et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib26))。最近，一些基准测试开始探索这些代理的安全性评估，例如通过引入恶意用户指令 Kumar et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib13)); Tur et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib8)) 或向网页注入对抗性内容 Wu et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib25)); Levy et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib9)) 以测试鲁棒性。

#### 代理安全性。

基于LLMs和VLMs的自主代理的出现极大地扩展了代理能力 Shi et al. (2025b (https://arxiv.org/html/2606.13686#bib.bib40)); Xu et al. (2026 (https://arxiv.org/html/2606.13686#bib.bib42))。与对话模型不同，这些代理整合了工具使用 Shi et al. (2025a (https://arxiv.org/html/2606.13686#bib.bib34))，可能与其他代理协作 Duan et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib41))，并直接与动态、演进的环境交互，这大大扩展了其攻击面，使其暴露于上下文操纵和分布漂移等风险之中 Tian et al. (2023 (https://arxiv.org/html/2606.13686#bib.bib33)); Yu et al. (2026 (https://arxiv.org/html/2606.13686#bib.bib43))。

对于Web代理而言，一类突出的威胁来自提示注入，即嵌入用户指令 Kumar et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib13)); Tur et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib8)) 或Web环境 Wang et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib19)); Evtimov et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib11)) 中的恶意内容使代理偏离其预定目标。Levy et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib9)) 将安全性评估扩展到企业级工作流，通过定义用户同意等安全策略，而 Ying et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib35)) 引入了攻击模式的结构化分类，并分析了内部推理、行为轨迹和最终结果方面的失败。Guo et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib14)) 专注于基准测试代理对真实网站上标准人类定义暗模式的敏感性。同时，现有的风险缓解策略仍处于早期阶段。诸如安全感知提示 Evtimov et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib11)) 和基于护栏的框架 Zheng et al. (2025 (https://arxiv.org/html/2606.13686#bib.bib36)) 等方法在特定任务类型中效果有限。

相比之下，我们的工作引入了一个可配置的插件框架，用于将欺骗性界面模式受控地注入到可重复的Web环境中。这种设计能够在真实工作流中评估欺骗行为，包括购物车操控等先前Web代理安全基准测试中很少考察的场景。

## 3 问题形式化

#### Web代理交互。

我们将Web代理建模为一个与动态Web环境交互的顺序决策系统。用户指定一个以自然语言表达的任务目标 G ∈ G。代理运行于环境 E = (S, A, T) 中，其中 S 表示环境状态集合，A 是离散动作空间，T: S × A → S 是确定性转移函数。交互在离散时间步 t = 1, 2, ..., T 上展开。在每个时间步，代理接收观测 o_t，选择动作 a_t ∈ A，并引发状态转移：s_{t+1} = T(s_t, a_t)。所得动作序列 (a_1, a_2, ..., a_T) 构成代理的行为轨迹。理想的动作序列是满足目标 G 的序列。

#### 状态表示。

我们使用渲染后的截图和可访问性树（提供DOM的简化视图，包含语义和交互相关信息）来编码代理观测 o_t。

#### 动作空间。

在每个时间步，代理生成推理轨迹并根据策略 π_θ(a_t | G, a_{1:t-1}) 选择动作 a_t，其中 θ 表示底层模型的参数。所选动作 a_t 来自共享动作空间 A，包括离散的浏览器级命令：点击网页元素、在输入字段中键入文本、滚动视口以及在页面间导航。为了使动作在Web环境中落实，每个动作通过环境生成的符号标识符（通过可访问性节点ID暴露）引用目标网页元素。

## 4 WebDecept设计

### 4.1 概述

在本研究中，我们提出了WebDecept，一个轻量级的环境干预层，能够将欺骗模式注入现有Web环境。在WebDecept中，我们实例化了一组在线购物工作流中常见的代表性欺骗模式。我们采用VisualWebArena的购物领域 Koh et al. (2024 (https://arxiv.org/html/2606.13686#bib.bib22)) 作为底层Web环境，这是一个基于OneStopShop平台的丰富电子商务网站。这一选择使得在受控条件下进行真实且可重复的评估成为可能。

在代理Web交互过程中，WebDecept通过基于状态、触发驱动的机制注入欺骗性界面操纵，对渲染后的网页进行运行时修改。图1 (https://arxiv.org/html/2606.13686#S1.F1) 展示了WebDecept在评估流水线中的作用。该设计可以方便地集成到其他工作流和Web基准测试中。

参见图注(a) 购物车附加项。
参见图注(b) 价格漂移。

图2：两个购物操控场景示例。(a) 在没有用户请求或显式代理操作的情况下，强制捐赠被添加到购物车中。(b) 总价膨胀至原价的120%。#### 触发引擎。

WebDecept通过引入受控的前端级干预来增强Web代理交互循环。在一个episode中，WebDecept在特定时间步 t* 应用基于状态、触发驱动的干预 δ_{t*}，该干预由手动指定的配置实例化，定义了欺骗模式类型及其相关参数。干预 δ_{t*} 被应用于渲染后的Web界面，产生一个被干预的状态 \tilde{s}_{t*} = I(s_{t*}, δ_{t*})，代理从该状态接收修改后的观测 \tilde{o}_{t*}。这个修改后的观测使我们能够

相似文章

作为脆弱性的相关性：Web检索如何削弱LLM智能体的安全对齐

arXiv cs.CL

本文研究了将Web检索集成到LLM智能体中如何削弱安全对齐，揭示了“安全来源悖论”：即使是面向安全的文档也会增加有害遵从性。本文介绍了AgentREVEAL诊断框架和HarmURLBench基准，用于分析和评估检索引发的安全漏洞。

ShopGym：一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架

arXiv cs.AI

ShopGym 是一个框架，它将实时的电子商务店面转换为自包含的沙盒商店，用于对网络代理进行真实、可控和可重复的基准测试，并包含涵盖七类技能的合成任务。

迭代优化搜索：用于评估电商中智能搜索架构的双智能体模拟框架

arXiv cs.AI

eBay的这篇论文提出了一个模块化的双智能体模拟框架，用于评估对话式购物助手架构，能够对响应器设计进行受控比较。关键发现包括：滚动窗口内存在速度上比意图提取内存快35%，系统性故障分析将故障率降低了62%。

迈向代理优先的Web：为AI代理重新设计互联网

arXiv cs.AI

本文提出对万维网进行原则性重新设计，以适应AI代理作为主要中介，涉及访问权限、速率限制和标准化代理标识，从而超越以人为中心的假设。

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险来源：[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要经验驱动型自演化已成为一项极具前景的范式

相似文章

作为脆弱性的相关性：Web检索如何削弱LLM智能体的安全对齐

ShopGym：一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架

迭代优化搜索：用于评估电商中智能搜索架构的双智能体模拟框架

迈向代理优先的Web：为AI代理重新设计互联网

论经验驱动自演化智能体的安全风险

提交意见反馈