ShopGym：一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架

arXiv cs.AI 2026/05/18 04:00 论文

e-commerce web-agents benchmarking simulation framework shopify

摘要

ShopGym 是一个框架，它将实时的电子商务店面转换为自包含的沙盒商店，用于对网络代理进行真实、可控和可重复的基准测试，并包含涵盖七类技能的合成任务。

arXiv:2605.16116v1 公告类型：新摘要：开发和评估电子商务网络代理需要能够保留有意义任务结构的环境，同时实现可控、可重复和可扩展的科学比较。现有方法存在权衡：实时店面提供了真实性，但非平稳、难以检查且不可重复；而手工构建的沙盒基准提供了控制，但仅涵盖有限的布局、目录、政策和交互模式。我们认为核心瓶颈在于方法论：该领域缺乏一种可扩展的方式来构建同时具备真实性、多样性、可控性、可检查性和可重复性的评估环境。我们引入了 ShopGym，这是一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架。ShopGym 是一个用于构建电子商务模拟环境和基于基准任务的框架。其模拟层 ShopArena 通过匿名化的商店规范和一个分阶段、经过验证的生成过程，将实时种子店面转换为自包含的沙盒商店。在这些模拟商店之上，ShopGuru 综合了涵盖七类技能的基准任务，将每个任务基于商店的目录、导航结构、政策和交互能力。ShopArena 和 ShopGuru 共同生成自包含、可重置、可检查且稳定的评估工件，保留与购物任务相关的结构属性和代理评估信号。我们通过基于图的结构分析和基于代理的行为评估，使用六个沙盒商店（三个使用合成数据构建，三个使用真实数据构建）生成的 224 个任务对框架进行了验证。结果表明，合成商店保留了实时店面的关键结构属性，且代理在合成商店上的表现与在实时店面上的表现呈正相关。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:35

# ShopGym: 面向电子商务网页代理的真实模拟与可扩展基准测试集成框架 来源: https://arxiv.org/html/2605.16116 Chinmay Savadikar1,2,†,, Mingyu Zhao2,, Yuanzheng Zhu2,†, Han Li2, Shuang Xie2, Alberto Castelo2,Tianfu Wu1,Lingyun Wang2, 1北卡罗来纳州立大学 2Shopify 本工作作为Shopify实习期间完成 †同等贡献，顺序随机决定 通讯作者: lingyun\.wang@shopify\.com ###### 摘要 开发和评估电子商务网页代理需要既能保留有意义任务结构，又能实现可控、可重复和可扩展科学比较的环境。现有方法迫使人们在真实性与实验控制之间做出权衡：在线店铺提供真实性，但具有非平稳性、难以检查且不可重复；而手工构建的沙盒基准测试提供控制性，但仅覆盖有限的布局、目录、策略和交互模式。我们认为核心瓶颈在于方法论：该领域缺乏一种可扩展的方式来构建同时满足真实性、多样性、可控性、可检查性和可重复性的评估环境。我们提出 ShopGym，一个用于电子商务网页代理真实模拟和可扩展基准测试的集成框架。ShopGym 是一个构建电子商务模拟环境和接地基准任务的框架。其模拟层 ShopArena 通过匿名化店铺规范和分阶段验证的生成过程，将在线种子店铺转换为独立的沙盒店铺。在这些模拟店铺之上，ShopGuru 综合生成涵盖七种技能类别的基准任务，并将每个任务与店铺的目录、导航结构、策略和交互能力相关联。ShopArena 和 ShopGuru 共同生成独立、可重置、可检查和稳定的评估产物，保留与购物任务相关的结构属性和代理评估信号。我们通过基于图的结构分析和基于代理的行为评估来验证该框架，使用跨越六个沙盒店铺的224个生成任务：其中三个使用合成数据构建，三个使用真实数据构建。我们的结果表明，合成店铺保留了在线店铺的关键结构属性，且代理在合成店铺上的表现与在线店铺上的表现呈正相关。 ## 1 引言 随着网页代理的能力不断增强，该领域越来越需要能够在现实、面向用户的环境中支持长周期交互的稳定环境。电子商务在这方面是一个特别具有挑战性的领域：购物任务要求代理导航多页面界面、解读产品信息、满足用户约束、比较替代方案并执行诸如选择变体或添加商品到购物车等操作。这些任务将感知、推理和序贯决策结合在一起，使得店铺成为网页代理评估的一个令人信服的测试平台。这一领域的重要性反映在购物助手[23 (https://arxiv.org/html/2605.16116#bib.bib23),25 (https://arxiv.org/html/2605.16116#bib.bib25),17 (https://arxiv.org/html/2605.16116#bib.bib17)]、离线A/B测试[2 (https://arxiv.org/html/2605.16116#bib.bib2),15 (https://arxiv.org/html/2605.16116#bib.bib15)]以及电子商务应用中的用户行为模拟[10 (https://arxiv.org/html/2605.16116#bib.bib10),23 (https://arxiv.org/html/2605.16116#bib.bib23),26 (https://arxiv.org/html/2605.16116#bib.bib26),20 (https://arxiv.org/html/2605.16116#bib.bib20)] 日益增长的兴趣中。

现有的电子商务代理环境在真实性和实验控制之间面临根本性的权衡。在线网站[21 (https://arxiv.org/html/2605.16116#bib.bib21),7 (https://arxiv.org/html/2605.16116#bib.bib7),11 (https://arxiv.org/html/2605.16116#bib.bib11)]提供了很强的真实性：代理在逼真的布局、自然发生的变异和交互模式下运行和评估。但在线店铺本质上是非平稳的。目录、布局和网页设计可能会改变，商品系列可能被重新组织，参与在线A/B测试的店铺可能为不同请求提供不同的变体版本。这种非平稳行为使得网页代理的可重复训练和评估变得困难。评估表现不仅反映代理能力，还可能反映由网站漂移、位置特定行为和操作噪音引起的偶然变异，导致结果难以重现，代理难以公平比较[21 (https://arxiv.org/html/2605.16116#bib.bib21)]，训练运行也难以重现。相比之下，沙盒环境[28 (https://arxiv.org/html/2605.16116#bib.bib28),8 (https://arxiv.org/html/2605.16116#bib.bib8),22 (https://arxiv.org/html/2605.16116#bib.bib22),16 (https://arxiv.org/html/2605.16116#bib.bib16),18 (https://arxiv.org/html/2605.16116#bib.bib18),12 (https://arxiv.org/html/2605.16116#bib.bib12)] 被设计为可控且可重复，但代价是真实性和多样性的损失。手动构建逼真的店铺环境成本高昂，且只能覆盖有限的布局、目录结构和交互模式。现有提出电子商务代理环境的工作大多探索了这两种方法，如 DeepShop[11 (https://arxiv.org/html/2605.16116#bib.bib11)] 使用在线网站，而 WebShop[22 (https://arxiv.org/html/2605.16116#bib.bib22)]、ShoppingBench[16 (https://arxiv.org/html/2605.16116#bib.bib16)]、ShopSimulator[18 (https://arxiv.org/html/2605.16116#bib.bib18)] 和 WebMall[12 (https://arxiv.org/html/2605.16116#bib.bib12)] 则手动构建沙盒环境。

我们认为更深的瓶颈在于方法论：该领域缺乏一种可扩展的方式来*构建可靠且同时具备真实性、可控性、可检查性和可重复性的模拟环境*。为解决这一差距，我们提出 ShopGym，一个用于构建真实电子商务模拟环境和接地网页代理基准的框架。ShopGym 包含两个互补组件，以协同工作流程运行：(a) 模拟环境层 ShopArena，将一个或多个在线种子店铺转换为独立的沙盒店铺；(b) ShopGuru 综合生成基于沙盒店铺的基准任务。

参见图注  
图 1: ShopGym 包含两个组件。ShopArena 提供填充有合成沙盒店铺的模拟环境，以及一个可扩展的流水线，该流水线通过规范合成，再经数据和代码生成，从一个或多个在线种子店铺生成新的沙盒店铺。ShopGuru 随后利用生成的目录、集合、页面和店铺统计数据，生成覆盖原始技能的短周期任务以及结合这些技能的长周期购物旅程。

**ShopArena: 经过验证的模拟环境。** 为了生成基于真实店铺的模拟环境，ShopArena 通过一个中间规范文档将店铺理解（探索）与沙盒合成（生成）分离，该文档作为探索和生成之间的唯一接口。给定一个或多个种子店铺，ShopArena 自主浏览网站并编写一个匿名规范，捕获其导航结构、用户面向的能力、高层页面组织和目录统计信息。当提供多个种子时，ShopArena 将它们的结构和行为信号组合成一个规范，因此一个沙盒店铺可以涵盖任何单个源店铺无法覆盖的多样性。然后，一个分阶段的生成流水线从规范合成一个可运行的沙盒店铺，通过构建检查、类型检查和多模态视觉验证迭代优化实现。ShopArena 的目标不是克隆某个特定店铺；它生成的是*行为对齐的近似*——基于真实店铺结构和交互模式但具有合成品牌标识、产品、描述和图像的合成店铺。目标不是视觉或品牌级别的保真度，而是足以支持受控评估的结构、行为和统计对齐。*由于规范是人类可读的，基准测试创建者还可以在不重新探索源店铺的情况下以受控方式编辑生成的环境。*

**ShopGuru: 接地任务生成。** ShopGuru 利用沙盒店铺的目录、导航图和店铺策略，综合生成与将要执行的环境一致的任务。这种设计将在线网页探索与基准执行分离。生成的店铺稳定且可重置，而中间规范提供了一个可检查的控制面，基准创建者可以在不重新探索源店铺的情况下进行编辑。

我们通过生成合成沙盒店铺和匿名孪生店铺，然后使用结构指标和基于代理的行为比较进行验证。在源店铺和生成店铺上定义的配对任务中，代理在沙盒环境上的成功率与在线店铺上的成功率呈正相关，表明生成的店铺保留了来自在线环境的有意义评估信号，同时显著提高了控制性和可重复性。虽然它不能完全取代在线评估，但 ShopGym 为标准化的基准测试和分析提供了更强的方法论。

总结来说，我们的贡献包括：
- • 我们识别出电子商务环境和代理评估中的真实性-控制权衡是一个方法论瓶颈，并认为缺失的能力是可扩展地构建真实、可控且可重复的环境和评估基准。
- • 我们通过 ShopGym 弥合了这一差距，这是一个用于构建真实、可控且可重复的电子商务代理评估环境的框架。
- • 我们提出 ShopArena，一个通过规范合成和分阶段代码生成将在线种子店铺转换为匿名、独立沙盒店铺的流水线。
- • 我们提出 ShopGuru，一个接地的任务生成流水线，为每个生成的店铺创建与其目录、导航结构、过滤器和策略相关的短周期和长周期购物任务。
- • 我们验证了模拟环境保留了在线店铺评估中的有意义信号，支持它们作为受控、行为对齐的基准测试环境。

## 2 ShopGym

ShopGym 结合了两个互补框架：ShopArena（一个由可交互沙盒店铺组成的模拟环境）和 ShopGuru（一个评估框架，包含基于沙盒店铺的合成任务生成流水线）。ShopArena 由一个包含多个沙盒店铺的模拟环境组成。它还提供了一个可扩展的流水线，通过生成新的合成沙盒店铺来扩展环境：给定一个或多个种子店铺 \{S\}_N（真实电子商务网站），ShopArena 生成流水线可以使用多代理店铺探索和代码合成流水线生成一个稳定、独立且匿名的沙盒店铺 E。ShopGuru 评估框架生成一组基于沙盒店铺 E 定义的指令跟随任务 T。遵循标准实践[28 (https://arxiv.org/html/2605.16116#bib.bib28),1 (https://arxiv.org/html/2605.16116#bib.bib1)]，我们将任务 T = (E, s_0, p, V) 定义为沙盒店铺 E、初始状态 s_0、自然语言意图 p 以及将代理轨迹映射到二值成功分数的验证函数 V。图 1 (https://arxiv.org/html/2605.16116#S1.F1) 展示了完整的流水线。

### 2.1 ShopArena

为了生成 ShopArena 环境中的每个沙盒店铺，我们提出一个可扩展的流水线，将一个或多个在线种子店铺 \{S\}_N 转换为真实、独立、可检查和可重复的沙盒店铺。*重要的是，该流水线可以扩展到任何在线店铺，使得 ShopArena 成为一个可随新沙盒店铺更新的演化环境。*

**生成流水线。** 一次性端到端完成这一任务是一个极长周期的任务：它将店铺探索与理解、合成目录构建和源代码生成结合在一个单一轨迹中，难以控制和调试，并且容易因代理 LLM 累积上下文而产生不完整输出[9 (https://arxiv.org/html/2605.16116#bib.bib9),14 (https://arxiv.org/html/2605.16116#bib.bib14)]。我们转而将合成分为两个阶段，通过一个中间产物连接：一个匿名的设计规范 M。*探索*阶段（§2.1.1 (https://arxiv.org/html/2605.16116#S2.SS1.SSS1)）浏览 \{S\}_N 并编写 M；*生成*阶段（§2.1.2 (https://arxiv.org/html/2605.16116#S2.SS1.SSS2)）读取 M 并编写可运行沙盒店铺的源代码。这种分割将所有在线依赖限制在探索中，允许任一阶段独立重新运行，并将人类可读的规范转变为控制面，用于编辑生成的环境而不必重新探索源店铺。

**多代理框架。** 两个阶段都由通过文件系统通信的小型代理组组织。每个代理是一个编码代理的实例（Claude Code，底层模型为 Claude Opus 4.6），通过 (a) 访问的工具和 (b) 系统提示中描述的目标进行区分。代理共享一个工作目录但不共享对话上下文。

#### 2.1.1 探索：从在线店铺到规范

探索阶段浏览一个或多个种子店铺 \{S\}_N，提取对下游环境生成重要的在线店铺属性，并生成规范文档 M。规范包含三个方面：(i) 设计手册，即店铺及其视觉风格的自然语言描述；(ii) 店铺中通常存在的属性结构化列表，例如筛选属性、导航菜单设计、分页信息等；(iii) 统计数据，如产品数量、价格范围和分布等。图 2 (https://arxiv.org/html/2605.16116#S2.F2) 展示了完整的探索流水线。

**静态预取。** 该阶段始于对规范表面（主页 HTML、站点地图、搜索和购物车端点、公共目录 JSON、政策页面）的确定性预取。

**规划代理 (Agent_plan)。** 一个单一的规划代理利用预取的文件，并在少量实时浏览预算下，编写一个将 S_i 的探索分解为聚焦子任务的计划。规划代理会看到一个示例计划，但需要根据 S_i 进行调整，因此覆盖范围基于店铺实际暴露的内容，而非固定模板。示例计划见图 G.1 (https://arxiv.org/html/2605.16116#A7.SS1)。

**规范代理 (Agent_spec)。** 对于每个计划中的子任务，框架会生成一个新的规范代理，配备浏览器自动化工具（Playwright）。代理执行目标浏览，捕获证据（截图、快照、可选的 XHR 跟踪），并为其子任务编写 M 的一个匿名片段。Agent_spec 被指示在写入时忽略品牌名称、产品名称、具名个人和绝对 URL，因此探索之后的所有内容都是构构匿名的——无需单独的删除步骤。

**整合与多种子组合。** 一个非代理的

ShopGym：一个用于电子商务网络代理的现实模拟和可扩展基准测试的集成框架

相似文章

SimGym：基于流量锚定的VLM智能体实现电商A/B测试模拟框架

MobileGym: 一个可验证且高度并行的移动GUI代理研究仿真平台

CUA-Gym: 为计算机使用代理扩展可验证的训练环境与任务

Workflow-GYM：面向真实世界专业领域中计算机使用代理任务的长期评估

OpenFinGym：一个可验证的多任务Gym环境，用于评估量化交易Agent

提交意见反馈