Weblica:用于视觉 Web 智能体的可扩展且可复现的训练环境

arXiv cs.AI 论文

摘要

Apple Research 推出了 Weblica,这是一个利用 HTTP 缓存和基于大语言模型(LLM)的合成技术,为视觉 Web 智能体创建可扩展且可复现训练环境的框架。

arXiv:2605.06761v1 公告类型:新论文 摘要:Web 具有复杂性、开放性和动态变化性,这导致为视觉 Web 智能体扩展训练数据极具挑战性。现有的数据收集尝试仅限于用于监督微调的离线轨迹,或仅包含少量用于强化学习(RL)训练的模拟环境,因此无法捕捉 Web 的多样性。我们提出了 Weblica(Web Replica),这是一个用于构建可复现且可扩展 Web 环境的框架。我们的框架利用:1) HTTP 级别的缓存来捕获并回放稳定的视觉状态,同时保持交互行为;2) 基于真实网站和核心 Web 导航技能的、由大语言模型驱动的环境合成。利用该框架,我们将强化学习训练扩展至数千个多样化的环境和任务。我们表现最佳的模型 Weblica-8B 在多个 Web 导航基准测试中优于相似规模的开权重量基线模型,同时使用的推理步骤更少,在增加测试时计算资源时具有良好的扩展性,并且与 API 模型具备竞争力。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:06

# 用于视觉网页代理的可扩展且可复现的训练环境

来源:https://arxiv.org/html/2605.06761
Roman Bachmann, Yuanzheng Gong, Anders Boesen Lindbo Larsen, Afshin Dehghan
Apple

(2026年5月7日)

###### 摘要

网络具有复杂性、开放性和动态变化性,这使得为视觉网页代理(visual web agents)扩展训练数据变得极具挑战。现有的数据收集尝试仍局限于用于监督微调(SFT)的离线轨迹或用于强化学习(RL)训练的少量模拟环境,因此无法捕捉网络的多样性。我们提出了 WEBLICA(Web Replica),一个用于构建可复现且可扩展的网络环境的框架。我们的框架利用了:1)HTTP 级缓存,以捕捉和重放稳定的视觉状态,同时保留交互行为;2)基于真实网站和核心网页导航技能的大语言模型(LLM)环境合成。利用该框架,我们将 RL 训练扩展至数千种多样化的环境和任务。我们性能最佳模型 WEBLICA-8B 在多个网页导航基准测试中优于同等大小的开源基线模型,同时使用的推理步骤更少,随着额外的测试时计算资源增加表现出良好的扩展性,并与 API 模型具有竞争力。

## 1 引言

大型语言模型在编码\[anthropic2025claudecode;openaicodex;wang2024openhands;hui2024qwen2\]、数学\[hubert2025olympiad;novikov2025alphaevolve\]和计算机使用\[anthropic2024claudecomputeruse;openaicomputeruse;geminicomputeruse;qin2025ui\]等领域作为自主代理的能力日益增强。这一进展得益于大规模、高质量训练数据的可用性。网页导航已成为近期的关注焦点,旨在构建能够自主导航网络以解决从信息检索、表单填写到在线购物等各种任务的代理。这些代理旨在完成目前需要人工努力的多步骤工作流,标志着向个性化数字助手迈出了重要一步。

Refer to caption

Refer to caption

图 1:由于网络的复杂、动态和开放性质,为视觉网页代理扩展训练数据具有挑战性。左图:我们以完全自动化和可扩展的方式合成网络环境,涵盖导航、表单填写、筛选、日期选择等一系列广泛的能力。除了缓存真实网站外,这些环境为实时网络训练提供了完全离线的替代方案。右图:在这些环境上的训练提高了多个网页导航基准测试(此处显示 Online-Mind2Web\[xue2025illusion\])的性能,随着测试时计算(上图)和模型大小(下图)的扩展而提升。

然而,构建网页代理的进展较慢,主要原因是难以扩展训练数据和环境以捕捉网络的复杂性。最近的数据生成尝试包括收集离线轨迹作为监督微调的演示数据\[wang2025opencua;awadallah2025fara;gupta2026molmoweb\],但由于缺乏交互,对处理网络的随机性支持有限。作为替代方案,构建模拟网络环境提供了交互能力,但它们通常仅涵盖少量手动定义的域\[zhou2023webarena;koh2024visualwebarena\],限制了泛化能力。虽然直接在实时网站上训练可以缓解这一问题,但由于超时和机器人检测导致的脆弱性,使得训练不稳定。此外,实时网络不断演变且交互缓慢,使得精心控制的消融实验和完全可复现的训练变得困难。这引出了一个自然的问题:如何在保持可复现性的同时扩展交互式网络环境?

我们提出 Weblica,一个用于构建可复现且可扩展的网络环境以训练视觉网页代理的框架。我们的框架引入了两种互补机制。首先,我们开发了一个 HTTP 级缓存系统,记录和重放真实网站的交互,在保持交互行为的同时捕捉稳定的视觉状态。这使得能够在多样化的真实世界网站上进行可复现的训练,而无需承受实时网络训练的脆弱性,尽管它仅限于可以获得稳定记录的域。其次,我们提出了一种基于 LLM 的环境合成流水线,生成基于真实网站和核心网页导航技能(例如,表单提交、认证流程、动态搜索)的交互式网络环境,以潜在的真实到模拟(sim-to-real)差距为代价,实现向更广泛域的扩展。所有环境都在本地提供服务,消除了网络延迟并实现了快速训练。结合这两种方法,我们可以大规模提供多样化且可复现的环境。

利用该框架,我们将训练扩展至数千种多样化的环境和网页导航任务。我们从 Qwen3-VL\[yang2025qwen3\]家族中微调模型,这些模型纯粹基于屏幕截图运行,无需 set-of-marks 注释或 DOM 访问,因为这些可能会因网络底层结构的不一致性而损害泛化能力\[yutori2025bitter\]。我们研究了训练阶段和环境组成的影响,并分析了性能如何随模型大小和测试时计算资源扩展。我们的 8B 模型在多个网页导航基准测试中取得了强劲结果。在 Online-Mind2Web\[xue2025illusion\]上,它仅用 30 步就达到了 39.2% 的 pass@1 准确率,优于使用 3 倍多步骤的开源模型,并随着额外测试时计算资源的增加进一步提升。

## 2 相关工作

#### 构建网页代理。

早期的网页代理依赖于仅处理结构化表示(如无障碍树或 DOM 元素)的纯文本语言模型\[yao2022webshop;deng2023mind2web;zhou2023webarena;gur2023real\]。后续工作采用视觉语言模型(VLMs)以视觉方式接地动作\[koh2024visualwebarena;he2024webvoyager;hong2024cogagent\]。由于早期 VLMs 的接地能力有限,初始方法使用 set-of-marks\[yang2023set\]叠加层增强屏幕截图。这些叠加层在交互元素上添加编号的边界框以简化动作预测。然而,这引入了对准确元素检测的依赖,并增加了不反映自然网络视觉感知的视觉混乱\[zheng2024gpt\]。最近的工作完全去除了这些辅助工具,构建了直接在原始屏幕截图上运行并将动作预测为像素坐标的代理\[qin2025ui;wang2025ui;andreux2025surfer;awadallah2025fara;gupta2026molmoweb;openaicomputeruse;geminicomputeruse\]。我们遵循这一方向,训练以屏幕截图为输入并以坐标为基础动作的视觉网页代理。

#### 网页代理的数据与环境。

一些努力通过人工注释或模型生成的 rollout 收集监督微调(SFT)轨迹。Fara\[awadallah2025fara\]开发了一个多代理数据生成系统,在 70K 个域中产生了 145K 条轨迹。MolmoWeb\[gupta2026molmoweb\]结合了超过 100K 条合成任务轨迹、30K+ 人工演示和 GUI 感知数据。OpenCUA\[wang2025opencua\]和 AgentTrek\[xu2024agenttrek\] similarly 收集网页任务的演示数据。虽然有价值,但仅靠 SFT 数据对 RL 训练所实现的探索和试错学习提供的支持有限。

合成环境通过受控设置中的 RL 训练提供了替代方案。WebArena\[zhou2023webarena\]和 VisualWebArena\[koh2024visualwebarena\]提供自托管的网站,模拟电子商务、论坛和内容管理系统。WebRL\[qi2024webrl\]和 AgentGym-RL\[xi2025agentgym\]基于这些进行 RL 训练,但它们仅涵盖少数域,并未捕捉到真实网络的多样性。

最近的工作探索了任务生成的扩展。InstaV3\[trabucco2025insta\]开发了一个基于 LLM 的流水线,在 146K 个实时网站上生成网页导航任务。WebGym\[bai2026webgym\]为实时网站上的 RL 训练获取了多个数据集,但由于超时和机器人检测导致可复现性问题及训练不稳定。我们的框架通过缓存和基于 LLM 的合成解决了这一问题,同时扎根于真实网站和网页导航技能。

#### 评估网页代理。

网页代理的评估基准涵盖视觉接地和端到端任务完成。对于视觉接地,ScreenSpot-v2\[wu2024atlas\]、ScreenSpot-Pro\[li2025screenspot\]和 MMBench-GUI\[wang2025mmbench\]等基准评估代理定位和与 UI 元素交互的能力。对于任务完成,基准在模拟环境与真实环境的使用上有所不同。World of Bits\[shi2017world\]是早期的努力,通过缓存 HTTP 流量创建网站的可复现离线近似,但仅限于简单的微型任务。WebArena\[zhou2023webarena\]和 VisualWebArena\[koh2024visualwebarena\]在具有程序化成功检查的自托管网站上评估代理。虽然可复现,但它们存在模拟到真实的差距。在真实网站上的基准包括 GAIA\[mialon2023gaia\]、WebVoyager\[he2024webvoyager\]和 Mind2Web\[deng2023mind2web\],它们在实时网络任务上测试代理,但随着网站随时间变化面临可复现性挑战。WebVoyager 还因任务多样性有限而受到限制,多达 51% 的任务可通过搜索捷径解决。Online-Mind2Web\[xue2025illusion\]通过更真实的设置解决了这些问题,使用 LLM-as-Judge 在实时网站上评估代理的任务成功率。DeepShop\[lyu2025deepshop\]和 WebTailBench\[awadallah2025fara\]则分别在电子商务和长尾网络任务上进一步测试代理。

Refer to caption
图 2:框架概述。Weblica-Cache(顶部):我们记录浏览会话,捕捉所有 HTTP 流量,然后识别导致回放期间缓存未命中的易变参数(例如,时间戳、会话令牌)。这些用于生成特定站点的缓存规则,从缓存键中剥离易变参数,从而在网络完全隔离的情况下实现确定性重放。Weblica-Synth(底部):我们任务编码代理生成由导航能力、网站类别和视觉样式参数化的网络环境。代理编写无框架的 HTML、CSS 和 JavaScript,并使用工具(例如,图像生成、屏幕截图验证)迭代,直到网站和任务功能正常。我们大规模应用这两种方法来创建多样化的离线训练环境(参见 图 1 (https://arxiv.org/html/2605.06761#S1.F1) 获取样本)。

## 3 框架

图 2 (https://arxiv.org/html/2605.06761#S2.F2) 提供了我们框架的概述。我们首先描述视觉网页导航的代理公式(3.1 节 (https://arxiv.org/html/2605.06761#S3.SS1)),然后详细说明两种环境构建机制:HTTP 级缓存(3.2 节 (https://arxiv.org/html/2605.06761#S3.SS2))和基于 LLM 的合成(3.3 节 (https://arxiv.org/html/2605.06761#S3.SS3))。

### 3.1 代理公式

我们将网页导航公式化为由元组 \( (\mathcal{S}, \mathcal{A}, \mathcal{O}, T, R) \) 定义的部分可观测马尔可夫决策过程(POMDP),其中 \( \mathcal{S} \) 是浏览器状态空间,\( \mathcal{A} \) 是动作空间,\( \mathcal{O} \) 是观测空间,\( T(s_{t+1} \mid s_t, a_t) \) 是控制浏览器状态如何响应动作而变化的转换函数(通过 Playwright 实现),\( R \) 是奖励函数(定义于 4.1 节 (https://arxiv.org/html/2605.06761#S4.SS1))。在每个时间步 \( t \),代理接收观测 \( o_t \in \mathcal{O} \) 并基于任务指令 \( \tau \) 和历史 \( o_{\leq t} \) 选择动作 \( a_t \in \mathcal{A} \)。参见 图 3 (https://arxiv.org/html/2605.06761#S3.F3) 获取示例轨迹。

Refer to caption
图 3:Weblica-8B 在 Weblica-Synth 环境中解决数据输入任务的示例轨迹,由 LLM 裁判根据特定任务标准进行评估(更多示例见附录 B (https://arxiv.org/html/2605.06761#A2))。

#### 观测空间。

每个观测 \( o_t = (s_t, u_t) \) 由渲染为 1280×720 像素的浏览器屏幕截图 \( s_t \) 和当前 URL \( u_t \) 组成。与依赖无障碍树或 DOM 结构的方法不同,我们的代理纯粹基于视觉输入运行。

#### 动作空间。

我们采用基于坐标的动作空间,遵循最近关于视觉网页代理的工作。基于坐标的动作(click, hover)以像素位置 \( (x, y) \) 为参数,而其他动作采用特定任务的参数(文本、按键、方向等)。`stop` 动作终止 episode 并可选地返回响应。请参见 表 6 (https://arxiv.org/html/2605.06761#A3.T6) 获取完整动作空间。

#### 策略。

代理策略 \( \pi_\theta(a_t \mid o_{\leq t}, \tau) \) 由视觉语言模型参数化,并遵循 ReAct 风格\[yao2022react\]框架。在每个步骤中,模型生成推理追踪 \( r_t \) 分析当前观测,然后选择动作 \( a_t \)。推理追踪和动作都被附加到历史中供后续步骤使用。我们使用 Qwen3-VL-Instruct 作为基础模型,它支持基于坐标的动作预测,无需 set-of-marks 或其他视觉注释。

### 3.2 HTTP 级缓存

**记录与重放。** 我们使用 Playwright 实现 HTTP 级缓存以记录和重放网络交互。在记录期间,我们捕捉所有 HTTP 流量并按归一化请求签名索引响应。关键挑战是处理访问之间变化并导致缓存未命中的易变参数(时间戳、会话令牌)。我们通过一个基于规则的归一化系统解决此问题,该系统从 URL、标题和 POST 正文中过滤此类参数,具有特定域的规则和多级回退以进行渐进式匹配。

**自动化规则生成。** 为每个网站开发缓存规则需要分析其流量模式。我们通过一条流水线自动化此过程:首先,我们记录由 Qwen3-VL-32B-Instruct 代理执行的浏览会话,捕捉所有请求参数而不进行过滤。随后的回放揭示了缓存未命中,我们通过模糊匹配将其与记录进行比对,以识别哪些参数在访问间发生了变化。这些报告用于合成特定站点的缓存规则和非必要端点(例如,分析)的合成响应。生成的规则通过完全网络隔离的回放进行验证。仅保留代理在缓存条件下成功完成任务的会话用于训练。这种自动化方法捕捉了真实网络内容的全部保真度,包括动态布局和 UI 交互,并扩展到数千个域。

**环境与任务。** 我们利用 InstaV3\[trabucco2025insta\] 数据集作为任务池,该数据集通过基于 LLM 的流水线在 146K 个网站上生成网页导航任务。我们将这些任务与缓存环境匹配,并验证其在缓存条件下的可解性,保留了 15.6K 个缓存环境和任务。我们将此集合称为 Weblica-Cache。

### 3.3 基于 LLM 的环境合成

最近的智能体编码工具,如 Claude Code\[anthropic2025claudecode\],展示了强大的自主编码能力。给定任务描述和验证标准,这些系统可以独立工作,直到满足成功要求。我们利用此类工具大规模生成合成网络环境,实现按需创建仅通过缓存难以提取的功能,

相似文章

WebWatcher:开辟视觉语言深度研究代理新前沿

Papers with Code Trending

WebWatcher 是一个用于深度研究的多模态代理,它利用合成轨迹和强化学习在复杂的视觉与文本信息检索任务中实现了卓越性能。本文还引入了 BrowseComp-VL,这是一个评估多模态代理的新基准。

OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers

OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。

AsyncWebRL:面向视觉Web代理的高效多步强化学习

arXiv cs.LG

AsyncWebRL提出了一种异步多步强化学习系统,用于视觉语言Web代理,通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题,实现了高达2.9倍的训练加速,并在WebGym上取得了新的最优结果。