WebChallenger:一个可靠且高效的通用型Web智能体
摘要
WebChallenger是一个新的Web智能体框架,通过架构设计而非模型规模来复现人类认知优势,使用开放权重模型无需微调即可在多个基准测试中取得出色性能。
查看缓存全文
缓存时间: 2026/06/10 06:11
# WebChallenger:一款可靠且高效的通用型网页智能体
来源:https://arxiv.org/html/2606.10423
Jayoo Hwang
ML Collective
jayoohm350@gmail\.com
&Xiaowen Zhang
longsurf\.ai
sean@longsurf\.ai
&Vedant Padwal
独立研究者
vedantpadwalinfi@gmail\.com
###### 摘要
自主网页导航对LLM智能体而言仍具挑战性,而最强的通用型系统依赖专有推理模型,其推理成本对于智能体最常使用的重复性任务来说过于高昂。我们认为,这一差距并非源于模型能力不足,而是因为智能体架构未能复现人类的三种认知优势:对页面相关区域的选择性注意、对网站结构的持久记忆,以及对常见交互模式的程序流畅性。我们提出WebChallenger,一个通过架构设计而非模型规模来弥补上述差距的网页智能体框架。其核心是PageMem:一种从DOM确定性构建的结构化页面表示,将每个页面呈现为带有简短摘要的语义层级结构。在此共享基座之上,我们构建了三种机制,分别对应前述三种认知优势:一个分治观测流水线,允许智能体浏览各区域摘要,仅从任务相关区域提取详细信息;一个轻量级探索与记忆系统,遍历每个网站一次,构建可复用的页面及元素行为地图;以及复合动作工作流,将常见的多步交互压缩为单一智能体动作,自动处理中间状态变化。由于三者均在PageMem上运作,该框架无需站点特定适配器即可跨网站泛化。使用未经微调的现成开放权重模型,我们的系统在WebArena上达到56.3%,在VisualWebArena上达到48.7%,在Online‑Mind2Web上达到51.0%,在WorkArena上达到70.9%,以极低成本逼近前沿专有系统。我们的代码已发布于此URL (https://github.com/jayoohwang1/webchallenger)。
## 1 引言
> “我触摸未来。我教书。” —— 克丽斯塔·麦考利夫

图1:基准测试结果。在四个网页导航基准测试中,WebChallenger在使用开放模型的智能体中取得了新的最佳性能。我们的结果所用计算资源远少于基线(后者采用微调或更大模型),这表明仅凭架构设计即可大幅提升网页智能体性能。
自主网页导航一直是人工智能研究的长期目标(Doorenbos et al., 1997):网页是最复杂的交互环境之一,自主导航具有广泛的实践意义,从自动化重复性知识工作到作为通用智能体能力的测试平台。近年来,大型语言模型和视觉语言模型的进展推动了计算机使用智能体的快速发展(Marino and Marasović, 2025),但即使是最强的LLM智能体在现实、长周期的网页任务上仍然低于人类水平(Jang et al., 2026; Miyai et al., 2025)。此外,最好的通用智能体依赖专有推理模型,其推理成本对于希望智能体执行的重复性工作而言过于高昂。这种差距呼应了莫拉维克悖论(Moravec, 1988; Su, 2025):浏览网页对人类而言轻而易举,但对于擅长数学与代码生成的AI模型却异常困难。我们认为,这一困难并非源于当前模型缺乏网页知识,而是因为智能体框架呈现网页环境的方式与需要处理的方式之间存在错配。具体来说,人类在网页导航中具备三种认知优势,而当前智能体架构未能复现。第一,**选择性注意**:人类专注于页面的相关区域而忽略其余部分(Putkonen et al., 2023),而LLM智能体将整个页面作为平面标记序列吞入,相关信息淹没在无关上下文中。第二,**持久记忆**:人类会记住曾经使用过的网站的布局和功能,而LLM智能体每次会话都从零开始,没有任何环境先验知识。第三,**程序流畅性**:人类内化可复用的例程来处理常见交互模式(如搜索、下拉选择、填写表单),这些例程作为连贯序列执行,无需每一步都进行深思熟虑的推理;而LLM智能体必须重新观察并重新推理完整的页面状态才能执行每个原子动作。在本工作中,我们表明这三种人类优势可以通过智能体架构设计来实现,而非依靠模型规模或训练。若要以跨网站泛化且无需站点特定适配器的方式实现它们,需要一种智能体能统一推理的共享抽象。我们引入**PageMem**,一种从DOM确定性构建的结构化页面表示,将每个页面呈现为带有简短摘要的语义层级结构:这种表示就像目录一样,智能体可以浏览,有选择地展开以获取细节,并根据区域类型将处理分派给专门的工作流。在此基座之上,我们构建了三种机制,分别对应上述三种认知优势。一个**分治观测流水线**允许智能体浏览PageMem的区域摘要,选择任务相关区域,并仅从这些区域提取详细信息,无需处理整个页面即可生成信息密集的观测。一个轻量级**探索与记忆系统**在任务执行前遍历新网站,构建一个持久的PageMem集合,记录页面、导航路径以及交互元素的行为。**复合动作工作流**实现针对常见交互模式(如搜索、菜单选择、表单提交)的站点无关例程。这些工作流按区域类型分派,将多步过程压缩为单一智能体动作,并自动呈现部分状态变化(如下拉菜单展开),无需智能体重新处理整个页面。通过将观测与决策分解为聚焦的子提示,我们的框架使得小规模、本地运行的模型也能提取出强性能,而这些模型在面对大多数现有智能体框架使用的庞大整体提示时往往力不从心。使用未经任何微调的现成32B LLM和7B VLM,我们的系统在WebArena(Zhou et al., 2024)上达到56.3%,在VisualWebArena(Koh et al., 2024)上达到48.7%,在Online‑Mind2Web(Xue et al., 2025)上达到51.0%,在WorkArena(Drouin et al., 2024)上达到70.9% —— 在同等规模的开放权重模型中取得最佳结果,并以极低的推理成本逼近前沿专有系统。这些结果表明,当前LLM已经具备足够的多步推理能力来应对许多网页任务;它们所缺乏的是围绕观测、记忆和动作的正确架构设计,以便有效利用这些能力。
## 2 方法
### 2.1 问题形式化
我们将网页导航形式化为一个顺序决策过程,智能体通过交互网页浏览器来完成自然语言任务。一个任务是一个元组 \\(\tau=(I,u_0)\\),包含指令 \\(I\\) 和起始URL \\(u_0\\),后者确定初始网站 \\(w_0\\)(来自目标网站集合 \\(\mathcal{W}\\))。在每个时间步 \\(t\\),智能体接收观测 \\(o_t\\),维护一个简洁的历史 \\(h_t\\)(记录先前的交互),并从候选动作集 \\(\mathcal{A}_t\\) 中选择一个动作 \\(a_t\\)。标准的LLM网页智能体将此循环实现为 \\(a_t=\pi(o_t,h_t)\\):一次模型调用将原始观测(通常是完整的可访问性树或截图)和交互历史映射到下一个原子浏览器动作。我们的系统在此模板基础上做了四项新设计。
##### 结构化页面表示。
我们不直接暴露原始DOM或可访问性树,而是引入**PageMem**,一种从DOM确定性构建的结构化表示 \\(p\\)。每个PageMem包含一个有序列表 \\(\\{s_1,\\ldots,s_n\\}\\) 的**页面区域(PageSection)**,对应页面的语义区域;每个页面区域包含一组可交互的**元素**。页面区域携带模型生成的摘要以及与DOM派生的属性,成为观测流水线、记忆和动作工作流共同运作的共享基座。这一抽象基座使得系统的其余部分可以保持站点无关。PageMem的详细定义见第2.2节。
##### 来自离线探索的持久记忆。
在尝试任何任务之前,一个离线探索阶段会遍历每个目标网站 \\(w\\in\mathcal{W}\\),并构建一个**网站记忆(WebsiteMem)** \\(\mathcal{M}_w\\):一个持久的PageMem集合,按URL索引,同时包含探索过程中发现的页面模板和元素行为信息。任务开始时,智能体可以选择一组书签 \\(B_\tau\subseteq\mathcal{M}_{w_0}\\),这些书签在整个任务过程中保持可用。每个站点的WebsiteMem只构建一次,并复用于所有后续任务。探索与记忆的详细内容见第2.3节。
##### 多阶段观测流水线。
我们不通过序列化整个页面来生成 \\(o_t\\),而是将观测分解为三个阶段,基于当前PageMem \\(p_t\\):智能体首先选择一组摘要看起来与任务相关的区域,然后从每个选定区域的完整内容中提取任务相关的细节,最后将提取结果综合成一份任务聚焦的页面摘要 \\(\hat{o}_t\\)。该流水线的定义见第2.4节。
##### 带工作流的复合动作。
我们系统中的每个时间步对应一个**高层智能体动作**,该动作可能执行多次浏览器操作。单步动作(点击链接、导航到URL)会导致页面转换并直接推进循环。复合动作(下拉选择、表单提交、搜索)会调用一个**工作流** \\(\omega(a_t)\\)——一个由额外的LLM子调用和浏览器操作组成的固定序列,负责处理中间的部分状态变化(如下拉菜单展开或表单字段逐一填充),然后将控制权交还给顶层循环。动作系统的详细内容见第2.5节。
#### 2.1.1 系统概览
给定任务 \\(\tau=(I,u_0)\\),智能体检索离线探索期间构建的网站记忆 \\(\mathcal{M}_{w_0}\\),并可选地选择书签 \\(B_\tau\\)。在每个时间步 \\(t\\),它(i)检索或构建当前页面的PageMem \\(p_t\\);(ii)应用观测流水线生成 \\(\hat{o}_t\\);以及(iii)从 \\(\mathcal{A}_t\\) 中选择一个动作 \\(a_t\\),该动作要么作为直接浏览器操作执行,要么通过工作流 \\(\omega(a_t)\\) 执行。循环在智能体选择结束任务动作并验证完成,或步骤预算耗尽时终止。智能体推理算法见附录A.4。

图2:WebChallenger概览。(左)每个网页沿DOM分解为对应页面语义区域的区域。(中)这些区域通过简短摘要索引,形成PageMem,一种缓存在每个站点记忆中的结构化页面表示。智能体浏览这些摘要,仅展开任务相关区域进行详细处理。(右)根据区域类型执行专门的多步工作流。
### 2.2 PageMem
PageMem是一种从DOM确定性构建的抽象页面表示,作为探索(第2.3节)、观测(第2.4节)和动作(第2.5节)组件共用的接口。它展示了页面的语义分块视图,同时保留了直接控制浏览器所需的元素选择器,使高层组件能够操作抽象对象而无需站点特定适配器。
##### 层级结构。
PageMem分为四个层级。一个**网站记忆** \\(\mathcal{M}_w\\) 包含在网站 \\(w\\) 上遇到的所有PageMem和元素。一个**PageMem** \\(p\\) 对应单个页面,包含标题、URL、有序区域列表 \\((s_1,\\ldots,s_n)\\) 以及页面级摘要。一个**页面区域** \\(s_i\\) 表示页面的一个子区域(例如导航栏、产品列表、评论表单),映射到DOM的一个子树。每个区域携带DOM派生的状态属性(如标签、类、边界框、包含的元素)和可变元数据(如摘要、提取的细节)。一个**元素** \\(e\\) 表示单个可交互部件,携带DOM属性以便构建选择器,以及当前值、点击状态、下拉元素等元数据。PageMem数据结构充当页面所有智能体相关信息的中心枢纽,灵活地为网页智能体实现精确的上下文工程。
##### 构建过程。
页面区域通过递归分割DOM树生成,在节点低于大小阈值或匹配分组标签(form、ul、li、table、section等)时终止;标签和类相同的兄弟节点被归并为一个**列表区域**。可点击元素通过从BrowserUse库(Müller and Žunic., 2024)改编的启发式规则识别,并分配给其祖先区域。最后,我们提示LLM或VLM为每个区域和整个页面提供一个通用的一句话摘要。普通区域有大小限制,因此其完整内容可以在一次LLM调用中处理;列表区域无大小限制,以更高层次的抽象表示为一系列统一的子区域,每个子项对应一个。完整细节和构建算法见附录A.1。
### 2.3 探索与记忆
在尝试任何任务之前,一个离线探索阶段会遍历每个目标网站 \\(w\\in\mathcal{W}\\),并生成推理时使用的网站记忆 \\(\mathcal{M}_w\\)。探索是完全确定性的:不需要LLM引导、任务演示或外部资源。与执行期间展开的树搜索方法或只有积累了任务经验才能改进的技能学习方法相比,我们的方法预先摊销了环境知识,从第一个任务开始就以固定的一次性成本使其可用。我们在此描述探索过程,附录A.2提供细节。
##### 遍历过程。
从网站首页开始,我们按顺序探索页面上所有唯一的可点击元素。如果页面包含许多结构相同的重复元素(如结果列表或表格),那么我们只探索列表中某一项/行中包含的元素。相似文章
VisualClaw: 面向物理世界的实时个性化智能体
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
Weblica:用于视觉 Web 智能体的可扩展且可复现的训练环境
Apple Research 推出了 Weblica,这是一个利用 HTTP 缓存和基于大语言模型(LLM)的合成技术,为视觉 Web 智能体创建可扩展且可复现训练环境的框架。
MM-WebAgent: 一种用于网页生成的分层多模态Web智能体
MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
学习适应:基于认知感知探索的自我改进网络智能体
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。