Region4Web：重新思考网络智能体的观测空间粒度

arXiv cs.CL 2026/05/11 04:00 论文

web-agents llm-agents observation-space arxiv autonomous-agents research

摘要

本文介绍了 Region4Web 框架，该框架通过将观测空间组织成功能区域而非单个元素，从而提升了网络智能体的性能。研究表明，这种方法在 WebArena 基准测试上缩短了观测长度并提高了任务成功率。

arXiv:2605.07134v1 公告类型：新论文摘要：网络智能体通过观测空间来感知网页，然而其粒度一直是一个鲜被审视的设计选择。现有工作将观测空间的粒度与动作空间保持在相同的元素级别，导致页面的功能组织隐含不清，迫使智能体在每一步都从元素级信号中推断出这些组织。我们认为，观测空间应当以功能区域的粒度进行操作，即页面中各自承担不同功能的各个部分。我们提出了 Region4Web，这是一个通过层次分解和语义抽象将 AXTree 重组成功能区域的框架，以此揭示页面的功能组织作为页面状态理解的基础。此外，我们还提出了 PageDigest，这是一种特定于网络的推理流水线，将该区域级观测作为紧凑的每页摘要传递给执行智能体，并在多步操作中保持不变。在 WebArena 基准测试中，PageDigest 在多种骨干大语言模型（LLMs）和成熟的智能体方法上均显著缩短了观测长度，并提高了整体任务成功率，无论骨干模型的容量如何。这些结果表明，与仅进行元素级处理相比，以功能区域的粒度进行操作能为执行智能体提供更紧凑且信息量更丰富的基础。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:49

# Region4Web：重新思考网络代理的观测空间粒度

来源：https://arxiv.org/html/2605.07134

**Donguk Kwon**
延世大学 (Yonsei University)
[email protected]

&

**Dongha Lee**
延世大学 (Yonsei University)
[email protected]

###### 摘要

网络代理通过观测空间感知网页，但其粒度一直是一个未被充分考察的设计选择。现有工作将观测视为与动作空间相同元素级粒度，使得页面的功能组织隐含其中，迫使代理在每一步都从元素级信号中推断出这种组织。我们认为，观测反而应该在**功能区域**的粒度上运作，即页面中各自服务于不同目的的部分。我们提出了 **Region4Web**，一个通过层次分解和语义抽象将 AXTree 重组为功能区域的框架，从而将页面的功能组织显式化，作为页面状态理解的基础。此外，我们提出了 **PageDigest**，一个针对网络环境定制的推理管道，它将这种区域级观测作为紧凑的每页摘要提供给执行代理（actor agent），该摘要在步骤间保持持久。在 WebArena 基准测试中，PageDigest 在减少观测长度的同时，提高了各种骨干大语言模型（LLMs）和成熟代理方法的整体任务成功率，且不受骨干模型容量的影响。这些结果表明，在功能区域粒度上运作比单纯进行元素级处理能为执行代理提供更紧凑、信息更丰富的基础。代码可用地址：https://github.com/kwondu/region4web。

## 1 引言

大语言模型（LLMs）使得能够处理网络环境中各种现实任务的自主代理成为可能（He et al., 2024; Logeswaran et al., 2025; Wu et al., 2025）。在每一步中，网络代理通过观测空间感知当前页面状态，并从动作空间中选择一个动作。先前的工作集中在改进动作选择上，包括任务规划（Guo et al., 2026; Huang et al., 2025; Shin et al., 2023）、元素定位（Zheng et al., 2024）和模型能力（Qi et al., 2025; Wei et al., 2025），所有这些都旨在实现这一目标。相比之下，页面状态理解是通过过滤或截断观测中的元素来处理的（Kang et al., 2025; Lee et al., 2025; Zhang et al., 2026a），这些方法都在元素级粒度上操作，使得这一设计选择本身未得到充分考察。

现有工作通常以与动作空间相同的元素级粒度表示观测空间（Schiepanski and Piël, 2025; Yang et al., 2025），然而这种粒度并不同样适合两者。对于动作空间来说，元素级粒度是自然的，因为每个动作都针对具有指定操作的特定元素。然而，观测空间服务于根本不同的角色，即为理解当前页面状态提供上下文，这里的上下文从单个元素扩展到它们之间的关系。我们通过**功能区域**来捕捉这些关系，功能区域定义为一组元素，其关系支持共同的目的，例如站点导航或结果筛选。

将页面分解为区域的研究已在人类对空间连贯区域的注意力（Buscher et al., 2009）以及最近将屏幕截图分割为区域分区的 GUI 网络代理（Fan et al., 2024; Singh et al., 2025）中得到探讨。这些方法表明，视觉布局提供了对元素分组有用的线索，通常是通过空间邻近性（如边界框重叠或布局相邻性）。然而，空间邻近性并不意味着共享的功能目的。此类邻近性线索可能会诱导视觉分组，但并未说明它们是否构成功能观测单元，或者它们在页面状态中服务于什么目的。

类似的隐含性也出现在元素级观测中（Schiepanski and Piël, 2025; Yang et al., 2025; Zhang et al., 2026a），其中区域及其目的仅通过单个元素隐含存在，必须由代理推断。基于屏幕截图的代理（He et al., 2024; Zheng et al., 2024）提供了可能使功能组织在视觉上可推断的布局线索，但它们仍然要求代理推断视觉上建议的分组是否对应于功能区域，以及它们服务于什么目的。

这些局限性促使我们定义由共享功能目的决定的区域级观测。通过识别功能区域并按其目的对每个区域进行抽象，Region4Web 在动作选择之前使页面组织显式化，如图 1 所示。

**图 1：结构相似的卡片网格的元素级和区域级观测。区域级观测区分了产品预览卡片的网格和单个目的地展示。**

构建区域级观测并非易事。在诸如 AXTree 这样的树状表示中，功能区域的边界和目的是隐含的，因为层次结构反映的是标记嵌套，而不是元素是如何组织的。通过基于规则的分解推导它们是不够的，因为即使对于结构重复的模式，每个区域的用途也因页面而异。例如，如图 1 所示，当卡片是独立的产品预览时，结构重复的卡片网格形成独立的区域；而当它们共同构成一个评论展示时，则形成一个单一区域。现有的网页结构研究也无法解决这一问题，因为网页分割（Cai et al., 2003; Gerber et al., 2025; Kiesel et al., 2020）和内容提取（Barbaresi, 2021; Liu et al., 2025a）方法针对的是信息检索或内容分析，而非代理观测所需的功能组织。因此，其构建需要学习跨不同页面布局的网页功能组织方式。

我们通过 **Region4Web** 来解决这一挑战，这是一个通过两个阶段从 AXTree 构建区域级观测的框架。层次分解在自底向上的单次遍历中将每个父子边分类为“合并”或“切断”，由合并边形成的子树构成了页面的功能区域。语义抽象随后沿两个正交维度解释每个区域：一个是识别区域用途的**目的**，另一个是捕捉其当前可操作上下文的**状态摘要**。由于这两个阶段在代理执行期间都在每页运行，它们被实现为小型专用模型。关于页面如何功能组织的知识隐含在 AXTree 中，无法通过规则推导，因此这些模型是在覆盖多样化真实世界网站的专有 LLM 标注数据上进行训练的。

此外，在网络环境中部署 Region4Web 需要保持其区域级观测的紧凑性，同时保留其支持的页面状态理解，这催生了 **PageDigest**，一个针对网络环境定制的推理管道，它在每页内的步骤间维持代理观测的紧凑摘要。进入新页面时，PageDigest 选择与任务相关的区域，并将它们作为 AXTree 子树与非选中区域的抽象一起暴露出来，在页面的结构信息内为动作空间保留元素级粒度。在同一页面内，PageDigest 跟踪步骤间的观测转换，而不是在每一步重建完整观测。PageDigest 共享执行代理的骨干 LLM，并且仅作用于观测空间，使其可直接应用于各种网络代理。

在 WebArena（Zhou et al., 2024）基准测试中，PageDigest 在四种骨干 LLM 和两种成熟的代理方法中大幅减少了观测长度，且减少幅度在不同骨干容量下保持一致。PageDigest 提高了各种骨干模型的整体任务成功率，证明了无论骨干容量如何，区域级观测都能增强页面状态理解。消融实验证实了 Region4Web 和 PageDigest 做出了不同的贡献，其中 Region4Web 单独支持页面状态理解，而 PageDigest 则在步骤间紧凑地传递这种理解。

我们的贡献总结如下：

- 我们提出了 Region4Web，一个通过层次分解和语义抽象将 AXTree 重组为功能区域的框架，将页面的功能组织显式化，作为网络代理页面状态理解的基础。
- 我们提出了 PageDigest，一个针对网络环境定制的推理管道，它将每页的区域级观测作为跨步骤持久的紧凑摘要传递给执行代理，在减少观测长度的同时保持任务成功率。
- 我们在 WebArena 基准测试上评估了 Region4Web 和 PageDigest，其中 PageDigest 在减少观测长度的同时提高了整体任务成功率，且不受骨干容量的影响。

## 2 初步分析

**(a) 连续动作对的 LCA 深度比率分布与随机基线的对比。**
**(b) 页面内步骤间的 DOM 变化比率分布，其中 52.9% 表现出零变化。**

我们分析动作轨迹和观测转换，以回答关于网络环境中观测的两个设计问题。第 2.1 节考察代理的动作在任务期间是否局限于页面结构内，从而激励确定单步内观测构建的单元。第 2.2 节考察代理在页面内操作时观测的变化程度，从而激励是否应在每一步重建观测的问题。

为了回答这些问题，我们使用了 Mind2Web 数据集（Deng et al., 2023），该数据集提供了涵盖 137 个真实世界网站的 2,350 个任务，并包含每个动作的真实标注，数据集选择标准详见附录 C。每个页面表示为平均包含 2,473 个节点的 DOM 树。数据集包含 15,394 个连续动作对，其中 12,009 个（78.0%）发生在同一页面内，其余 22.0% 涉及完全替换观测的页面导航。我们的分析侧重于同页面对，其中观测的构建和更新是关键问题。

### 2.1 连续动作局限于页面结构内

**页面上只有极少部分元素在任务期间被针对。** 虽然每个页面包含数千个 DOM 节点，但在任务期间对其执行的动作中位数为 6，第 90 百分位数为 13。由于每个动作仅针对一个元素，因此曾经被操作过的元素占页面的比例微乎其微。因此，整个页面主要由与任务无关的元素主导，这激励了对任务相关内容进行选择。

**连续动作在页面结构上是共位置的。** 我们测量连续动作对的最低公共祖先（LCA）深度比率，计算为两个目标元素的 LCA 深度除以 DOM 树的最大深度。较高的值表明这两个元素位于更紧密的子树中。如图 2(a) 所示，连续动作对产生的中位 LCA 深度比率为 0.48，其中 81.7% 超过了随机基线的中位数 0.22。因此，连续动作集中在局部子树中，而不是跨越整个页面，这表明区域是观测构建的自然单元。

### 2.2 页面内观测在连续步骤间变化微乎其微

对于页面内的每一步，我们测量变化比率，即由动作添加或移除的 DOM 元素的比例。如图 2(b) 所示，52.9% 的步骤表现出零变化，74.4% 的步骤保持在 5% 以下。发生变化的地方，它们反映了轻微的 DOM 修改，如下拉菜单展开或工具提示出现。超过 90% 变化的步骤仅占 2.5%，归因于单页应用内的客户端路由。因此，在每一步重建完整观测是不必要的，仅在每页内跟踪增量变化可以避免这种冗余。

## 3 Region4Web

**图 3：Region4Web 推理过程概览。**

第 2.1 节表明区域是观测的自然单元。我们提出了 Region4Web，这是一个从网页 AXTree 构建区域级观测的两阶段框架。

### 3.1 问题定义

在每一步中，网络代理通过观测空间感知当前页面状态，并从动作空间中选择动作。观测可以表示为树 $T=(V,E)$，其中每个节点 $v \in V$ 对应于页面上的一个元素，具有角色、名称和值等属性。在流行的元素级方法中，代理直接在 $V$ 上操作，使得页面的功能组织在 $T$ 中保持隐含。区域级观测通过将 $V$ 划分为功能区域 $R=\{R_1,...,R_m\}$ 使这种组织显式化，其中每个 $R_i$ 形成 $T$ 的子树。每个区域关联有一个**目的** $p_i$，用于识别区域的用途，以及一个**状态摘要** $s_i$，用于捕捉其当前的可操作上下文。Region4Web 学习从 $T$ 生成 $R$ 及其关联的 $\{(p_i, s_i)\}$。

### 3.2 层次分解

为了构建区域级观测，$T$ 必须分解为区域划分 $R$。我们将 $T$ 实例化为页面的 AXTree，这是一种由浏览器生成的表示，以层次结构编码每个元素的可访问性语义。由于每个 $R_i \in R$ 形成 $T$ 的子树，该划分完全由将 $E$ 中的每条边分类为“合并”或“切断”来决定。从 $T$ 中移除切断边会将树分割为子树，每个子树构成 $R$ 中的一个区域。由于根节点没有父边需要分类，在自底向上遍历完成后，其子树构成了 $R$ 中的最终区域。分解确定了区域边界...

相似文章

Weblica：用于视觉 Web 智能体的可扩展且可复现的训练环境

arXiv cs.AI

Apple Research 推出了 Weblica，这是一个利用 HTTP 缓存和基于大语言模型（LLM）的合成技术，为视觉 Web 智能体创建可扩展且可复现训练环境的框架。

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers

MM-WebAgent是一种分层智能体框架，通过联合优化布局和多模态内容来协调基于AIGC的元素生成，从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议，展示了该框架相比代码生成和基于智能体的基线方法的改进。

我为代码智能体构建了一个上下文窗口优化框架——开源 + 论文

Reddit r/AI_Agents

作者介绍了“Apohara Context Forge”，这是一个开源框架及方法论，旨在通过角色感知分割和分层相关性评分来优化代码智能体的上下文窗口。

ReVision：通过时间视觉冗余缩减扩展计算机使用智能体

arXiv cs.CL

本文介绍了 ReVision，一种通过从连续屏幕截图中移除冗余视觉块来减少计算机使用智能体 token 使用量的方法。研究表明，这种效率提升使得智能体能够处理更长的轨迹，并在 OSWorld 等基准测试中提高性能。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展