长时域Web代理的信号驱动观测

arXiv cs.CL 2026/06/08 04:00 论文

摘要

论文提出信号驱动观测（SDO）方法，使Web代理避免上下文退化，仅读取DOM中与任务相关的部分，并仅在特定信号触发时重新调用观测，而不是在每个动作步骤读取完整页面状态。

arXiv:2606.06708v1 公告类型：新摘要：在长时域中运行的Web代理在每个动作步骤都会摄入原始的DOM和可访问性树——通常包含数万个token——导致上下文逐渐退化，从而在任务完成之前就侵蚀了推理能力。我们认为，将观测频率与动作频率耦合是一个架构上的错误。受递归语言模型（Recursive Language Models）中查询文档优于整体阅读这一见解的启发，我们提出信号驱动观测（Signal-Driven Observation，简称SDO）：一个专门的子调用读取完整DOM，但只返回与任务相关的元素及其选择器，并且仅在轻量级信号检测器触发时才重新调用——触发条件包括URL变化、新出现的可交互元素、动作失败或外部浏览器事件。我们概述了SDO引入的开放问题，并呼吁社区将观测压缩视为Web代理设计中的核心架构决策。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:20

# 信号驱动观察：面向长周期网页智能体
来源：https://arxiv.org/html/2606.06708

###### 摘要

在长周期任务中，网页智能体在每一步动作时都会摄入原始的 DOM 树和可访问性树——通常高达数万 token——导致上下文逐步退化，早在任务完成之前就严重削弱了推理能力。我们认为，将观察频率与动作频率耦合是架构上的一个错误。受递归语言模型中“查询文档优于整体阅读”这一洞见的启发，我们提出信号驱动观察（Signal-Driven Observation, SDO）：一个专门的子调用读取完整 DOM，但仅返回与任务相关的元素及其选择器；仅当轻量级信号检测器被触发时——由 URL 变更、新出现的可交互元素、动作失败或外部浏览器事件引发——才会重新调用该子调用。在信号间隔期间，根模型继续执行其预定的动作序列，无需额外的 LLM 调用，上下文也不会增长。本文概述了 SDO 引入的开放问题，并呼吁社区将观察压缩作为网页智能体设计中的核心架构决策来对待。

网页智能体, 观察压缩, 失败模式, 长周期任务, 上下文退化, 信号检测, 递归语言模型, DOM 观察, 轨迹诊断, 智能体 AI

## 1 引言

网页智能体越来越多地部署于长周期任务——预订旅行、填写多页表单、导航企业工作流——然而它们的失败率使得自主操作仍不切实际。在 WebArena（Zhou 等，2023 (https://arxiv.org/html/2606.06708#bib.bib1)）中，即使是最前沿的智能体成功率也只有约 50%，而且大多数失败发生在任务中期而非开头（Wang 等，2026a (https://arxiv.org/html/2606.06708#bib.bib2)）。这一模式在多个基准测试中保持一致：智能体陷入动作循环，迷失最初目标，并随着交互历史积累而产生越来越不连贯的行为（Chung 等，2025 (https://arxiv.org/html/2606.06708#bib.bib3)）。

社区普遍将这些失败归因于上下文长度的限制，并采取了更长的窗口、摘要流水线和记忆模块等应对措施。我们认为这一诊断并不完整。问题不在于智能体用尽了上下文，而在于智能体在*架构上* 被迫摄入其观察到的一切内容，无论这些内容是否与决定下一步动作相关。

考虑一个具体例子。在步骤 \(t\)，一个网页智能体接收当前页面的原始可访问性树——通常 20,000 到 80,000 个 token——一张截图以及完整的交互历史。然后它调用一次完整的 LLM 前向传播来决定一个可能简单如 `fill(#email, "[email protected]")` 的动作。做出这一决定所需的信息只有一个事实：邮箱字段获得焦点且为空。其余数万个 token 不仅是浪费——它们还在主动削弱模型对关键信息的推理能力。这不是上下文长度的问题，而是观察方式的问题。

我们将这种失败模式称为*观察过度摄入*：观察频率与动作频率在架构上耦合，迫使智能体在每一步都重新读取完整的页面状态，无论该状态是否发生了有意义的变化。观察过度摄入是三种已被充分记录的下游失败的触发前提。第一，*上下文腐烂*——随着无关观察 token 在上下文窗口中累积，推理质量逐步退化。第二，*循环陷阱*——智能体重复相同的动作序列，因为其臃肿的上下文使其无法识别出它之前已经访问过这个状态。第三，*目标漂移*——智能体最初的目标被层层叠加的 DOM 噪声淹没，它开始追求另一个涌现出来的子目标（Arik 等，2025 (https://arxiv.org/html/2606.06708#bib.bib4)；Menon 等，2026 (https://arxiv.org/html/2606.06708#bib.bib5)）。

这种失败模式是可复现的，并且与模型能力无关。它既发生在拥有 20 万 token 窗口的前沿模型中，也发生在较小的模型中，因为问题不在于容量，而在于架构（Ye 等，2025 (https://arxiv.org/html/2606.06708#bib.bib7)）。它对标准评估也是不可见的：终端成功率指标只记录智能体失败了，但不会记录观察过度摄入是失败机制。当前评估框架中不存在能够揭示这一失败的轨迹级诊断——例如记录观察内容何时发生变化，以及智能体何时在不改变的情况下重新读取了相同的观察内容。

递归语言模型（RLM）（Zhang 等，2025a (https://arxiv.org/html/2606.06708#bib.bib6)）提供了一个尚未被应用于该问题的架构洞见。RLM 证明，对于大型静态文档，模型通过编程方式查询文档而不是整体摄入时，表现会显著提升。模型将文档视为外部变量，调用子进程来精确提取所需信息。网页的实时 DOM 正是最需要这一洞见的环境——却也是最缺乏这一洞见的环境。

我们勾勒这一原则的一个具体实例——*信号驱动观察*（SDO）——不是作为一个完整系统，而是为了证明观察过度摄入在架构上是可避免的，并揭示一个解决方案必须面对的开放设计问题。在 SDO 中，一个专门的子调用读取完整 DOM，但仅返回一个紧凑的、以任务为条件的摘要。该子调用并非在每个动作步骤都被调用。一个轻量级信号检测器监控四种浏览器原生事件——URL 变更、新出现的可交互元素、动作失败以及外部页面事件——并且仅当页面状态发生有意义的变化时才触发重新观察。在信号间隔期间，根模型执行其预定的动作序列，无需额外的 LLM 调用，上下文也不会增长。

本文做出三项贡献。首先，我们将观察过度摄入定义为网页智能体中的一种运行期失败模式——它是上下文腐烂、循环陷阱和目标漂移这一系列可复现失效的触发前提，且不同于上下文长度耗尽。其次，我们勾勒信号驱动观察作为具体示例，证明观察频率可以与动作频率解耦。第三，我们识别出这一框架所暴露的开放问题，并呼吁社区将观察压缩作为智能体系统中失败缓解的一等目标。

## 2 相关工作

### 2.1 网页智能体基准测试与长周期评估

网页智能体的评估格局迅速扩展。WebArena（Zhou 等，2023 (https://arxiv.org/html/2606.06708#bib.bib1)）引入了自托管、可复现的网页环境及程序化评估；WorkArena（Drouin 等，2024 (https://arxiv.org/html/2606.06708#bib.bib8)）和 WorkArena++（Boisvert 等，2024 (https://arxiv.org/html/2606.06708#bib.bib9)）将其扩展到企业 ServiceNow 工作流，其中单个 HTML 页面可达 40K–500K token。BrowserGym（de Chezelles 等，2024 (https://arxiv.org/html/2606.06708#bib.bib10)）提供了支持其中几个基准测试的统一观察框架，在每一步暴露完整的可访问性树、原始 HTML 和视口截图——单次观察通常超过 20,000 个 token。VisualWebArena（Koh 等，2024 (https://arxiv.org/html/2606.06708#bib.bib11)）和 OSWorld（Xie 等，2024 (https://arxiv.org/html/2606.06708#bib.bib12)）将评估分别扩展到多模态和桌面级任务。最近，Online-Mind2Web（Xue 等，2025 (https://arxiv.org/html/2606.06708#bib.bib13)）证明前沿智能体在真实网站上的能力比静态基准测试低达 59%，并将很大一部分差距归因于动态内容和评估伪影。REAL（Garg 等，2025 (https://arxiv.org/html/2606.06708#bib.bib14)）提供确定性网站副本以实现可复现评估，而 Odysseys（Jang 等，2026 (https://arxiv.org/html/2606.06708#bib.bib15)）引入了 200 个源于真实浏览历史的长周期、多站点任务，并明确指出了轨迹级 LLM-as-judge 评估在长任务中的不足。

这些基准测试的模式是一致的：随着任务周期增长，智能体成功率急剧下降。HORIZON（Wang 等，2026b (https://arxiv.org/html/2606.06708#bib.bib16)）通过跨领域诊断基准和基于轨迹的失败归因将其形式化，表明长周期失败被终端指标系统性低估。Chung 等 (2025) (https://arxiv.org/html/2606.06708#bib.bib3) 发现智能体失败的主要原因是陷入循环和丢失目标，而非耗尽上下文 token。一项基于子目标的分析 (Wang 等，2026a (https://arxiv.org/html/2606.06708#bib.bib2)) 报告称，在 WebArena-Lite 轨迹中，Gemini-2.5-Pro 有近 50% 的情况会出现中期卡住行为。这些发现支持我们的主张：失效机制在于智能体*如何* 观察，而非它们能*存储多少*。

### 2.2 上下文与观察管理

越来越多的研究工作直接应对观察负担。AgentFold (Ye 等，2025 (https://arxiv.org/html/2606.06708#bib.bib7)) 报告称，大约 20% 的长周期任务在上下文中仅使用约 7K token 的情况下，仍因达到 100 轮次而被强制终止，这表明失败源于上下文内的混乱而非原始长度。FocusAgent (Kerboua 等，2025a (https://arxiv.org/html/2606.06708#bib.bib17)) 使用轻量级 LLM 检索器从可访问性树观察中提取与任务相关的行，在 WorkArena 和 WebArena 上将观察大小减少超过 50%，同时降低了提示注入成功率。LineRetriever (Kerboua 等，2025b (https://arxiv.org/html/2606.06708#bib.bib18)) 提出基于嵌入的规划感知观察缩减，其明确动机是智能体“需要与未来动作相关的上下文，而不仅仅是语义相似的文本”。ACON (Kang 等，2025 (https://arxiv.org/html/2606.06708#bib.bib19)) 提供了一个统一框架，通过由失败驱动的自然语言指导来压缩观察和交互历史，在 AppWorld (Trivedi 等，2024 (https://arxiv.org/html/2606.06708#bib.bib20)) 和 OfficeBench (Wang 等，2024 (https://arxiv.org/html/2606.06708#bib.bib21)) 上实现了 26–54% 的峰值 token 减少。分层记忆树 (Tan 等，2026 (https://arxiv.org/html/2606.06708#bib.bib22)) 将原始 HTML 轨迹抽象为紧凑的语义描述，在 WebArena 上报告了 72.7% 的上下文长度缩减。SLIM (Yen 等，2025 (https://arxiv.org/html/2606.06708#bib.bib23)) 引入了对累积搜索内容的摘要，像 M2 (Yan 等，2026 (https://arxiv.org/html/2606.06708#bib.bib24)) 这样的双记忆框架将工作记忆与长期记忆分离，ContextBudget (Wu 等，2026 (https://arxiv.org/html/2606.06708#bib.bib25)) 引入了动态预算条件压缩，并明确识别了无预算方法的失败模式。

Enomoto 等 (2026) (https://arxiv.org/html/2606.06708#bib.bib26) 提出了一个反面观点，他们认为最佳的观察表示取决于模型能力——对于较弱的模型使用紧凑的可访问性树，对于较强的模型使用带思考预算的原始 HTML。这突出了一个紧张关系：压缩并非总是有益的，我们的工作承认这一点。

所有这些方法都有一个共同的假设：智能体*应该* 观察完整的页面状态，而工程问题在于之后对其进行压缩。没有一项工作质疑是否每一步都应该进行完整观察。观察过度摄入被视为数据量问题，而非频率问题。

### 2.3 失败诊断、安全性与轨迹级归因

失败诊断文献发展迅速。在鲁棒性方面，WAREX (Kara 等，2025 (https://arxiv.org/html/2606.06708#bib.bib27)) 将网络错误、服务器故障和恶意弹窗注入 WebArena 和 REAL，展示了在真实扰动下任务成功率的显著下降。StressWeb (Bai 等，2026 (https://arxiv.org/html/2606.06708#bib.bib28)) 在交互流水线的感知、语义和执行阶段引入了受控扰动。DoomArena (Boisvert 等，2025 (https://arxiv.org/html/2606.06708#bib.bib29)) 通过隐藏在可访问性属性中的弹窗注入攻击 BrowserGym 智能体，在 OSWorld 上实现了 23–78% 的失败率。Zhang 等 (2024) (https://arxiv.org/html/2606.06708#bib.bib30) 表明，仅凭对抗性弹窗就能达到 86% 的点击率和 47% 的任务成功率下降。

累积上下文的安全隐患也逐渐浮现：MT-AgentRisk (Li 等，2026 (https://arxiv.org/html/2606.06708#bib.bib31)) 表明，多轮观察历史所创造的攻击面超出了我们此处关注的能力失败范畴。

在归因方面，AgentRx (Schmidgall and Moor, 2025 (https://arxiv.org/html/2606.06708#bib.bib32)) 对 115 条经过注释的失败轨迹提供了九类失败分类。AgenTracer (Zhang 等，2025b (https://arxiv.org/html/2606.06708#bib.bib33)) 使用反事实回放和程序化故障注入。ST-WebAgentBench (Levy 等，2024 (https://arxiv.org/html/2606.06708#bib.bib34)) 引入了“策略下完成率”，表明安全调整后的成功率可能不到名义完成率的三分之二。Fang 等 (2025) (https://arxiv.org/html/2606.06708#bib.bib35) 研究了网页购物智能体中错位动作的主动检测与修正——正好是臃肿观察使捕捉变得更困难的那类基础错误。

这些框架在*动作* 层面诊断失败：哪个动作错了，违反了哪条策略，哪一步是根本原因。没有一个框架在*观察* 层面诊断失败——智能体是否重新摄取了未改变的页面，新的观察是否会阻止错误发生，或者观察 token 的数量本身是否是退化的机制。如果观察过度摄入是触发前提，那么动作层面的归因将始终错位原因。

### 2.4 递归与分层智能体架构

递归语言模型 (RLM) (Zhang 等，2025a (https://arxiv.org/html/2606.06708#bib.bib6)) 将输入提示视为 REPL 环境中的外部变量，递归调用子实例以在不膨胀根上下文的情况下窥视相关片段。在长上下文基准测试中，RLM 在输入超过一千万 token 时仍能保持强劲性能，而标准模型则急剧退化。然而，RLM 是为静态文档设计的——代码库、法律语料、长文本。网页的实时 DOM 会随智能体的每次动作而改变，并且可能被独立于智能体行为的外部事件中断。将递归分解应用于动态、有状态的环境，需要解决何时重新观察以及提取什么的问题——这两个问题在静态环境中都不会出现。

先前的网页智能体架构探索了相关的结构性思想，但没有解决观察频率问题。LASER (Ma 等，2023 (https://arxiv.org/html/2606.06708#bib.bib36)) 在电子商务任务中引入了基于 URL 的状态跟踪与回溯。BEAP-Agent (Lu 等，2026 (https://arxiv.org/html/2606.06708#bib.bib37)) 使用深度优先搜索和多级回溯。RCI (Kim 等，2023 (https://arxiv.org/html/2606.06708#bib.bib38)) 添加了评估动作质量的自我批判循环。RAGEN (Wang 等，2025 (https://arxiv.

长时域Web代理的信号驱动观测

相似文章

Region4Web：重新思考网络智能体的观测空间粒度

智能体-计算机观察接口实现动态计算机使用

RODS：面向多轮工具使用智能体的奖励驱动在线数据合成方法

SDOF：以状态约束调度驯服多智能体编排中的对齐代价

电商欺骗性界面下的Web Agent安全性基准测试

提交意见反馈