基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI 2026/06/04 04:00 论文

web-agents skill-learning retrieval-augmented llm-agents web-automation online-learning multi-step-reasoning

摘要

本文提出了SGDR（State-Grounded Dynamic Retrieval，状态感知动态检索），一种面向Web智能体的在线技能学习方法，支持逐步、感知当前状态的技能复用，而非静态的任务级检索。在WebArena上的实验表明，SGDR结合GPT-4.1可达到37.5%的成功率，相较于强基线取得了约10.6%的相对提升。

arXiv:2606.04391v1 Announce Type: new Abstract: 语言智能体越来越多地依赖可复用技能来提升跨相关任务的多步Web自动化能力。一个不断发展的研究方向聚焦于在线技能学习——智能体持续从历史任务轨迹中归纳技能，并在执行未来任务时即时复用。然而，现有方法主要在任务级别进行技能复用：根据初始任务指令检索出一组固定技能，并在整个执行过程中保持不变。这种静态策略与Web执行的实际需求不符——合适的下一步动作不仅取决于任务目标，还取决于当前网页状态，而网页状态往往会演变为初始技能无法覆盖的情形。为弥补这一不足，我们提出了状态感知动态检索（SGDR），一种支持Web智能体逐步复用技能的在线技能学习方法。SGDR由三个核心组件构成：一个滑动窗口提取流程，将已完成的轨迹转化为可在中间执行状态下调用的可复用子过程；一种文本-代码双重表示，将技能检索与可执行动作相连接；以及一个状态感知动态检索机制，能够同时匹配任务目标与当前网页状态。在WebArena五个领域上的实验表明，SGDR持续优于强基线，结合GPT-4.1平均成功率达37.5%，结合Qwen3-4B达24.3%，分别较最强基线取得10.6%和10.0%的相对提升。代码已开源：https://github.com/plusnli/skill-dynamic-retrieval。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:07

# 基于状态感知动态检索的 Web 智能体在线技能学习

来源：https://arxiv.org/html/2606.04391

Jiaxi Li¹、Ke Deng¹、Yun Wang¹、Jingyuan Huang¹、Yucheng Shi²、Qiaoyu Tan³、Jin Lu¹†、Ninghao Liu⁴†

¹University of Georgia　²Tencent America　³New York University　⁴The Hong Kong Polytechnic University

###### 摘要

语言智能体越来越多地依赖可复用技能来提升跨相关任务的多步骤 Web 自动化能力。一个日益活跃的研究方向聚焦于**在线技能学习**——智能体持续从历史任务轨迹中归纳技能，并在后续任务中即时复用。然而，现有方法主要在任务级别复用技能：根据初始任务指令检索一组固定的技能，并在整个执行过程中保持不变。这种静态策略与 Web 执行的实际需求不符——下一步的最优动作不仅取决于任务目标，还取决于当前网页状态，而网页状态往往会演变为初始技能无法覆盖的情况。

为解决这一问题，我们提出**状态感知动态检索**（**S**tate-**G**rounded **D**ynamic **R**etrieval，**SGDR**）——一种支持 Web 智能体逐步复用技能的在线技能学习方法。SGDR 包含三个组件：将已完成轨迹转化为可在中间执行状态调用的可复用子过程的滑动窗口提取机制、将技能检索与可执行动作相连接的文本–代码双重表示，以及同时匹配任务目标与当前网页状态的状态感知动态检索机制。

在 WebArena 五个领域上的实验表明，SGDR 始终优于强基线方法：使用 GPT-4.1 时平均成功率达 37.5%，使用 Qwen3-4B 时达 24.3%，分别比最强基线获得 10.6% 和 10.0% 的相对提升。代码已开源：https://github.com/plusnli/skill-dynamic-retrieval。

基于状态感知动态检索的 Web 智能体在线技能学习

†共同通讯作者。

## 1 引言

参见图注图 1：传统技能方法与我们的方法（SGDR）在在线技能学习设置下的对比。

语言智能体 Yao et al.（[2023](https://arxiv.org/html/2606.04391#bib.bib6)）；Sumers et al.（[2024](https://arxiv.org/html/2606.04391#bib.bib2)）；Zhou et al.（[2025b](https://arxiv.org/html/2606.04391#bib.bib31)）被越来越广泛地用于解决多步骤 Web 任务，包括在真实网站上进行信息检索、表单填写和论坛交互（Chae et al., [2025](https://arxiv.org/html/2606.04391#bib.bib9)；Gu et al., [2025](https://arxiv.org/html/2606.04391#bib.bib11)；Ning et al., [2025](https://arxiv.org/html/2606.04391#bib.bib7)）。尽管这些任务目标各异，但往往共享一些反复出现的操作模式，如菜单导航、表单填写、筛选过滤和提交更改。这一观察催生了语言智能体**技能学习**的研究方向——可复用的过程性知识被归纳并在相关任务中复用（Liu et al., [2025](https://arxiv.org/html/2606.04391#bib.bib25)；Zheng et al., [2025](https://arxiv.org/html/2606.04391#bib.bib18)）。通过积累此类技能，智能体可以分摊重复的过程性探索成本，在不依赖纯零样本规划的情况下在相关任务上持续提升 Tack et al.（[2024](https://arxiv.org/html/2606.04391#bib.bib56)）。

在此方向中，**在线技能学习**为 Web 智能体提供了一个尤为贴近实际的设置。与预先假设一个离线构建的固定技能库不同，在线方法允许智能体从已完成的执行中持续归纳技能，并随着任务顺序到来而动态更新技能库（Wang et al., [2025b](https://arxiv.org/html/2606.04391#bib.bib16), [a](https://arxiv.org/html/2606.04391#bib.bib17)；Liu et al., [2025](https://arxiv.org/html/2606.04391#bib.bib25)）。与依赖离线预构建库相比，这种在线范式更贴近真实部署场景——任务依次到来，智能体必须边执行边提升。

尽管取得了上述进展，现有的在线技能学习方法大多将技能复用视为任务级的一次性操作（Wang et al., [2025b](https://arxiv.org/html/2606.04391#bib.bib16), [a](https://arxiv.org/html/2606.04391#bib.bib17)；Liu et al., [2025](https://arxiv.org/html/2606.04391#bib.bib25)）。技能基于初始任务指令检索或注入一次，此后在整个执行过程中保持固定。若将 Web 任务视为静态指令，这种设计自然合理，但对于交互式 Web 自动化而言远远不够。在 Web 执行中，技能的适用性不仅取决于任务目标，还取决于当前网页状态。因此，在任务初期有用的技能到后期可能变得无关，而最初未被选中的技能在智能体到达新页面、表单或交互场景后可能变得至关重要。这一核心局限在于：技能检索在任务层面而非中间执行状态层面运作，而技能恰恰需要在中间状态被调用。

这引出了一个核心问题：**在线智能体如何根据任务目标与当前执行状态，动态检索到恰当的可复用技能？**

然而，在中间状态动态检索技能并非易事，因为检索质量不仅取决于匹配机制，还取决于技能库的粒度。若库中仅包含完整轨迹技能，检索到的过程可能保留了原始任务的完整上下文，却无法适配任意中间网页状态。若库中仅包含单步动作技能，检索到的过程可能适用范围广，但过于原子化，难以提供有意义的过程抽象。这造成了**粒度挑战**：基于状态的复用要求技能足够紧凑以匹配多样的网页状态，同时又足够结构化以执行有效的浏览器操作。若缺乏此粒度的技能，动态检索要么返回与当前状态不匹配的宽泛工作流，要么返回与原始浏览器动作相差无几的低层次操作。

为解决上述局限，我们提出**状态感知动态检索**（**SGDR**）——一种面向 Web 智能体的在线技能学习方法，如图 1 所示。SGDR 将任务级一次性技能复用替换为步骤级、状态条件下的技能检索。完成任务后，SGDR 通过滑动窗口提取从轨迹中抽取可复用子过程，生成中间粒度的技能。每个技能以文本–代码对的形式表示：自然语言描述支持检索，可执行代码支持动作执行。在解决新任务时，SGDR 同时基于任务指令和当前网页状态检索步骤专属技能，使技能支持随执行过程动态调整。这些设计共同将在线技能学习从静态的任务级复用转变为自适应的状态感知复用。

**主要贡献**总结如下：

- 我们在顺序任务流设置下研究语言智能体的在线技能学习，智能体仅能复用从历史任务轨迹中归纳的技能，并动态更新技能库。
- 我们指出任务级一次性技能复用的局限，并提出状态感知动态检索——在每个决策步骤根据任务指令和动态变化的网页状态检索技能。
- 我们通过滑动窗口提取和文本–代码双重表示实现中间状态技能，生成既可用自然语言检索、又可作为浏览器动作执行的可复用子过程。
- 我们在 WebArena 的五个网站领域上使用两种骨干模型评估 SGDR，在成功率和步骤效率上均一致优于强在线技能学习基线。

## 2 相关工作

### 2.1 Web 智能体与基准测试

早期 Web 智能体研究（Liu et al., [2018](https://arxiv.org/html/2606.04391#bib.bib36)；Nakano et al., [2021](https://arxiv.org/html/2606.04391#bib.bib34)；Yao et al., [2022](https://arxiv.org/html/2606.04391#bib.bib35)）探讨了语言模型如何与浏览器交互，以在模拟环境中检索信息并完成任务。近期工作沿多个维度将 Web 智能体推向更真实的场景：面向真实网站的通用导航 Deng et al.（[2023](https://arxiv.org/html/2606.04391#bib.bib37)）；He et al.（[2024](https://arxiv.org/html/2606.04391#bib.bib38)）；Zheng et al.（[2024a](https://arxiv.org/html/2606.04391#bib.bib39)）；Lai et al.（[2024](https://arxiv.org/html/2606.04391#bib.bib41)）；Hu et al.（[2025](https://arxiv.org/html/2606.04391#bib.bib40)）；Yu et al.（[2026](https://arxiv.org/html/2606.04391#bib.bib5)），通过记忆、工作流归纳和可复用技能提升鲁棒性（Zheng et al., [2024b](https://arxiv.org/html/2606.04391#bib.bib42)；Wang et al., [2024](https://arxiv.org/html/2606.04391#bib.bib59), [2025b](https://arxiv.org/html/2606.04391#bib.bib16), [2025a](https://arxiv.org/html/2606.04391#bib.bib17)；Zheng et al., [2025](https://arxiv.org/html/2606.04391#bib.bib18)；Zhu et al., [2026](https://arxiv.org/html/2606.04391#bib.bib30)；Sun et al., [2026](https://arxiv.org/html/2606.04391#bib.bib33)），以及在包括视觉感知导航和对话式导航等日益真实条件下评估智能体的基准测试（Zhou et al., [2024](https://arxiv.org/html/2606.04391#bib.bib13)；Koh et al., [2024](https://arxiv.org/html/2606.04391#bib.bib43)；Lu et al., [2024](https://arxiv.org/html/2606.04391#bib.bib44)；Drouin et al., [2024](https://arxiv.org/html/2606.04391#bib.bib45)；Yang et al., [2025b](https://arxiv.org/html/2606.04391#bib.bib8)；Xue et al., [2025](https://arxiv.org/html/2606.04391#bib.bib46)；Liu et al., [2026](https://arxiv.org/html/2606.04391#bib.bib29)；Tian et al., [2025](https://arxiv.org/html/2606.04391#bib.bib47)；Yang et al., [2026](https://arxiv.org/html/2606.04391#bib.bib53)；Sun et al., [2025](https://arxiv.org/html/2606.04391#bib.bib12)；Gou et al., [2026](https://arxiv.org/html/2606.04391#bib.bib48)）。这些工作共同推动 Web 智能体研究从受控浏览器交互走向动态、长时域的 Web 自动化。

### 2.2 技能发现与学习

近期研究探索语言智能体如何通过从历史执行中发现和积累可复用技能来实现自我提升（Qian et al., [2024](https://arxiv.org/html/2606.04391#bib.bib55)；Yu et al., [2025](https://arxiv.org/html/2606.04391#bib.bib26)；Ouyang et al., [2026a](https://arxiv.org/html/2606.04391#bib.bib4), [b](https://arxiv.org/html/2606.04391#bib.bib3)；Wang et al., [2026b](https://arxiv.org/html/2606.04391#bib.bib54)；Tan et al., [2026b](https://arxiv.org/html/2606.04391#bib.bib50)；Yang et al., [2025c](https://arxiv.org/html/2606.04391#bib.bib20)；Lu et al., [2026](https://arxiv.org/html/2606.04391#bib.bib23)；Fang et al., [2025](https://arxiv.org/html/2606.04391#bib.bib49)）。早期方法以自然语言存储过程性知识并进行非参数化适配，如语言反思（Shinn et al., [2023](https://arxiv.org/html/2606.04391#bib.bib14)）或提炼的经验洞见（Zhao et al., [2024](https://arxiv.org/html/2606.04391#bib.bib15)）。更近期的工作将可复用技能表示为工作流（Wang et al., [2025b](https://arxiv.org/html/2606.04391#bib.bib16)）、可执行程序（Wang et al., [2025a](https://arxiv.org/html/2606.04391#bib.bib17)）或可检索的历史经验（Liu et al., [2025](https://arxiv.org/html/2606.04391#bib.bib25)），并进一步探索了多样化的技能组织形式（Zhou et al., [2025a](https://arxiv.org/html/2606.04391#bib.bib24)；Zheng et al., [2025](https://arxiv.org/html/2606.04391#bib.bib18)；Li et al., [2025](https://arxiv.org/html/2606.04391#bib.bib28)；Tan et al., [2026a](https://arxiv.org/html/2606.04391#bib.bib60)）和复用方式（Wang et al., [2026c](https://arxiv.org/html/2606.04391#bib.bib19)；Jiang et al., [2026](https://arxiv.org/html/2606.04391#bib.bib21)；Wang et al., [2026a](https://arxiv.org/html/2606.04391#bib.bib22)）。我们的工作与上述研究互补：我们不将已学技能视为预固定的记忆或工具，而是聚焦于**何时**以及**如何**检索和调用积累的技能，使智能体能在恰当的中间状态更好地加以利用。

## 3 预备知识

### 3.1 任务与技能形式化

我们考虑一系列 Web 智能体任务 $\mathcal{G}=\{g_i\}_{i=1}^{N}$，其中每个 $g_i$ 表示指定任务目标的自然语言指令，共 $N$ 个任务。在解决第 $i$ 个任务 $g_i$ 时，智能体在 Web 环境中进行多步交互，接收当前网页观测并执行动作，生成长度为 $H_i$ 的轨迹 $\mathcal{T}_i$（即观测与动作交替的序列）。智能体在整个任务序列中维护一个技能库。我们用 $\mathcal{S}_i$ 表示处理完前 $i$ 个任务后的技能库，$\mathcal{S}_0$ 为初始的空库。每个技能 $s \in \mathcal{S}_i$ 表示从历史任务执行中归纳的可复用过程性记忆。执行任务 $g_i$ 后，智能体可从其轨迹中归纳一组新技能 $\Delta\mathcal{S}_i$，并更新技能库：

$$\mathcal{S}_i = \mathcal{S}_{i-1} \cup \Delta\mathcal{S}_i.$$

在评估中，我们用 $y_i \in \{0, 1\}$ 表示用于外部基准测试的真实任务成功信号，其中 $y_i = 1$ 表示任务被正确解决，$y_i = 0$ 表示任务未被正确解决。

参见图注图 2：在线技能学习设置。智能体顺序地解决任务，从评估器评估的轨迹中更新技能库，并将积累的技能复用于后续任务。

### 3.2 在线技能学习

在线学习是一种顺序学习范式，学习者在一组样本流上依次做出决策，并利用前几轮所获信息提升后续决策质量（Cesa-Bianchi and Lugosi, [2006](https://arxiv.org/html/2606.04391#bib.bib52)；Shalev-Shwartz, [2025](https://arxiv.org/html/2606.04391#bib.bib51)）。在本工作中，我们将语言智能体的**在线技能学习**表述为任务流设置：智能体顺序解决任务，从已完成的轨迹中更新技能库，并在解决后续任务时仅复用从历史任务中归纳的技能。这与离线技能学习形成对比——离线方法在用于辅助智能体完成保留评估任务之前，先从一组独立任务中预先构建固定的技能库。

参见图注图 3：SGDR 方法概览。已完成的轨迹通过滑动窗口分割以归纳可复用的文本–代码技能。在后续任务执行中，SGDR 检索状态感知技能，使用最大边际相关性（MMR）重排序，并将选定技能注入下一步动作。

图 2 展示了整体设置。与先前工作 Wang et al.（[2025a](https://arxiv.org/html/2606.04391#bib.bib17), [b](https://arxiv.org/html/2606.04391#bib.bib16)）；Liu et al.（[2025](https://arxiv.org/html/2606.04391#bib.bib25)）保持一致，任务顺序到来：在解决任务 $g_i$ 时，智能体只能访问从历史任务积累的技能库 $\mathcal{S}_{i-1}$。当前任务的真实环境信号 $y_i$ 在执行过程中不可获得……

基于状态感知动态检索的Web智能体在线技能学习

相似文章

DRIVE：在持续学习环境下为Web智能体建模推理与交互层面的技能

@dair_ai: 如果你在构建 Web 代理，这篇关于如何让代理技能可复用的文章值得你花时间阅读。（收藏它）LLM web…

Skill-RAG：通过隐层状态探测和技能路由的故障感知检索增强

SkillRet：面向 LLM 智能体技能检索的大规模基准

技能组：面向智能体技能库的组结构化技能检索

提交意见反馈