超越域名:通过可迁移交互模式复用网页技能

arXiv cs.AI 论文

摘要

本文介绍了SkillMigrator——一个能够学习可复用网页技能(作为可迁移交互模式,TIP)的代理,它通过匹配布局结构在不同网站间迁移技能,在基准测试中将LLM动作次数减少8-10%。

arXiv:2606.17645v1 公告类型: 新 摘要:大型语言模型(LLM)网页代理通常作为工具调用器部署:每轮,模型读取新的页面观察并发出一个结构化工具动作。当每个动作都是底层原语时,任务跨度迅速增长,面向策略的LLM完成次数也随之增加,在Mind2Web和WebArena等基准测试中主导了延迟和成本。因此,最近的系统将重复的交互片段封装为网页技能:基于成功轨迹或诱导程序构建的可调用工具,使得一次调用可以替代多个原语。然而,先前的技能库主要通过指令相似性或粗略的站点元数据触发,导致在未见站点上技能复用率低,未能充分利用潜在的步骤和令牌缩减。 我们提出SkillMigrator——一个学习可复用网页技能并通过匹配布局结构(而非特定元素引用)在不同站点间迁移技能的代理。每个诱导技能存储为可迁移交互模式(TIP):技能与诱导时的快照结构草图配对。在测试时,SkillMigrator通过布局相似性检索TIP,并将其引用定位到实时页面上。其余部分为标准:使用稳定引用的可访问性快照观察,以及固定的工具调用(原语加技能调用)。与最先进方法相比,SkillMigrator在成功轨迹上平均将LLM动作次数减少了8-10%(在WebArena和Mind2Web两个基准测试中,且成功率相当)。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:37

# 超越领域:通过可迁移交互模式复用Web技能
来源:https://arxiv.org/html/2606.17645
施琪何¹,悦崔²,费杰吴³,新宇马⁴,嘉恒卢⁵,雅亮李²,柏林丁²,莫沙拉夫·乔杜里¹ ¹密歇根大学²阿里巴巴集团³普渡大学 ⁴麦克马斯特大学⁵宾夕法尼亚大学

###### 摘要

大语言模型(LLM)Web智能体通常被部署为*工具调用者*:每一轮,模型读取新鲜的页面观测并发出一个结构化的工具动作。当每个动作都是低级原语时,交互环节会迅速增长,策略层面的LLM补全也会随之增加,导致在Mind2Web和WebArena等基准测试上延迟和成本占主导地位。因此,最近的系统将重复的交互片段封装为*Web技能*:基于成功轨迹或诱导程序构建的可调用工具,一次调用即可替代多个原语。然而,先前的技能库仍然主要依靠指令相似度或粗粒度的站点元数据来触发匹配,这导致在未曾见过的站点上技能*复用率*低,并且在步骤和令牌减少方面潜力远未充分释放。

我们提出了**SkillMigrator**,一个能够学习可复用Web技能并通过匹配布局结构(而非特定元素引用)在站点间迁移的智能体。每个诱导技能被存储为一个*可迁移交互模式*(TIP):技能与诱导时刻快照的结构化草图配对。在测试时,SkillMigrator通过布局相似性检索TIP,并将其引用锚定到当前页面的元素。其余部分采用标准架构:使用具有稳定引用的可访问性快照观测,以及基于原语加技能调用的固定工具调用。与最先进方法相比,SkillMigrator在WebArena和Mind2Web两个基准上,在保持同等成功率的前提下,成功轨迹上的平均LLM动作次数减少了8–10%。

## 1 引言

Web智能体将用户的自然语言目标转化为一系列浏览器动作,如搜索、点击、输入和提交表单,为那些难以手动编写脚本的自动化任务提供了一个通用接口。最近的基准测试如WebShop[[27]](https://arxiv.org/html/2606.17645#bib.bib63)、Mind2Web[[2]](https://arxiv.org/html/2606.17645#bib.bib9)和WebArena[[31]](https://arxiv.org/html/2606.17645#bib.bib64)涵盖了电商交互、开放域网站和现实自托管环境,凸显了该场景的实用价值和挑战。然而,大多数现有Web智能体依赖于以LLM为中心的决策循环,反复查询LLM从当前网页状态预测下一个动作,通常遵循ReAct[[28]](https://arxiv.org/html/2606.17645#bib.bib2)等推理与行动范式。这种设计虽然灵活,但在部署时成本高昂,因为每个任务可能需要多个连续的LLM调用,成本和延迟随交互轨迹的长度和数量增长[[26]](https://arxiv.org/html/2606.17645#bib.bib29)。因此,需要一种*成本有效的Web智能体*来减少对LLM的依赖。

参考图题参考图题参考图题
Shopify ∙ E-commerce
GitLab ∙ 开发者工具
Postmill ∙ 在线论坛
*任务:* “添加新产品”
*任务:* “打开新问题”
*任务:* “创建新论坛”
原语动作
fill(‘Title’, ...)
fill(‘Description’, ...)
fill(‘Price’, ...)
click(‘Save’)
原语动作
fill(‘Title’, ...)
fill(‘Description’, ...)
select_option(‘Type’, ...)
click(‘Create issue’)
原语动作
fill(‘Name’, ...)
fill(‘Title’, ...)
fill(‘Description’, ...)
click(‘Create forum’)
一个TIP可跨三个域复用:
ι: “填写带标签的表单并点击提交”
σ: fill-and-submit 模板
Φ: { *title*类, *body*类, ... }
plan ⇒ fill* then click(*submit*) (用1次技能调用替代n次策略LLM调用)

**图1:跨域技能复用驱动了SkillMigrator的设计。** 三个来自完全不同域的网站——*Shopify*(电商)、*GitLab*(开发者工具)和*Postmill*(在线论坛)——使用了不同的页面布局、字段词汇和提交按钮标签。然而,这三个子任务归结为相同的程序模式:填写几个带标签的输入框,然后点击一个提交按钮。相同颜色的字段(*title*类、*body*类、*submit*)是对同一抽象槽位的不同表述。SkillMigrator存储*一个*TIP——意图ι、操作模板σ、槽位模式Φ以及诱导时的树状骨架τ——并在这三个页面上复用,将多次策略LLM步骤替换为单次技能调用。

近期的工作通过可复用的Web技能来追求这一目标,这些技能存储来自先前Web交互的程序知识,并在未来任务中重新应用[[24]](https://arxiv.org/html/2606.17645#bib.bib27),[[23]](https://arxiv.org/html/2606.17645#bib.bib53),[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[16]](https://arxiv.org/html/2606.17645#bib.bib59),[[22]](https://arxiv.org/html/2606.17645#bib.bib69)。一个成功的交互轨迹被抽象为技能,当智能体遇到相似的目标或网页状态时,可以检索并执行该技能。这用单个更高级的操作替代了许多原语LLM决策,从而减少LLM调用并缩短交互轨迹。由于技能编码了经过验证的动作模式,它还能减轻长视野导航中的累积错误[[23]](https://arxiv.org/html/2606.17645#bib.bib53),[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[16]](https://arxiv.org/html/2606.17645#bib.bib59),[[13]](https://arxiv.org/html/2606.17645#bib.bib70)。

现有的技能复用方法分为两类:在*同一网站*下复用Web技能(技能专用于特定站点及其界面)[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[16]](https://arxiv.org/html/2606.17645#bib.bib59),[[22]](https://arxiv.org/html/2606.17645#bib.bib69),以及在*相同域*下复用Web技能(技能在共享相似任务结构的网站间迁移,如购物、地图、论坛或代码仓库)[[24]](https://arxiv.org/html/2606.17645#bib.bib27),[[23]](https://arxiv.org/html/2606.17645#bib.bib53),[[29]](https://arxiv.org/html/2606.17645#bib.bib55)。两种方法都有重要局限性。同一网站方法复用率低,因为每个技能都绑定到学习该技能时特定站点的界面、DOM结构和交互模式[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[16]](https://arxiv.org/html/2606.17645#bib.bib59),[[22]](https://arxiv.org/html/2606.17645#bib.bib69)。只有当未来任务再次访问该站点时,智能体才能受益,这在用户请求涵盖多种网站的开源Web环境中是受限的。相同域方法如PolySkill[[29]](https://arxiv.org/html/2606.17645#bib.bib55)通过多态抽象来解决此问题,将共享技能接口与站点特定实现分离,从而实现在同一域内的站点间复用。然而,它们仍然将复用限制在单个域内,忽视了不同域的网站之间经常共享强烈的交互模式,如图1所示。因此,当前的技能复用方法仍然比必要的范围更窄,这促使我们寻求一种更通用的可复用Web技能形式,使其能够超越*同一网站*和*同一域*进行迁移。

实现超越同一网站和同一域的可复用Web技能具有挑战性,原因是技能检索不可靠。现有方法使用指令相似度、意图标签或网站元数据来检索候选技能[[24]](https://arxiv.org/html/2606.17645#bib.bib27),[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[29]](https://arxiv.org/html/2606.17645#bib.bib55)。然而,这些信号不足以实现跨域迁移:两个措辞不同的任务可能需要相同的交互程序,而两个文本相似的任务可能需求不同的DOM级控制流。因此,智能体可能无法检索到有用的技能,或误执行不合适的技能,不得不回退到频繁LLM调用的原语动作生成。

我们提出**SkillMigrator**,一个成本有效的Web智能体,能够实现超越*同一网站*和*同一域*的技能复用。SkillMigrator遵循标准的程序化技能设置:观测采用具有稳定元素引用的可访问性快照,动作通过固定的工具调用API(包含原语动作和技能调用)发出[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[16]](https://arxiv.org/html/2606.17645#bib.bib59),[[29]](https://arxiv.org/html/2606.17645#bib.bib55)。其记忆单元是可迁移交互模式(TIP),将每个诱导技能与技能验证时网页快照的结构化草图配对。推理时,SkillMigrator通过结合布局相似度和文本信号从单个全局库中检索技能,然后将匹配的抽象约束锚定到当前页面的元素引用,再执行该技能。这种设计使得智能体能够在具有不同措辞、界面和域的网站间识别可复用的交互模式,同时避免执行弱匹配的技能。

#### 贡献。

- •据我们所知,这是第一个研究跨域网站间可复用Web技能的工作。该设置非平凡,因为相似的交互模式可能出现在不同布局、标签和DOM结构中。
- •我们提出SkillMigrator用于跨域技能匹配。它将诱导技能存储为TIP,每个TIP将已验证的技能与源网页的结构化草图配对。对于新任务,SkillMigrator使用布局和文本信号检索相关TIP,将其锚定到当前网页元素,并在找不到可靠匹配时回退到原语控制。
- •我们在Mind2Web和WebArena上对SkillMigrator与现有Web智能体基线进行了实证比较,在保持任务成功率相当的情况下,成功轨迹上的平均LLM动作次数比最先进基线减少了8–10%。

## 2 背景与动机

### 2.1 预备知识与问题形式化

**表1:代表性原语工具。** e 是文本次照中的元素引用。技能调用会展开为锚定的原语调用。

#### Web智能体环境。

我们遵循BrowserGym和WebArena的约定[[3]](https://arxiv.org/html/2606.17645#bib.bib30),[[31]](https://arxiv.org/html/2606.17645#bib.bib64):在每一时间步 t,智能体接收一个Playwright风格的可访问性快照 o_t,包含稳定引用、角色、名称和状态属性,并从动作空间 A(表1)中发出一个工具调用 a_t ~ π_θ(· | q, o_{0:t}, a_{0:t-1})。关于基准测试,我们考虑Mind2Web[[2]](https://arxiv.org/html/2606.17645#bib.bib9)(跨任务、跨网站、跨域划分)和WebArena[[31]](https://arxiv.org/html/2606.17645#bib.bib64)(812个可执行任务,涵盖购物、管理、reddit、gitlab、地图、多站点)。默认策略输入为纯文本,基于截图的或像素空间的智能体不在我们范围之内[[6]](https://arxiv.org/html/2606.17645#bib.bib16),[[10]](https://arxiv.org/html/2606.17645#bib.bib51)。完整形式化见附录A。

#### 技能库。

除了原语浏览器动作,最近的Web智能体[[23]](https://arxiv.org/html/2606.17645#bib.bib53),[[30]](https://arxiv.org/html/2606.17645#bib.bib54),[[29]](https://arxiv.org/html/2606.17645#bib.bib55)配备了一个技能库 K。每个技能 k ∈ K 是一个时间扩展例程[[19]](https://arxiv.org/html/2606.17645#bib.bib61),将子任务 s 和观测 o 映射为一个短动作序列 k(s, o) = ⟨ã_1, ..., ã_n⟩(基于表1中的动作),对策略暴露为可调用的高层宏,用于复用诸如打开菜单、填写表单、搜索或过滤等重复交互模式。

#### 问题形式化。

给定指令 q,一个规划器将其分解为一系列子任务 s(q) = {s_1, …, s_{T_q}}。设 õ_0 为初始观测,õ_i 为完成 s_i 后的观测。我们定义 N(s, o | K, π_θ) 为 π_θ 为了从 o 完成 s 而发出的*新的*原语动作数量:如果子任务完全由检索到的技能覆盖,则 N=0;否则智能体回退到 π_θ,N=n,其中 n 是回退轨迹的长度。我们的目标是构建一个紧凑的技能库,最小化跨任务期望的LLM生成原语动作数量:

min_K E_{q~Q} [ Σ_{i=1}^{T_q} N(s_i, õ_{i-1} | K, π_θ) ] + λ C(K),  (1)

其中 Q 是任务分布,C(K) 是库成本,λ 权衡动作节省与库大小。

### 2.2 技能诱导方法

参考图题 (a) 技能复用率。
参考图题 (b) 平均有效步骤。

**图2:ASI、SkillWeaver和PolySkill在累积式Mind2Web设置(跨任务(同网站)、跨网站(同域,新站点)、跨域(新域))上的动机对比。** 子图2(a) 报告了各阶段的技能复用率,2(b) 显示了成功步骤的成本。

#### 现有工作。

近期关于Web和工具使用智能体可复用程序知识的工作包括:文本工作流记忆(AWM[[24]](https://arxiv.org/html/2606.17645#bib.bib27))、可作为高层动作调用的已验证程序化技能(ASI[[23]](https://arxiv.org/html/2606.17645#bib.bib53))、从探索中自诱导的技能API(SkillWeaver[[30]](https://arxiv.org/html/2606.17645#bib.bib54))、多态跨站点抽象(PolySkill[[29]](https://arxiv.org/html/2606.17645#bib.bib55))以及发现的网站工具(WALT[[16]](https://arxiv.org/html/2606.17645#bib.bib59))。这些方法共同将重复的原语序列压缩为可复用的抽象,缩短了交互视野并减少了策略LLM调用。

#### 局限性。

尽管有这些进展,技能检索在未见过的网站上仍然是瓶颈,因为现有方法依赖于语义键,如任务描述、工作流摘要、技能名称和API描述。Web任务经常在保持交互结构的同时改变表面措辞,因此纯语义检索会-欠检索-可复用技能——增大 N(s, o | K, π_θ)——并且-过检索-其执行上下文与当前页面不兼容的技能。图2展示了在GPT-4.1评估的60个Mind2Web子集上的情况:随着测试轨迹从跨任务到跨网站到跨域,ASI、SkillWeaver和PolySkill的技能复用率急剧下降(图2(a)),而平均成功步骤成本同步上升(图2(b))。这促使我们进行改进。

相似文章

SkillNet:创建、评估并连接AI技能

Papers with Code Trending

SkillNet 提供了一个开放的基础设施,通过统一的本体系统地积累和迁移 AI 技能,在多个领域展现了智能体性能的显著提升。