@dair_ai: 如果你在构建 Web 代理,这篇关于如何让代理技能可复用的文章值得你花时间阅读。(收藏它)LLM web…
摘要
本文介绍了 SkillMigrator,一个 LLM Web 代理,它通过匹配布局结构而非领域特定元数据来学习可复用技能并在网站间迁移这些技能,在 WebArena 和 Mind2Web 基准测试中将 LLM 操作次数减少了 8-10%。
查看缓存全文
缓存时间: 2026/06/18 18:10
如果你在构建网页代理,这篇论文值得一读。
它讲的是如何让代理技能可复用。
(请收藏)
LLM 网页代理通常以工具调用器的方式运行。每一轮,模型会读取一个新页面,并产生一个底层动作,因此在 Mind2Web 和 WebArena 等基准测试中,任务跨度以及面向策略的 LLM 补全都会显著膨胀。
技能库旨在通过将重复的片段封装为可调用的工具来解决这个问题,但它们的触发依赖于指令相似性或网站元数据,这在未见过的网站上几乎不起作用。
这项工作通过使用可迁移的交互模式来路由技能复用,使得在一个网站上学到的技能能够在共享相同交互形态的新网站上触发。这就在领域键检索失效的地方提升了复用率。
为什么这很重要?
搜索、筛选和分页这些操作模式在不同网站上反复出现。将其抽象为基于模式的技能,就能让网页代理的技能泛化到学习时所用网站之外的范围。
论文:https://arxiv.org/abs/2606.17645
在我们的学院中学习构建有效的 AI 代理:https://academy.dair.ai
超越领域:通过可迁移交互模式复用网页技能
来源:https://arxiv.org/html/2606.17645
史琪贺1,崔悦2,吴飞杰3,马欣宇4,卢嘉恒5,李亚丽2,丁伯林2,Mosharaf Chowdhury1
1 密歇根大学
2 阿里巴巴集团
3 普渡大学
4 麦克马斯特大学
5 宾夕法尼亚大学
摘要
大语言模型(LLM)网页代理通常被部署为工具调用器:每一轮,模型读取一个新页面观察,并发出一个结构化的工具动作。当每个动作都是底层原语时,任务跨度迅速增长,面向策略的 LLM 补全也随之膨胀,在 Mind2Web 和 WebArena 等基准测试中主导了延迟和成本。因此,最近的系统将重复的交互片段封装为网页技能:从成功的轨迹或诱导程序中构建的可调用工具,这样一次调用就能替代多个原语。然而,先前的技能库仍然主要依赖指令相似性或粗略的网站元数据来触发,这使得在未见过的网站上技能复用率很低,并且未能充分发挥步骤和令牌缩减的潜力。
我们提出了 SkillMigrator,一个能够学习可复用的网页技能并通过匹配布局结构(而非特定的元素引用)在不同网站间迁移这些技能的代理。每个诱导技能被存储为可迁移交互模式(TIP):该技能与在诱导时对应的页面快照结构素描配对。在测试时,SkillMigrator 通过布局相似性检索 TIP,并在当前页面上将其引用具体化。堆栈的其他部分都是标准的:使用稳定引用的可访问性快照观察,以及在原语和技能调用之上的固定工具调用。与最先进的方法相比,在匹配的成功率下,SkillMigrator 在 WebArena 和 Mind2Web 的成功轨迹上将平均 LLM 动作数量减少了 8–10%。
1 引言
网页代理将用户自然语言目标转化为一系列浏览器动作,如搜索、点击、输入和提交表单,从而为自动化那些难以手动编写脚本的任务提供了通用接口。最近的基准测试如 WebShop[27]、Mind2Web[2] 和 WebArena[31] 涵盖了电子商务交互、开放领域网站以及现实的自托管环境,凸显了这一设置的实际价值和难度。然而,大多数现有的网页代理依赖以 LLM 为中心的决策循环,重复查询 LLM 以根据当前网页状态预测下一个动作,通常遵循 ReAct[28] 等推理与行动范式。这种设计灵活但部署成本高,因为每个任务可能需要多次连续的 LLM 调用,其成本和延迟随着交互轨迹的长度和数量增加而增长[26]。因此,需要一种成本效益高的网页代理来减少对 LLM 的依赖。
请参见图注 图注 图注 Shopify ● 电子商务 GitLab ● 开发者工具 Postmill ● 在线论坛 *任务:“添加新产品”*任务:“打开新问题”任务:“创建新论坛” 原语动作 fill(‘Title’, …) fill(‘Description’, …) fill(‘Price’, …) click(‘Save’) 原语动作 fill(‘Title’, …) fill(‘Description’, …) select_option(‘Type’, …) click(‘Create issue’) 原语动作 fill(‘Name’, …) fill(‘Title’, …) fill(‘Description’, …) click(‘Create forum’) 一个 TIP 可在所有三个领域复用: ι:“填写带标签的表单并点击提交” σ:填写并提交模板 Φ:{ 标题类, 正文类, … } plan ⇒ 填写所有 * 然后点击( 提交 *) (将 n 次策略 LLM 调用替换为 1 次技能调用) 图 1:跨领域技能复用是 SkillMigrator 的动机。三个来自截然不同领域的网站——Shopify(电子商务)、GitLab(开发者工具)和 Postmill(在线论坛)——使用不同的页面布局、字段词汇和提交按钮标签。然而,这三个子任务归结为相同的程序模式:填写几个带标签的输入,然后点击一个提交按钮。相同颜色的字段(标题类、正文类、提交)在所有三个网站上是同一个抽象槽位的不同表述。SkillMigrator 存储一个 TIP——意图 ι、操作模板 σ、槽位模式 Φ 以及诱导时的树骨架 τ——并在所有三个页面上复用,将许多策略 LLM 步骤替换为单个技能调用。
最近的工作通过可复用的网页技能来追求这一目标,这些技能存储来自先前网页交互的程序性知识,并在未来任务中重新应用[24, 23, 30, 16, 22]。成功的交互轨迹被抽象为一种技能,当代理遇到类似的目标或网页状态时可以检索并执行。这取代了许多原生的 LLM 决策,用单个更高级的操作替代,减少了 LLM 调用并缩短了交互轨迹。由于技能编码了经过验证的动作模式,它还能减轻长程导航中的累积错误[23, 30, 16, 13]。
现有的技能复用方法分为两类:在同一网站下复用网页技能(技能专门针对特定网站及其界面)[30, 16, 22];以及在同一领域下复用网页技能(技能在共享相似任务结构的网站间迁移,如购物、地图、论坛或代码仓库)[24, 23, 29]。两种方向都有重要的局限性。同一网站方法复用率低,因为每个技能都绑定到其学习时所在的特定界面、DOM 结构和交互模式[30, 16, 22]。只有当未来任务重新访问该网站时,代理才能受益,这在开放网络中用户请求涉及多种网站时非常受限。同一领域方法如 PolySkill[29] 通过多态抽象将共享技能接口与特定网站的实现分离,实现了领域内跨网站复用。然而,它们仍然将复用限制在单一领域内,忽视了不同领域的网站之间往往共享强交互模式这一事实,如图 1 所示。因此,当前的技能复用方法仍比所需的更窄,这促使我们需要更通用的可复用网页技能,能够超越同一网站和同一领域进行迁移。
获得超越同一网站和同一领域的可复用网页技能是有挑战性的,因为技能检索不可靠。现有方法使用指令相似性、意图标签或网站元数据来检索候选技能[24, 30, 29]。然而,这些信号对于跨领域迁移是不够的:两个措辞不同的任务可能需要相同的交互程序,而两个文本相似的任务可能需要不同的 DOM 级控制流。结果,代理可能无法检索到有用的技能,或者错误地执行不合适的技能,迫使其退回到原语动作生成,频繁进行 LLM 调用。
我们提出了 SkillMigrator,一个成本效益高的网页代理,能够实现超越同一网站和同一领域的技能复用。SkillMigrator 遵循标准的程序性技能设置,其中观察是可访问性快照,带有稳定的元素引用,动作通过一个固定的工具调用 API 在原语动作和技能调用上发出[30, 16, 29]。它的记忆单元是可迁移交互模式(TIP),将每个诱导技能与技能验证时的网页快照结构素描配对。在推理时,SkillMigrator 通过结合布局相似性和文本信号从单个全局库中检索技能,然后将匹配的抽象约束具体化为实时的元素引用,再回放技能。这种设计使得代理能够识别跨不同措辞、界面和领域的网站上的可复用交互模式,同时避免执行弱匹配的技能。
贡献。
- •据我们所知,这是第一个研究跨网页且超越领域的可复用网页技能的工作。这一设置是非平凡的,因为相似的交互模式可能以不同的布局、标签和 DOM 结构出现。
- •我们提出了用于跨领域技能匹配的 SkillMigrator。它将诱导技能存储为 TIP,每个 TIP 将已验证的技能与其源网页的结构素描配对。对于新任务,SkillMigrator 使用布局和文本信号检索相关的 TIP,将其具体化为实时的网页元素,并在未找到可靠匹配时退回到原语控制。
- •我们通过实验将 SkillMigrator 与 Mind2Web 和 WebArena 上的现有网页代理基线进行比较,在匹配的任务成功率下,成功轨迹上的平均 LLM 动作数量相对于最先进的基线减少了 8–10%。
2 背景与动机
2.1 预备知识和问题形式化
表 1:代表性原语工具。e 是文本快照中的元素引用。技能调用展开为具体化的原语调用。
网页代理环境。
我们遵循 BrowserGym 和 WebArena 的约定[3, 31]:在每个时间步 t,代理接收一个 Playwright 风格的可访问性快照 o_t,其中包含稳定的引用、角色、名称和状态属性,并从动作空间 A(见表 1)中发出一个工具调用 a_t ∼ π_θ(· | q, o_{0:t}, a_{0:t-1})。对于基准测试,我们考虑 Mind2Web[2](跨任务、跨网站、跨领域划分)和 WebArena[31](812 个可执行任务,涵盖购物、管理、reddit、gitlab、地图、多站点)。默认的策略输入是纯文本,基于截图或像素空间的代理不在我们的范围内[6, 10]。完整的形式化见附录 A。
技能库。
除了原生的浏览器动作,最近的网页代理[23, 30, 29] 配备了一个技能库 K。每个技能 k ∈ K 是一个时间扩展的例程[19],它将子任务 s 和观察 o 映射到一个短动作序列 k(s, o) = ⟨ã_1, …, ã_n⟩,基于表 1,作为可调用的高级宏暴露给策略,用于复用重复的交互模式,如打开菜单、填写表单、搜索或筛选。
问题形式化。
给定指令 q,一个规划器将其分解为一系列子任务 s(q) = {s_1, …, s_{T_q}}。设 õ_0 为初始观察,õ_i 为完成 s_i 后的观察。我们定义 N(s, o | K, π_θ) 为 π_θ 为了从 o 完成 s 而发出的新原语动作的数量:如果子任务完全被检索到的技能覆盖,则 N = 0;否则代理回退到 π_θ,N = n,其中 n 是回退轨迹的长度。我们的目标是构建一个紧凑的技能库,最小化任务中预期的 LLM 生成的原语动作数量:
min_K E_{q∼Q} [ ∑{i=1}^{T_q} N(s_i, õ{i-1} | K, π_θ) ] + λ C(K), (1)
其中 Q 是任务分布,C(K) 是库成本,λ 在动作节省与库大小之间进行权衡。
2.2 技能诱导方法
请参见图注 (a) 技能复用率。 (b) 平均有效步骤数。
图 2:ASI、SkillWeaver 和 PolySkill 在累积的 Mind2Web 风格设置上的激励性比较:跨任务(同一网站)、跨网站(同一领域,新站点)和跨领域(新领域)。子图 2(a) 报告了每个阶段的技能复用率,2(b) 显示了成功步骤的成本。
现有工作。
最近关于网页和工具使用代理的可复用程序性知识的工作包括:文本工作流记忆 (AWM[24])、可作为高级动作调用的已验证程序化技能 (ASI[23])、从探索中自我诱导的技能 API (SkillWeaver[30])、多态的跨站点抽象 (PolySkill[29]) 以及发现的网站工具 (WALT[16])。总之,这些方法将重复的原语序列压缩为可复用的抽象,从而减少了 LLM 调用次数。
相似文章
超越域名:通过可迁移交互模式复用网页技能
本文介绍了SkillMigrator——一个能够学习可复用网页技能(作为可迁移交互模式,TIP)的代理,它通过匹配布局结构在不同网站间迁移技能,在基准测试中将LLM动作次数减少8-10%。
@dair_ai:// 面向多智能体系统的元技能演化 // 多智能体系统能否在不触及...的情况下提升编排能力?
Skill-MAS提出了一种在无需修改模型权重的情况下,为多智能体系统演化元技能以提升编排能力的方法,实现了跨任务和LLM的可迁移性能提升。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
SkillRet:面向 LLM 智能体技能检索的大规模基准
本文提出了 SkillRet,这是一个用于评估 LLM 智能体技能检索的大规模基准,旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset,并证明针对特定任务的微调能显著提升检索性能。
技能并非通用:面向LLM智能体的模型感知技能对齐
本文提出MASA框架,该框架在不修改模型权重的情况下,通过分层进化和模型条件重写器将技能适配到每个LLM骨干网络,相比基线方法最高提升25.8个点。