DRIVE:在持续学习环境下为Web智能体建模推理与交互层面的技能

arXiv cs.AI 论文

摘要

DRIVE提出了一种双层技能建模框架,将推理知识与交互知识分离,用于持续学习下的Web智能体。该方法在WebArena上实现了52.8%的任务成功率,比无技能基线高出7.3个百分点。

arXiv:2605.23939v1 公告类型:新 摘要:Web智能体需要高层推理(用于任务分解)和低层交互(用于页面元素操作)来执行不同的任务。然而,这些知识类型存在根本差异:推理知识(例如,预订航班需要先搜索路线)是抽象的且可跨网站迁移,而交互知识(例如,在站点A的特定坐标处点击搜索按钮)则高度依赖于页面的具体上下文。现有方法统一存储经验。这造成了一个困境:抽象表示在具体页面上失去可执行性,而具体表示则无法跨领域泛化。这种纠缠限制了能力积累:在新网站上,智能体要么因表面差异而无法识别可复用的任务逻辑,要么因过时的页面结构而尝试不可行的操作。为了解开这一纠缠,我们提出了DRIVE,一个双层技能建模框架,将历史经验分离为自然语言推理技能(捕获可迁移的任务逻辑)和程序化交互技能(将抽象动作落地为可执行操作)。一种场景感知协调机制根据任务语义自适应地检索和调用这些双层技能。DRIVE还利用技能级反思来识别特定层次的故障模式,从而实现有针对性的技能库扩展和细化。在五个WebArena领域上的实验表明,DRIVE达到了52.8%的平均任务成功率,比无技能基线高出7.3个百分点。进一步的消融实验显示,推理技能和交互技能提供了不同且互补的益处,支持将可迁移的任务逻辑与可执行的页面级操作分离。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:01

# DRIVE:面向持续学习下Web代理的推理与交互层级技能建模  
来源:https://arxiv.org/html/2605.23939  
Sihang Zhou  
sihangjoe@gmail\.com (https://arxiv.org/html/2605.23939v1/mailto:[email protected])  
Yanning Hou、Rong Zhou、Haoyuan Chen、Maolin He、Siwei Wang、Hao Chen、Jian Huang  

###### 摘要  

Web代理需要高层推理(用于任务分解)和低层交互(用于页面元素操作)才能执行不同任务。然而,这两类知识存在根本差异:推理知识(例如,预订航班需要先搜索航线)是抽象的,可在网站间迁移;而交互知识(例如,在站点A上点击特定坐标处的“搜索”按钮)则高度依赖页面特定上下文。现有方法统一存储经验,这造成了两难:抽象表示在具体页面上失去可执行性,而具体表示则难以跨领域泛化。这种纠缠限制了能力积累:在新网站上,代理要么因表面差异而无法识别可复用的任务逻辑,要么因过时的页面结构而尝试不可行的操作。为解耦这两类知识,我们提出DRIVE,一种双层技能建模框架,将历史经验分离为自然语言推理技能(捕捉可迁移的任务逻辑)和程序化交互技能(将抽象动作锚定到可执行操作)。场景感知协调机制根据任务语义自适应地检索和调用这些双层技能。DRIVE还利用技能级反思识别特定层级的失败模式,从而有目标地扩展和精炼技能库。在WebArena五个领域上的实验表明,DRIVE的平均任务成功率达到52.8%,比无技能基线高出7.3个百分点。进一步的消融实验显示,推理技能和交互技能提供了不同且互补的优势,支持将可迁移的任务逻辑与可执行的页面级操作分离开来。  

###### 关键词:Web代理;Web自动化;程序性记忆;技能归纳;持续学习;失败归因  
††  
期刊:Pattern Recognition  

\affiliation\[1\] organization=国防科技大学智能科学学院,城市=长沙,邮编=410073,州=湖南,国家=中国  
\affiliation\[2\] organization=国防科技大学计算机学院,城市=长沙,邮编=410073,州=湖南,国家=中国  

## 1 引言  

随着大语言模型提升Web代理完成任务的能力zheng2024gpt (https://arxiv.org/html/2605.23939#bib.bib1)、he2024webvoyager (https://arxiv.org/html/2605.23939#bib.bib2)、lai2024autowebglm (https://arxiv.org/html/2605.23939#bib.bib3),一个核心问题是如何让这些代理在动态Web环境中实现稳定、长期的适应liu2024domain (https://arxiv.org/html/2605.23939#bib.bib4)。与静态基准相比,Web任务具有独特挑战,因为其状态随时间变化,且解决路径往往多样zheng2024webolympus (https://arxiv.org/html/2605.23939#bib.bib5)、pan2406webcanvas (https://arxiv.org/html/2605.23939#bib.bib6)、ye2025realwebassist (https://arxiv.org/html/2605.23939#bib.bib7)、xue2025illusion (https://arxiv.org/html/2605.23939#bib.bib8)。即使目标相似,随着页面组件和布局更新,动作序列也可能改变,而恰当的下一步动作往往取决于当前页面状态及其周围上下文lee2025learning (https://arxiv.org/html/2605.23939#bib.bib9)、gou2024navigating (https://arxiv.org/html/2605.23939#bib.bib10)。因此,Web代理不能仅依赖即时推理或任务局部探索(如许多现有代理框架所采用的方式yao2022react (https://arxiv.org/html/2605.23939#bib.bib11)、he2024webvoyager (https://arxiv.org/html/2605.23939#bib.bib2)、lai2024autowebglm (https://arxiv.org/html/2605.23939#bib.bib3)),还必须积累、复用并从过去交互中修正经验han2024adaptive (https://arxiv.org/html/2605.23939#bib.bib12)。这些经验可能包括用于分解重复目标的任务级规律,以及指示特定页面状态如何启用或限制动作的交互级线索。这种对经验的长期利用对于在变化的Web环境中实现稳健适应至关重要。  

为了使Web代理能在更长的时间跨度内更具适应性,近期工作研究了如何存储和复用过往经验。代表性方法将经验提炼为自然语言反思或规则,以指导后续决策zhao2024expel (https://arxiv.org/html/2605.23939#bib.bib13),或者保留交互轨迹和演示,以便在相似任务出现时参考wang2024agent (https://arxiv.org/html/2605.23939#bib.bib14)、liu2025contextual (https://arxiv.org/html/2605.23939#bib.bib15)、zheng2504skillweaver (https://arxiv.org/html/2605.23939#bib.bib16)、zhou2025proposer (https://arxiv.org/html/2605.23939#bib.bib17)。复用这类经验可以减少反复的试错。例如,代理可以从先前的失败中学到,任务应分解为搜索、筛选和确认步骤,或者某个页面状态需要在目标动作可用之前先关闭模态窗口。更近期的工作研究了将程序化技能作为可复用Web经验的可执行表示prabhu2025walt (https://arxiv.org/html/2605.23939#bib.bib18)、zhong2026actionengine (https://arxiv.org/html/2605.23939#bib.bib19)。这些方法不是仅将原始轨迹作为演示,而是将重复出现的交互模式抽象为可调用的函数,使得代理能够通过提供任务或页面特定的参数来执行结构相似的操作wang2024agent (https://arxiv.org/html/2605.23939#bib.bib14)、prabhu2025walt (https://arxiv.org/html/2605.23939#bib.bib18)。这种表述非常适合交互级知识,因为它比自然语言反思更直接地表示程序约束、动作顺序和可执行接地zhong2026actionengine (https://arxiv.org/html/2605.23939#bib.bib19)。例如,一个表单填写轨迹可以转换为一个参数化函数,该函数定位相关输入字段、填入所需值并提交表单。代理随后可以复用此操作,而无需每次都从头规划每个低层动作prabhu2025walt (https://arxiv.org/html/2605.23939#bib.bib18)。  

这些努力指向一个更深层的挑战:不同形式的经验往往编码不同层次的知识liu2025class (https://arxiv.org/html/2605.23939#bib.bib20)。自然语言反思可以表达可迁移的任务级教训,例如识别何时应修改无效策略,但往往提供的接地信息太少,无法确定应操作哪个页面元素。相比之下,轨迹和程序化技能保留了更丰富的可执行细节,包括点击、输入、页面状态和程序约束。然而,这些细节通常仅在新任务共享相似的页面布局、元素结构或交互上下文时才可迁移。因此,主要限制并不简单地是表示的选择,而是缺乏推理知识与交互知识之间的清晰分离和协调。当这两层被存储并复用为单一经验对象时,代理面临跨站点可迁移性与页面级可执行性之间的持久权衡。  

基于这一观察,我们提出DRIVE,一种双层技能建模框架,将历史Web经验分离为可迁移的推理技能和可执行的交互技能。DRIVE并非将全部经验强行塞入单一表示,而是针对每一层复用采用最适合的形式。推理技能以自然语言编写,捕捉任务理解和决策的知识;而交互技能则表示为程序,编码可执行的页面操作模式和动作约束。为支持复用,DRIVE将每个技能与其使用场景(由任务语义和页面上下文条件描述)相链接。然后利用场景感知机制为当前任务-页面场景检索并协调双层技能。DRIVE还利用技能级失败反馈来随时间修订、扩展和去重技能库,形成基于分层表示、协调复用和闭环更新的持续学习流水线。  

我们在WebArena的五个网站领域上评估了DRIVEzhou2023webarena (https://arxiv.org/html/2605.23939#bib.bib21)。DRIVE实现了52.8%的平均任务成功率,比无技能基线提高了7.3个百分点。其性能也随着用于技能归纳和更新的历史轨迹增加而提升。这些结果表明,双层技能建模为积累经验、复用能力并支持Web代理的持续改进提供了一种有效方法。  

本工作的主要贡献如下:  

- •我们通过识别Web交互经验中推理知识与交互知识之间的异质性来激励DRIVE,强调了将历史经验视为统一表示的局限性。  
- •我们提出了DRIVE,一种双层技能建模框架,将历史经验表示为自然语言推理技能和程序化交互技能。DRIVE通过根据当前场景检索和调用这些技能,并结合技能级失败反馈,随时间复用和更新这些技能。  
- •我们在WebArena的五个网站领域上评估了DRIVE。结果表明,DRIVE提高了任务成功率,且其性能随着经验积累而持续提升。  

## 2 相关工作  

先前的工作通过情节记忆和经验回放来复用过去轨迹,从而改进Web代理wang2025continual (https://arxiv.org/html/2605.23939#bib.bib22)。AWMwang2024agent (https://arxiv.org/html/2605.23939#bib.bib14)从先前交互中提取可复用工作流;CERliu2025contextual (https://arxiv.org/html/2605.23939#bib.bib15)从回放缓冲区检索相关模式;WebCoachliu2025webcoach (https://arxiv.org/html/2605.23939#bib.bib23)将导航历史压缩为可复用指导;ExpSeekzhang2026expseek (https://arxiv.org/html/2605.23939#bib.bib24)在代理不确定时介入先前经验。这些方法共同表明,积累的轨迹可以支持后续任务中的决策。然而在大多数情况下,经验被复用为单一对象,例如记忆条目或工作流。这种设计对于回忆高层策略很有用,但将低层交互知识(包括执行这些策略所必需的在具体网页上的知识)基本上留为隐式。例如,一个摘要可能告诉代理去搜索、筛选和确认,但当代理必须识别正确的界面元素或处理页面特定约束时,仍可能失败。  

**可执行技能归纳**。相关工作线研究了如何将Web交互轨迹抽象为程序化或可调用技能。SkillWeaverzheng2504skillweaver (https://arxiv.org/html/2605.23939#bib.bib16)通过探索和实践合成可复用的Web技能(作为API);CASCADEhuang2025cascade (https://arxiv.org/html/2605.23939#bib.bib25)和ALITAqiu2025alita (https://arxiv.org/html/2605.23939#bib.bib26)研究了如何将重复的交互模式暴露为可调用工具或技能。这些方法表明,交互数据可以转换为可复用操作,而不仅仅是保留为上下文记忆。然而,生成的技能或策略通常表示为单一程序单元。这提高了可执行性,但对于捕捉解释何时以及为何应使用某个操作的推理经验支持有限。  

其他自我改进框架,包括WebRLqi2025webrltrainingllmweb (https://arxiv.org/html/2605.23939#bib.bib27)、WebAgent-R1wei2025webagent (https://arxiv.org/html/2605.23939#bib.bib28)和Agent Qputta2024agent (https://arxiv.org/html/2605.23939#bib.bib29),通过在线探索、强化学习或基于搜索的纠正来改善代理行为。它们的反馈信号通常用于整体行为优化,而非技能级修正。这使得现有方法在积累推理经验和支持可复用技能的持续精炼方面受到限制。  

我们的工作将经验复用与可执行技能归纳联系起来,但认为两者都面临一个共同的表示问题:从轨迹中得到的经验通常被视为单一的可复用对象,尽管它包含不同抽象层次和不同接地要求的知识。DRIVE通过在最有效的复用层次上表示经验来解决这种抽象-接地不匹配。DRIVE不是将记忆检索和可执行技能视为独立组件,而是将能在任务间泛化的知识与必须在特定Web上下文中接地的知识分离开来。这种分解为持续技能进化提供了更强的基础,允许可复用经验根据其抽象层次进行精炼和扩展,而不是作为一个单一的庞大记忆或程序单元进行更新。  

## 3 方法  

参见图注  
图1:DRIVE概览。DRIVE包括用于技能抽象和进化的离线阶段,以及用于场景感知技能复用的在线阶段。离线阶段将历史Web交互轨迹抽象为推理技能和交互技能,这些技能组织成分层技能库并通过进化进行精炼。在线执行期间,代理根据任务语义和页面观察检索相关技能,并将执行反馈回馈给离线阶段,形成闭环精炼过程。  

图1 (https://arxiv.org/html/2605.23939#S3.F1)展示了DRIVE的整体框架。DRIVE遵循离线-在线循环来构建、复用和精炼Web代理技能。在离线阶段,历史轨迹被抽象为两个技能库。推理技能捕捉可复用的任务逻辑,而交互技能记录页面接地的操作经验。DRIVE进一步在技能级分析失败,因此推理失败更新推理库,而交互失败修复交互库。在线阶段,给定任务指令和当前页面观察,DRIVE检索既匹配任务意图又匹配网页上下文的技能。推理技能提供纠正性指导以避免重复的推理错误,而交互技能复用成功的页面级经验以减少执行失败。产生的反馈被返回到离线阶段以精炼库。通过将可迁移的推理与页面接地的交互解耦,同时在执行过程中协调它们,DRIVE使得Web代理能够在动态Web环境中积累能力。  

### 3.1 问题形式化  

我们研究一个基于语言模型骨干 \( \mathcal{L} \) 构建的Web代理,它与Web环境交互以解决自然语言任务指令 \( q \)。在环境步骤 \( t \),设 \( s_t \) 表示底层环境状态,而 \( o_t \) 表示相应的观

相似文章

基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI

本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。