学习适应:基于认知感知探索的自我改进网络智能体
摘要
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
查看缓存全文
缓存时间: 2026/06/01 09:27
# 学习适应:通过认知感知探索实现自我改进的网页智能体
来源:https://arxiv.org/html/2605.31365
Weile Chen¹²²²贡献相等. Bingchen Miao¹²²²贡献相等. Qifan Yu¹²²²贡献相等. Wendong Bu¹ Guoming Wang¹¹¹通讯作者. Wenqiao Zhang¹¹¹通讯作者. Shengyu Zhang¹ Juncheng Li¹¹¹通讯作者.Siliang Tang¹
¹浙江大学
通讯作者:{Nb21013,wenqiaozhang,junchengli}@zju.edu.cn
###### 摘要
近年来,多模态大语言模型(MLLMs)的进展使得网页智能体取得了令人瞩目的进步。然而,现有的网页智能体通常依赖手工设计的执行流程或昂贵的专家轨迹,限制了它们在复杂动态环境中的适应能力。为了应对这些挑战,我们提出 SCALE(自我认知感知学习与探索),它利用三个对抗性角色——选择器(Selector)、预测器(Predictor)和评判器(Judger)——来自主发现智能体的局限性,并通过环境探索扩展其认知边界。此外,我们提出 SCALE-Hop,一种图探索策略,有助于全局规划并帮助智能体避免局部探索陷阱。为了进一步支持学习,我们构建了 SCALE-20k,一个从 19 个真实世界网站收集的大规模数据集,包含多样化的任务类型和基于 SCALE 探索轨迹生成的结构化示范。实验结果表明,我们的方法显著提升了多种 MLLMs 在不同网页环境中的性能和泛化能力。我们的框架为构建真正自主且自适应的网页智能体提供了一种可扩展且可泛化的解决方案。
## 1 引言
近年来,随着多模态大语言模型(MLLMs)的发展,基于 MLLM 的网页智能体 [14 (https://arxiv.org/html/2605.31365#bib.bib2),34 (https://arxiv.org/html/2605.31365#bib.bib6),33 (https://arxiv.org/html/2605.31365#bib.bib10),27 (https://arxiv.org/html/2605.31365#bib.bib15)] 在网页自动化任务中展现了有前景的性能,例如产品搜索 [11 (https://arxiv.org/html/2605.31365#bib.bib5)]、购物 [35 (https://arxiv.org/html/2605.31365#bib.bib4)] 和导航 [15 (https://arxiv.org/html/2605.31365#bib.bib3)]。然而,大多数现有网页智能体严重依赖 MLLMs 的预训练能力,这很难覆盖大规模且多样化的网页任务数据 [23 (https://arxiv.org/html/2605.31365#bib.bib7),2 (https://arxiv.org/html/2605.31365#bib.bib40)]。它们先验知识与高度多变且动态的真实网页之间仍存在显著差距。为弥补这一差距,先前的工作通常依赖于手工设计的执行流程 [32 (https://arxiv.org/html/2605.31365#bib.bib11),12 (https://arxiv.org/html/2605.31365#bib.bib12),7 (https://arxiv.org/html/2605.31365#bib.bib13)],或使用人工标注的专家轨迹 [30 (https://arxiv.org/html/2605.31365#bib.bib1),10 (https://arxiv.org/html/2605.31365#bib.bib9),29 (https://arxiv.org/html/2605.31365#bib.bib8),3 (https://arxiv.org/html/2605.31365#bib.bib22)] 来微调网页智能体。
参见图注
图 1:先前方法与我们的 SCALE 框架对比。SCALE 通过多样且可扩展的任务生成实现自主探索,克服了先前方法的局限性。
然而,上述两种范式仍存在显著局限:
1. **依赖精心设计的执行流程或专家轨迹。** 这些方法要么依赖精心设计的执行流程来执行任务,要么依赖昂贵的专家轨迹来微调 MLLMs [22 (https://arxiv.org/html/2605.31365#bib.bib14),27 (https://arxiv.org/html/2605.31365#bib.bib15),16 (https://arxiv.org/html/2605.31365#bib.bib39)]。尽管这些流程和轨迹通常针对特定场景定制,但仍难以应对真实网页环境的不可预测性和多样性 [23 (https://arxiv.org/html/2605.31365#bib.bib7),8 (https://arxiv.org/html/2605.31365#bib.bib20),26 (https://arxiv.org/html/2605.31365#bib.bib23)]。这些范式中的智能体往往被动行动,并对特定任务流程产生依赖,限制了它们探索陌生环境和适应动态真实网站的能力。
2. **评估和扩展认知边界的挑战。** 认知边界是智能体能力的局限,指智能体基于先验知识难以理解或决策的项目和操作 [25 (https://arxiv.org/html/2605.31365#bib.bib26)]。提升智能体能力具有重要意义。然而,现有方法忽视了对其自身认知边界的探索。因此,如何以个性化和动态的方式评估和扩展智能体能力仍是一个关键挑战。
总之,开发通用网页智能体需要使智能体能够主动适应新环境,并持续扩展其自身的认知边界,而不是依赖特定系统或预定义轨迹。为应对这些挑战,我们提出 SCALE(自我认知感知学习与探索),一个消除对专家轨迹和手工流程依赖的通用框架。SCALE 使智能体能够通过网页环境中的自我驱动交互,自主发现并扩展其认知边界。由于它独立于任何特定模型架构,因此具有跨不同模型的广泛泛化能力。如图 1 (https://arxiv.org/html/2605.31365#S1.F1) 所示,智能体通过识别自身局限、在不确定区域触发探索性行动以及基于反馈进行适应,无需外部监督即可主动探索。为了评估和完善其理解,SCALE 为同一个 MLLM 分配三个角色:选择器(Selector)、预测器(Predictor)和评判器(Judger)。选择器提出具有挑战性的行动,预测器预期其结果,评判器在行动执行后验证预测的准确性。例如,选择器可能选择点击一个标志,认为模型对其效果不确定。预测器则基于当前知识估计结果,预期不会发生任何事。但执行后,评判器观察到跳转到了主页,揭示了模型理解中的差距。这形成了一个闭环过程,其中选择器和预测器进行对抗性交互,一个旨在挑战模型,另一个旨在正确预测,而评判器提供反馈以改进两者。迭代过程使智能体逐步适应复杂的网页环境。
此外,我们旨在通过将 SCALE 的探索能力从局部交互扩展到全局推理与协调来增强它。我们提出 SCALE-Hop 策略,以全局规划和控制加以补充。SCALE-Hop 构建了智能体交互历史的图表示,其中每个节点代表一个特定的网页状态。该图允许智能体监控其探索覆盖范围,并在更高层级做出决策。当在给定节点探索变得困难或完成时,SCALE-Hop 评估模型性能并决定是否退出并转移到另一个尚未充分探索的节点。这一机制帮助智能体有效避免局部陷阱,并支持对环境更全面的理解。
基于在 19 个真实网站上的 SCALE 过程原始探索轨迹,我们构建了 SCALE-20k,一个大规模网页任务数据集。与现有数据集 [22 (https://arxiv.org/html/2605.31365#bib.bib14),29 (https://arxiv.org/html/2605.31365#bib.bib8),30 (https://arxiv.org/html/2605.31365#bib.bib1)] 相比,SCALE-20k 不仅提供执行轨迹,还提供多样化的任务类型,包括多步任务、单步决策和页面理解问答,支持对网页内容的更全面理解和推理。
通过综合实验,我们的 SCALE 框架揭示了 MLLMs 可以通过自我对抗过程主动发现环境中未知的方面,并通过持续发现和探索这些未知方面实现自我改进。与依赖随机探索或严格遵循任务指令的策略相比,SCALE 鼓励模型在其尚不理解的特定区域收集和更新数据。这带来了更具信息量和更易暴露错误的数据,更好地支持模型改进。结合 SCALE-Hop 的全局路径规划,它使智能体能够超越浅层、局部的行为,形成对复杂网页环境更具结构化和全面的理解。
实验上,SCALE 在平均任务成功率上对 InternVL2.5-8B [4 (https://arxiv.org/html/2605.31365#bib.bib36)] 实现了 231.8% 的提升,对 Qwen2.5-VL-7B [1 (https://arxiv.org/html/2605.31365#bib.bib35)] 实现了 176.3% 的提升。此外,SCALE-20k 数据集在任务多样性、推理质量和答案质量方面取得了高分。即使直接应用于其他 MLLMs,SCALE-20k 也能提升它们的智能体能力。这些结果进一步证明了 SCALE 框架的有效性和通用性。
我们的主要贡献总结如下:
- •我们提出 **SCALE**,一个自我驱动的学习与探索框架,使网页智能体能够自主发现并扩展其认知边界,无需依赖推理系统或专家轨迹。
- •我们引入 **SCALE-Hop**,一种根据认知边界评估动态调整的探索策略,促进更广泛的内容发现,并推动收集更多样、更稳健的探索。
- •我们进一步提供 **SCALE-20k**,一个源自 SCALE 探索过程的大规模数据集,提供多样化的任务类型、高质量的推理过程与答案,以支持未来关于网页智能体理解与推理的研究。
参见图注
图 2:SCALE 和 SCALE-Hop 的概览。**SCALE** 包括输入编码、自我检查和迭代更新。它使智能体能识别不熟悉的动作、验证预测并迭代改进推理。**SCALE-Hop** 构建一个图来表示探索历史。它使用验证引导的回溯来标记节点为完全探索,并引导智能体前往未充分探索的区域以实现全局导航。
## 2 相关工作
### 2.1 网页智能体的手工监督
基于 MLLM 的网页智能体的早期进展严重依赖两种形式的外部监督:精心设计的执行流程和精心策划的专家轨迹。精心设计的流程——如思维树(Tree-of-Thought)[12 (https://arxiv.org/html/2605.31365#bib.bib12)]、ReAct [32 (https://arxiv.org/html/2605.31365#bib.bib11)] 和基于世界模型的规划 [7 (https://arxiv.org/html/2605.31365#bib.bib13)]——通过显式模块(如搜索或模拟)结构化智能体推理以指导行动。虽然这些增强了决策能力,但它们需要大量人工设计,并且在预定义场景之外缺乏灵活性。同时,使用专家轨迹的方法依赖大规模人工标注数据集来完成真实世界任务。以数据为中心的工作如 Mind2Web [6 (https://arxiv.org/html/2605.31365#bib.bib27)]、Rico [5 (https://arxiv.org/html/2605.31365#bib.bib28)]、OSWorld [29 (https://arxiv.org/html/2605.31365#bib.bib8)] 和 AGUVIS [30 (https://arxiv.org/html/2605.31365#bib.bib1)] 推动了该领域的发展,但在成本、多样性和适应性方面面临挑战,导致智能体被动且对新设置僵化。相比之下,我们的工作摒弃了手工模块或昂贵标签,使智能体能够通过自主探索自我评估并扩展其能力。
### 2.2 网页智能体的自适应策略
为解决人工监督的僵化问题,近期方法追求自主适应和自我改进。像 OpenWebVoyager [9 (https://arxiv.org/html/2605.31365#bib.bib29)] 和 AgentGym [28 (https://arxiv.org/html/2605.31365#bib.bib30)] 这样的框架使用迭代探索和策略更新 [17 (https://arxiv.org/html/2605.31365#bib.bib25),18 (https://arxiv.org/html/2605.31365#bib.bib31)],但通常需要预定义的任务模板,限制了适应性。更进一步,基于探索的策略如 OS-Genesis [22 (https://arxiv.org/html/2605.31365#bib.bib14)] 和 Learn-by-Interact [21 (https://arxiv.org/html/2605.31365#bib.bib21)] 直接通过无监督交互生成轨迹,追溯性地创建任务并通过奖励模型进行过滤。虽然这减少了对任务的依赖,但大多数方法忽略了系统性地探测或扩展智能体认知边界。相比之下,我们的方法聚焦于自我认知感知探索,即智能体自主识别、诊断并拓宽自身边界,以实现对环境的稳健适应。
## 3 方法
在本节中,我们首先介绍 SCALE 框架的组成部分和过程,然后进一步介绍 SCALE-Hop 的图表示和验证引导的回溯机制。最后,我们介绍 SCALE-20k 数据集的构建方法和分析。
### 3.1 SCALE
为超越手工流程和专家轨迹,并使智能体能够在动态网页环境中主动识别并扩展其自身认知边界,我们提出一个新颖框架 SCALE,使智能体无需外部监督即可主动探索和适应网页环境。本部分首先介绍其三个关键组件:选择器(Selector)、预测器(Predictor)和评判器(Judger),然后描述促进认知边界评估的三个核心阶段,最后给出框架的形式化执行过程。
**选择器、预测器和评判器。** SCALE 框架包含三个必要组件:选择器、预测器和评判器。这些角色共同形成一种自我对抗和自我验证机制,使智能体能够持续识别并聚焦于当前环境中最难解释的行动。重要的是,所有三个角色均由智能体自身承担和执行,形成一个完全自包含的推理与评估循环。选择器负责识别环境中可能令智能体困惑或很少遇到的元素,并生成相应的探索性行动。例如,在购物页面中,点击产品是常见且易于理解的。相反,点击网站标志则很少见且不太熟悉。选择器更喜欢后者以挑战智能体。然后,预测器负责分析行动并预测其预期结果及解释。这使得系统能够在执行前评估智能体是否了解其决策的后果。行动执行后,评判器负责将预测结果与实际结果进行比较,以判断智能体是否真正理解了所选行动。这三个角色在一个闭环中交互,构成了 SCALE 的基础。
**SCALE 的过程。** 如图 2 (https://arxiv.org/html/2605.31365#S1.F2) 所示,SCALE 的运行包括三个主要阶段:输入编码、自我检查和迭代更新。这些阶段共同支持自主探索、认知边界评估和持续适应。
**阶段 1:输入编码** 在此阶段,我们采用常用的设置标记(Set-of-Mark, SOM)技术 [31 (https://arxiv.org/html/2605.31365#bib.bib32)] 来处理图形用户界面(GUI)图像。相似文章
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
三思而后行:LLM 智能体的自主探索
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
重新思考自我进化语言模型智能体中的经验利用
本文介绍了 ExpWeaver 框架,该框架优化了自我进化语言模型智能体在运行时决策过程中如何利用过往经验。研究表明,基于推理不确定性选择性调用经验,能在多种环境和模型中提升性能。