Mango:通过全局视图优化的多智能体网页导航

arXiv cs.CL 论文

摘要

普渡大学研究团队推出 Mango,一种多智能体网页导航系统,利用全局站点结构和汤普森采样选择最优起始 URL,在 WebVoyager 和 WebWalkerQA 基准测试中显著提升成功率。

arXiv:2604.18779v1 公告类型:新 摘要:现有网页智能体通常从根 URL 开始探索,在具有深层复杂结构的网站上效率低下。缺乏对网站结构的全局视角,智能体常陷入导航陷阱、探索无关分支,或在有限预算内无法抵达目标信息。我们提出 Mango,一种多智能体网页导航方法,利用网站结构动态确定最优起点。我们将 URL 选择建模为多臂老虎机问题,并采用汤普森采样在候选 URL 间自适应分配导航预算。此外,我们引入 episodic memory 组件存储导航历史,使智能体能从先前尝试中学习。在 WebVoyager 上的实验表明,Mango 使用 GPT-5-mini 时成功率达 63.6%,比最佳基线高 7.3%;在 WebWalkerQA 上,Mango 成功率达 52.5%,比最佳基线高 26.8%。我们还展示了 Mango 在开源与闭源模型骨干上的通用性。数据和代码已开源,地址:https://github.com/VichyTong/Mango。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 08:29

# Mango:基于全局视角优化的多智能体网页导航  
来源:https://arxiv.org/html/2604.18779  
Yifeng Di 普渡大学 [email protected]  
Tianyi Zhang 普渡大学 [email protected]  

###### 摘要  

现有网页智能体通常从根 URL 开始探索,在面对深层复杂网站时效率低下。由于缺乏网站结构的全局视角,智能体容易陷入导航陷阱、探索无关分支,或在有限预算内无法抵达目标信息。我们提出 **Mango**,一种多智能体网页导航方法,利用网站结构动态确定最优起点。我们将 URL 选择建模为多臂老虎机问题,并采用 Thompson Sampling 在候选 URL 之间自适应分配导航预算。此外,我们引入**情景记忆**组件存储导航历史,使智能体能够从过往尝试中学习。在 WebVoyager 上的实验表明,使用 GPT-5-mini 的 Mango 成功率达 63.6%,比最强基线高 7.3%;在 WebWalkerQA 上,Mango 成功率 52.5%,领先最强基线 26.8%。我们还验证了 Mango 在开源与闭源模型上的通用性。数据与代码已开源:https://github.com/VichyTong/Mango。

Mango:基于全局视角优化的多智能体网页导航  
Weixi Tong 普渡大学 [email protected]  
Yifeng Di 普渡大学 [email protected]  
Tianyi Zhang 普渡大学 [email protected]  

## 1 引言  

近年来,利用大语言模型(LLM)构建网页智能体的研究日益增多。这些智能体通常从网站根 URL(首页)出发,解析网页内容,并通过点击、输入等操作与浏览器交互。  

然而,真实网站结构复杂,根 URL 并非最佳起点。智能体必须自顶向下遍历,常常陷入无关子树、导航陷阱,或在通用中间页浪费计算。虽有研究通过改进决策或对齐提升效率,但每步仅能获取局部观察,缺乏全局结构信息。  

为此,我们提出 **Mango**,一种具备全局视角优化能力的多智能体网页导航方法。针对目标网站,Mango 先通过轻量抓取与站内关键词搜索构建全局结构,进而筛选出与查询最相关的候选 URL。在有限预算下,Mango 将 URL 选择建模为多臂老虎机问题,采用 Thompson Sampling 动态分配导航预算。每次导航后,反思智能体评估轨迹并更新后验分布,同时将轨迹与反思存入情景记忆,避免重复访问。  

在 WebVoyager 与 WebWalkerQA 两个基准上的实验表明,Mango 在五种 LLM  backbone 上均取得更高成功率,WebVoyager 提升 3.1%–7.3%,WebWalkerQA 提升 4.6%–26.8%。效率方面,使用 Qwen3 系列时动作数与基线相当或更低;使用 GPT-5-mini 时动作数虽高,但换来显著性能提升。消融实验进一步验证全局分析与 Thompson Sampling 的有效性。  

## 2 相关工作  

### 2.1 网页导航智能体  

近期 LLM 进展极大推动了网页导航智能体研究。一类工作聚焦环境感知,如将长 HTML 摘要为任务相关片段;另一类聚焦规划决策,将复杂任务分解为子任务逐步执行;第三类改进动作落地,如对齐自然语言动作与 UI 元素。  

然而,它们普遍从首页开始导航,在大规模网站上效率低下。本文方法则显式构建网站全局结构,提前发现与意图相关的入口。  

### 2.2 智能体搜索策略  

为增强多步推理,研究者在不同领域采用多种搜索策略。例如 Language Agent Tree Search 将 MCTS 与 LLM 价值函数结合;WebPilot 在网页导航中采用 MCTS 双优化;另有最佳优先搜索探索多样交互轨迹。  

这些方法仍需从首页逐步发现结构。Mango 则在导航前剪枝搜索空间:利用全局结构产生候选 URL,再用 Thompson Sampling 高效分配预算。实验表明,Mango 较 MCTS 变体提升 5.2%–17.1%。  

### 2.3 智能体记忆  

智能体记忆通过保留、组织与检索经验知识,将无状态 LLM 转化为可长期规划与持续适应的智能体。已有网页智能体采用短期记忆存储轨迹,或存储成功轨迹供后续检索,或使用叙事记忆保存高层摘要。  

本文在此基础上引入**情景记忆**,记录每条导航轨迹及其反思,避免重复犯错。  

## 3 方法  

![图 1:系统概览](https://arxiv.org/html/2604.18779#S3.F1)  

图 1 给出 Mango 框架。给定用户查询 q 与根 URL ur,Mango 先构建并分析网站结构,获得候选 URL 集合 U。在有限预算下,Mango 将 URL 选择建模为多臂老虎机(MAB),用 Thompson Sampling 自适应排序。对选定的每个 URL,网页导航智能体从该 URL 开始与浏览器交互;随后反思智能体评估轨迹,更新老虎机后验,并将信息存入情景记忆。  

### 3.1 全局结构分析  

现有智能体多从根 URL 开始,对小站有效,但在千页级网站中需逐层遍历,效率低。Mango 预先生成网站层级结构,筛选与查询相关的起始 URL 集合 U。  

具体地,Mango 以根 URL 为起点做广度优先轻量抓取,过滤非 HTML 与外链,并设最大抓取页数 τ。随后用 BM25 对抓取页面按内容与查询 q 的相关性打分,取前 10 名加入 U。  

对 arXiv 等百万页级站点,纯抓取不可行。Mango 让 LLM 根据 q 生成搜索关键词,再利用 Google 的 `site:` 操作符检索站内相关页,将前 10 结果并入 U。  

### 3.2 URL 排序与选择  

获得候选集合 U 后,Mango 在有限预算下对 URL 进行排序。受 Chakrabarti et al. 启发,我们将此任务建模为**有限寿命臂的多臂老虎机**问题,但臂的“寿命”由反思智能体动态决定,而非固定次数。  

- 臂:候选 URL 集合 U,每臂 ui 状态为 Active 或 Exhausted。  
- 选择策略:对当前 Active 臂集合 U_act,用 Thompson Sampling 概率选择最有潜力 URL。  
- 状态转移:根据导航结果同时更新臂的概率分布与活跃状态。  

初始化时,用 BM25 得分 λu 归一化得 ρu,再设 Beta 先验参数  
αu^(0)=1+κ·ρu,  βu^(0)=1+κ·(1−ρu)。  

每步从各 Active 臂的后验 Beta 中采样 θu,选最大 θu 对应的 URL u* 访问。导航完成后,反思智能体输出轨迹状态(见 3.4),据此更新臂的参数与状态。

相似文章

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

Hugging Face Daily Papers

MM-WebAgent是一种分层智能体框架,通过联合优化布局和多模态内容来协调基于AIGC的元素生成,从而生成连贯且视觉一致的网页。本文引入了一个基准测试和多级评估协议,展示了该框架相比代码生成和基于智能体的基线方法的改进。

奇妙智能体竞赛:强大的工具使用者,薄弱的导航者

arXiv cs.CL

奇妙智能体竞赛(AAR)推出了一个新的基准测试,包含1,400个有向无环图(DAG)谜题实例,用于评估LLM智能体在分叉-合并工具链和维基百科导航中的表现。评估结果显示,智能体在工具使用方面表现出色(错误率<17%),但在导航方面苦苦挣扎(27-52%的失败率),暴露了现有线性基准测试无法发现的关键差距。

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,