Mango：通过全局视图优化的多智能体网页导航

arXiv cs.CL 2026/04/22 04:00 论文

摘要

普渡大学研究团队推出 Mango，一种多智能体网页导航系统，利用全局站点结构和汤普森采样选择最优起始 URL，在 WebVoyager 和 WebWalkerQA 基准测试中显著提升成功率。

arXiv:2604.18779v1 公告类型：新摘要：现有网页智能体通常从根 URL 开始探索，在具有深层复杂结构的网站上效率低下。缺乏对网站结构的全局视角，智能体常陷入导航陷阱、探索无关分支，或在有限预算内无法抵达目标信息。我们提出 Mango，一种多智能体网页导航方法，利用网站结构动态确定最优起点。我们将 URL 选择建模为多臂老虎机问题，并采用汤普森采样在候选 URL 间自适应分配导航预算。此外，我们引入 episodic memory 组件存储导航历史，使智能体能从先前尝试中学习。在 WebVoyager 上的实验表明，Mango 使用 GPT-5-mini 时成功率达 63.6%，比最佳基线高 7.3%；在 WebWalkerQA 上，Mango 成功率达 52.5%，比最佳基线高 26.8%。我们还展示了 Mango 在开源与闭源模型骨干上的通用性。数据和代码已开源，地址：https://github.com/VichyTong/Mango。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:29

# Mango：基于全局视角优化的多智能体网页导航  
来源：https://arxiv.org/html/2604.18779  
Yifeng Di 普渡大学 [email protected]  
Tianyi Zhang 普渡大学 [email protected]  

###### 摘要  

现有网页智能体通常从根 URL 开始探索，在面对深层复杂网站时效率低下。由于缺乏网站结构的全局视角，智能体容易陷入导航陷阱、探索无关分支，或在有限预算内无法抵达目标信息。我们提出 **Mango**，一种多智能体网页导航方法，利用网站结构动态确定最优起点。我们将 URL 选择建模为多臂老虎机问题，并采用 Thompson Sampling 在候选 URL 之间自适应分配导航预算。此外，我们引入**情景记忆**组件存储导航历史，使智能体能够从过往尝试中学习。在 WebVoyager 上的实验表明，使用 GPT-5-mini 的 Mango 成功率达 63.6%，比最强基线高 7.3%；在 WebWalkerQA 上，Mango 成功率 52.5%，领先最强基线 26.8%。我们还验证了 Mango 在开源与闭源模型上的通用性。数据与代码已开源：https://github.com/VichyTong/Mango。

Mango：基于全局视角优化的多智能体网页导航  
Weixi Tong 普渡大学 [email protected]  
Yifeng Di 普渡大学 [email protected]  
Tianyi Zhang 普渡大学 [email protected]  

## 1 引言  

近年来，利用大语言模型（LLM）构建网页智能体的研究日益增多。这些智能体通常从网站根 URL（首页）出发，解析网页内容，并通过点击、输入等操作与浏览器交互。  

然而，真实网站结构复杂，根 URL 并非最佳起点。智能体必须自顶向下遍历，常常陷入无关子树、导航陷阱，或在通用中间页浪费计算。虽有研究通过改进决策或对齐提升效率，但每步仅能获取局部观察，缺乏全局结构信息。  

为此，我们提出 **Mango**，一种具备全局视角优化能力的多智能体网页导航方法。针对目标网站，Mango 先通过轻量抓取与站内关键词搜索构建全局结构，进而筛选出与查询最相关的候选 URL。在有限预算下，Mango 将 URL 选择建模为多臂老虎机问题，采用 Thompson Sampling 动态分配导航预算。每次导航后，反思智能体评估轨迹并更新后验分布，同时将轨迹与反思存入情景记忆，避免重复访问。  

在 WebVoyager 与 WebWalkerQA 两个基准上的实验表明，Mango 在五种 LLM  backbone 上均取得更高成功率，WebVoyager 提升 3.1%–7.3%，WebWalkerQA 提升 4.6%–26.8%。效率方面，使用 Qwen3 系列时动作数与基线相当或更低；使用 GPT-5-mini 时动作数虽高，但换来显著性能提升。消融实验进一步验证全局分析与 Thompson Sampling 的有效性。  

## 2 相关工作  

### 2.1 网页导航智能体  

近期 LLM 进展极大推动了网页导航智能体研究。一类工作聚焦环境感知，如将长 HTML 摘要为任务相关片段；另一类聚焦规划决策，将复杂任务分解为子任务逐步执行；第三类改进动作落地，如对齐自然语言动作与 UI 元素。  

然而，它们普遍从首页开始导航，在大规模网站上效率低下。本文方法则显式构建网站全局结构，提前发现与意图相关的入口。  

### 2.2 智能体搜索策略  

为增强多步推理，研究者在不同领域采用多种搜索策略。例如 Language Agent Tree Search 将 MCTS 与 LLM 价值函数结合；WebPilot 在网页导航中采用 MCTS 双优化；另有最佳优先搜索探索多样交互轨迹。  

这些方法仍需从首页逐步发现结构。Mango 则在导航前剪枝搜索空间：利用全局结构产生候选 URL，再用 Thompson Sampling 高效分配预算。实验表明，Mango 较 MCTS 变体提升 5.2%–17.1%。  

### 2.3 智能体记忆  

智能体记忆通过保留、组织与检索经验知识，将无状态 LLM 转化为可长期规划与持续适应的智能体。已有网页智能体采用短期记忆存储轨迹，或存储成功轨迹供后续检索，或使用叙事记忆保存高层摘要。  

本文在此基础上引入**情景记忆**，记录每条导航轨迹及其反思，避免重复犯错。  

## 3 方法  

![图 1：系统概览](https://arxiv.org/html/2604.18779#S3.F1)  

图 1 给出 Mango 框架。给定用户查询 q 与根 URL ur，Mango 先构建并分析网站结构，获得候选 URL 集合 U。在有限预算下，Mango 将 URL 选择建模为多臂老虎机（MAB），用 Thompson Sampling 自适应排序。对选定的每个 URL，网页导航智能体从该 URL 开始与浏览器交互；随后反思智能体评估轨迹，更新老虎机后验，并将信息存入情景记忆。  

### 3.1 全局结构分析  

现有智能体多从根 URL 开始，对小站有效，但在千页级网站中需逐层遍历，效率低。Mango 预先生成网站层级结构，筛选与查询相关的起始 URL 集合 U。  

具体地，Mango 以根 URL 为起点做广度优先轻量抓取，过滤非 HTML 与外链，并设最大抓取页数 τ。随后用 BM25 对抓取页面按内容与查询 q 的相关性打分，取前 10 名加入 U。  

对 arXiv 等百万页级站点，纯抓取不可行。Mango 让 LLM 根据 q 生成搜索关键词，再利用 Google 的 `site:` 操作符检索站内相关页，将前 10 结果并入 U。  

### 3.2 URL 排序与选择  

获得候选集合 U 后，Mango 在有限预算下对 URL 进行排序。受 Chakrabarti et al. 启发，我们将此任务建模为**有限寿命臂的多臂老虎机**问题，但臂的“寿命”由反思智能体动态决定，而非固定次数。  

- 臂：候选 URL 集合 U，每臂 ui 状态为 Active 或 Exhausted。  
- 选择策略：对当前 Active 臂集合 U_act，用 Thompson Sampling 概率选择最有潜力 URL。  
- 状态转移：根据导航结果同时更新臂的概率分布与活跃状态。  

初始化时，用 BM25 得分 λu 归一化得 ρu，再设 Beta 先验参数  
αu^(0)=1+κ·ρu,  βu^(0)=1+κ·(1−ρu)。  

每步从各 Active 臂的后验 Beta 中采样 θu，选最大 θu 对应的 URL u* 访问。导航完成后，反思智能体输出轨迹状态（见 3.4），据此更新臂的参数与状态。

Mango：通过全局视图优化的多智能体网页导航

相似文章

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

MultiWorld：可扩展的多智能体多视角视频世界模型

奇妙智能体竞赛：强大的工具使用者，薄弱的导航者

MEMOA：基于平均场去中心化纳什均衡的大规模在线智能体混合方法

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

提交意见反馈