PANDO：通过在线技能蒸馏实现高效多模态AI代理

Hugging Face Daily Papers 2026/05/26 00:00 论文

摘要

PANDO 是一个网络代理框架，通过在线技能蒸馏提高效率，在 VisualWebArena 任务上减少 58-61% 的令牌使用量，同时优于基线。

多模态网络代理的最新进展通常依赖于增加推理时的计算，包括展开搜索、验证器传递、离线技能发现和专家模型堆栈。这引发了一个核心问题：网络代理能否随着经验的积累而变得更加高效，而不是更加昂贵？我们首先分析来自 VisualWebArena 的轨迹，并识别出三个反复出现的效率低下来源：重复动作循环、隐藏的发现成本和低的提示缓存重用。然后我们介绍 PANDO，一个单次展开的在线技能蒸馏框架，它维护一个结构化的技能库，并结合了进度反思、基于置信度的技能降级、层次化路由、视觉压缩和缓存感知提示。在全部 910 个 VisualWebArena 任务上，PANDO 达到了 58.3% 的成功率，优于 SGV（54.0%）和我们的 WALT 复现（45.2%），同时比 SGV 少使用 58% 的令牌，比 WALT 少使用 61% 的令牌，且无需任何预评估发现预算。一项 300 个任务的消融研究进一步表明，规则和常规提供了大部分的成功增益，而路由、压缩和缓存感知提示将更大的技能库转化为更低的边际令牌成本。最后，我们引入了三个轨迹级效率指标——动作重复率、步骤开销比和提示缓存利用率——以使效率在最终成功之外变得可见。

查看原文

查看缓存全文

缓存时间: 2026/05/29 23:04

Paper page - PANDO: 通过在线技能蒸馏实现高效多模态AI智能体

来源: https://huggingface.co/papers/2605.24785

摘要

PANDO是一个网络智能体框架，通过积累经验来减少冗余动作、优化技能发现、增强提示缓存，从而在提升效率的同时不牺牲性能。

近期多模态网络智能体（https://huggingface.co/papers?q=multimodal%20web%20agents）的进步往往依赖于增加推理时的计算量，包括展开搜索（https://huggingface.co/papers?q=rollout%20search）、验证器轮次（https://huggingface.co/papers?q=verifier%20passes）、离线技能发现（https://huggingface.co/papers?q=offline%20skill%20discovery）以及专家模型堆栈（https://huggingface.co/papers?q=specialist%20model%20stacks）。这引出了一个核心问题：网络智能体能否随着经验积累变得更高效，而非更昂贵？我们首先分析了来自VisualWebArena（https://huggingface.co/papers?q=VisualWebArena）的轨迹，识别出三个反复出现的低效根源：重复动作循环、隐藏的发现成本以及较低的提示缓存复用率。随后，我们引入了PANDO，这是一个单次展开的在线技能蒸馏框架（https://huggingface.co/papers?q=skill-distillation%20framework），它维护一个结构化的技能库（https://huggingface.co/papers?q=Skill%20Library），并结合了进步反思（https://huggingface.co/papers?q=progress%20reflection）、基于置信度的技能降级（https://huggingface.co/papers?q=confidence-based%20skill%20demotion）、分层路由（https://huggingface.co/papers?q=hierarchical%20routing）、视觉压缩（https://huggingface.co/papers?q=visual%20compression）以及缓存感知提示（https://huggingface.co/papers?q=cache-aware%20prompting）。在全部910个VisualWebArena（https://huggingface.co/papers?q=VisualWebArena）任务上，PANDO实现了58.3%的成功率，优于SGV（54.0%）和我们复现的WALT（45.2%），同时令牌使用量比SGV减少58%，比WALT减少61%，且无需任何预评估发现预算。进一步的300任务消融实验表明，规则和例程贡献了大部分成功提升，而路由、压缩和缓存感知提示（https://huggingface.co/papers?q=cache-aware%20prompting）则将在更大技能库（https://huggingface.co/papers?q=skill%20library）下的边际令牌成本降低。最后，我们引入了三个轨迹级效率指标——动作重复率（https://huggingface.co/papers?q=Action%20Repetition%20Rate）、步骤开销比（https://huggingface.co/papers?q=Step%20Overhead%20Ratio）和提示缓存利用率（https://huggingface.co/papers?q=Prompt%20Cache%20Utilization）——使得效率在终端成功之外变得可见。

查看arXiv页面（https://arxiv.org/abs/2605.24785）查看PDF（https://arxiv.org/pdf/2605.24785）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.24785）

在你的智能体中获取这篇论文：

hf papers read 2605.24785

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.24785，即可从本页链接。

引用此论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.24785，即可从本页链接。

引用此论文的 Spaces0

尚无Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.24785，即可从本页链接。

包含此论文的收藏集0

尚无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）中，即可从本页链接。

PANDO：通过在线技能蒸馏实现高效多模态AI代理

Paper page - PANDO: 通过在线技能蒸馏实现高效多模态AI智能体

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

基于状态感知动态检索的Web智能体在线技能学习

@dair_ai: https://x.com/dair_ai/status/2061104052818108476

DRIVE：在持续学习环境下为Web智能体建模推理与交互层面的技能

COLLEAGUE.SKILL：通过专家知识蒸馏实现自动化AI技能生成

AgentPSO：通过多智能体粒子群优化进化智能体推理技能

提交意见反馈