PANDO:通过在线技能蒸馏实现高效多模态AI代理

Hugging Face Daily Papers 论文

摘要

PANDO 是一个网络代理框架,通过在线技能蒸馏提高效率,在 VisualWebArena 任务上减少 58-61% 的令牌使用量,同时优于基线。

多模态网络代理的最新进展通常依赖于增加推理时的计算,包括展开搜索、验证器传递、离线技能发现和专家模型堆栈。这引发了一个核心问题:网络代理能否随着经验的积累而变得更加高效,而不是更加昂贵?我们首先分析来自 VisualWebArena 的轨迹,并识别出三个反复出现的效率低下来源:重复动作循环、隐藏的发现成本和低的提示缓存重用。然后我们介绍 PANDO,一个单次展开的在线技能蒸馏框架,它维护一个结构化的技能库,并结合了进度反思、基于置信度的技能降级、层次化路由、视觉压缩和缓存感知提示。在全部 910 个 VisualWebArena 任务上,PANDO 达到了 58.3% 的成功率,优于 SGV(54.0%)和我们的 WALT 复现(45.2%),同时比 SGV 少使用 58% 的令牌,比 WALT 少使用 61% 的令牌,且无需任何预评估发现预算。一项 300 个任务的消融研究进一步表明,规则和常规提供了大部分的成功增益,而路由、压缩和缓存感知提示将更大的技能库转化为更低的边际令牌成本。最后,我们引入了三个轨迹级效率指标——动作重复率、步骤开销比和提示缓存利用率——以使效率在最终成功之外变得可见。
查看原文
查看缓存全文

缓存时间: 2026/05/29 23:04

Paper page - PANDO: 通过在线技能蒸馏实现高效多模态AI智能体

来源: https://huggingface.co/papers/2605.24785

摘要

PANDO是一个网络智能体框架,通过积累经验来减少冗余动作、优化技能发现、增强提示缓存,从而在提升效率的同时不牺牲性能。

近期多模态网络智能体(https://huggingface.co/papers?q=multimodal%20web%20agents)的进步往往依赖于增加推理时的计算量,包括展开搜索(https://huggingface.co/papers?q=rollout%20search)、验证器轮次(https://huggingface.co/papers?q=verifier%20passes)、离线技能发现(https://huggingface.co/papers?q=offline%20skill%20discovery)以及专家模型堆栈(https://huggingface.co/papers?q=specialist%20model%20stacks)。这引出了一个核心问题:网络智能体能否随着经验积累变得更高效,而非更昂贵?我们首先分析了来自VisualWebArena(https://huggingface.co/papers?q=VisualWebArena)的轨迹,识别出三个反复出现的低效根源:重复动作循环、隐藏的发现成本以及较低的提示缓存复用率。随后,我们引入了PANDO,这是一个单次展开的在线技能蒸馏框架(https://huggingface.co/papers?q=skill-distillation%20framework),它维护一个结构化的技能库(https://huggingface.co/papers?q=Skill%20Library),并结合了进步反思(https://huggingface.co/papers?q=progress%20reflection)、基于置信度的技能降级(https://huggingface.co/papers?q=confidence-based%20skill%20demotion)、分层路由(https://huggingface.co/papers?q=hierarchical%20routing)、视觉压缩(https://huggingface.co/papers?q=visual%20compression)以及缓存感知提示(https://huggingface.co/papers?q=cache-aware%20prompting)。在全部910个VisualWebArena(https://huggingface.co/papers?q=VisualWebArena)任务上,PANDO实现了58.3%的成功率,优于SGV(54.0%)和我们复现的WALT(45.2%),同时令牌使用量比SGV减少58%,比WALT减少61%,且无需任何预评估发现预算。进一步的300任务消融实验表明,规则和例程贡献了大部分成功提升,而路由、压缩和缓存感知提示(https://huggingface.co/papers?q=cache-aware%20prompting)则将在更大技能库(https://huggingface.co/papers?q=skill%20library)下的边际令牌成本降低。最后,我们引入了三个轨迹级效率指标——动作重复率(https://huggingface.co/papers?q=Action%20Repetition%20Rate)、步骤开销比(https://huggingface.co/papers?q=Step%20Overhead%20Ratio)和提示缓存利用率(https://huggingface.co/papers?q=Prompt%20Cache%20Utilization)——使得效率在终端成功之外变得可见。

查看arXiv页面(https://arxiv.org/abs/2605.24785)查看PDF(https://arxiv.org/pdf/2605.24785)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.24785)

在你的智能体中获取这篇论文:

hf papers read 2605.24785

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.24785,即可从本页链接。

引用此论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.24785,即可从本页链接。

引用此论文的 Spaces0

尚无Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.24785,即可从本页链接。

包含此论文的收藏集0

尚无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)中,即可从本页链接。

相似文章

基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI

本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。

@dair_ai: https://x.com/dair_ai/status/2061104052818108476

X AI KOLs Following

三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。