PANDO:通过在线技能蒸馏实现高效多模态AI代理
摘要
PANDO 是一个网络代理框架,通过在线技能蒸馏提高效率,在 VisualWebArena 任务上减少 58-61% 的令牌使用量,同时优于基线。
查看缓存全文
缓存时间: 2026/05/29 23:04
Paper page - PANDO: 通过在线技能蒸馏实现高效多模态AI智能体
来源: https://huggingface.co/papers/2605.24785
摘要
PANDO是一个网络智能体框架,通过积累经验来减少冗余动作、优化技能发现、增强提示缓存,从而在提升效率的同时不牺牲性能。
近期多模态网络智能体(https://huggingface.co/papers?q=multimodal%20web%20agents)的进步往往依赖于增加推理时的计算量,包括展开搜索(https://huggingface.co/papers?q=rollout%20search)、验证器轮次(https://huggingface.co/papers?q=verifier%20passes)、离线技能发现(https://huggingface.co/papers?q=offline%20skill%20discovery)以及专家模型堆栈(https://huggingface.co/papers?q=specialist%20model%20stacks)。这引出了一个核心问题:网络智能体能否随着经验积累变得更高效,而非更昂贵?我们首先分析了来自VisualWebArena(https://huggingface.co/papers?q=VisualWebArena)的轨迹,识别出三个反复出现的低效根源:重复动作循环、隐藏的发现成本以及较低的提示缓存复用率。随后,我们引入了PANDO,这是一个单次展开的在线技能蒸馏框架(https://huggingface.co/papers?q=skill-distillation%20framework),它维护一个结构化的技能库(https://huggingface.co/papers?q=Skill%20Library),并结合了进步反思(https://huggingface.co/papers?q=progress%20reflection)、基于置信度的技能降级(https://huggingface.co/papers?q=confidence-based%20skill%20demotion)、分层路由(https://huggingface.co/papers?q=hierarchical%20routing)、视觉压缩(https://huggingface.co/papers?q=visual%20compression)以及缓存感知提示(https://huggingface.co/papers?q=cache-aware%20prompting)。在全部910个VisualWebArena(https://huggingface.co/papers?q=VisualWebArena)任务上,PANDO实现了58.3%的成功率,优于SGV(54.0%)和我们复现的WALT(45.2%),同时令牌使用量比SGV减少58%,比WALT减少61%,且无需任何预评估发现预算。进一步的300任务消融实验表明,规则和例程贡献了大部分成功提升,而路由、压缩和缓存感知提示(https://huggingface.co/papers?q=cache-aware%20prompting)则将在更大技能库(https://huggingface.co/papers?q=skill%20library)下的边际令牌成本降低。最后,我们引入了三个轨迹级效率指标——动作重复率(https://huggingface.co/papers?q=Action%20Repetition%20Rate)、步骤开销比(https://huggingface.co/papers?q=Step%20Overhead%20Ratio)和提示缓存利用率(https://huggingface.co/papers?q=Prompt%20Cache%20Utilization)——使得效率在终端成功之外变得可见。
查看arXiv页面(https://arxiv.org/abs/2605.24785)查看PDF(https://arxiv.org/pdf/2605.24785)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.24785)
在你的智能体中获取这篇论文:
hf papers read 2605.24785
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.24785,即可从本页链接。
引用此论文的数据集0
尚无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.24785,即可从本页链接。
引用此论文的 Spaces0
尚无Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.24785,即可从本页链接。
包含此论文的收藏集0
尚无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)中,即可从本页链接。
相似文章
基于状态感知动态检索的Web智能体在线技能学习
本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。
@dair_ai: https://x.com/dair_ai/status/2061104052818108476
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
DRIVE:在持续学习环境下为Web智能体建模推理与交互层面的技能
DRIVE提出了一种双层技能建模框架,将推理知识与交互知识分离,用于持续学习下的Web智能体。该方法在WebArena上实现了52.8%的任务成功率,比无技能基线高出7.3个百分点。
COLLEAGUE.SKILL:通过专家知识蒸馏实现自动化AI技能生成
本文介绍COLLEAGUE.SKILL,一个开源系统,能够从异构轨迹中自动提炼基于人的AI技能,形成可检查、可纠正、可移植的技能包,使LLM代理能够携带有限的人类专业知识和交互风格表征。
AgentPSO:通过多智能体粒子群优化进化智能体推理技能
AgentPSO 是一种受粒子群算法启发的框架,通过将智能体视为以自然语言技能为状态的粒子,来进化多智能体推理能力。它在无需更新基础语言模型参数的情况下,提升了在推理基准测试上的性能。