代理技能应超越纯文本:视觉技能的必要性
摘要
本文认为代理技能应包含视觉信息,而不仅仅是文本,并提出了一种多模态技能范式,将文本逻辑与视觉支持相结合。实验表明,在视觉中心任务中,视觉技能优于纯文本方法。
查看缓存全文
缓存时间: 2026/06/02 15:35
论文页面 - 智能体技能应超越文本:视觉技能案例
来源:https://huggingface.co/papers/2606.01414
摘要
将文本逻辑与视觉支持相结合的多模态技能,通过融入空间布局、视觉定位和状态感知交互,在视觉中心任务中优于纯文本方法。
可复用技能是扩展智能体能力的关键机制,使智能体能够积累经验并解决日益复杂的任务。然而,大多数现有技能学习方法将可复用经验存储为纯文本资产,例如指令、推理轨迹或总结的路径。我们认为,这种纯文本范式在视觉中心任务中造成了根本瓶颈——在这些任务中,可复用知识往往依赖于空间布局、视觉定位、精细外观和局部状态变化。为解决这一局限,我们提出 \NAME,一种多模态技能范式,将声明式文本逻辑与显式视觉支持相结合。我们区分为三种可复用形式:静态先验(用于稳定的空间约定)、动态先验(用于现场视觉工作记忆)以及交错视觉技能(将有序文本步骤绑定到证明它们的源帧、截图或页面区域)。视觉技能不仅描述要做什么,还编码看哪里、如何检查以及如何验证视觉结果。为扩大视觉技能的构建规模,我们引入 \SYSTEM,一个自动系统,通过保留任务轨迹中的文本推理、空间引用、视觉边界和交互模式,将智能体经验转换为可复用的多模态技能。在 GUI 及其他视觉中心任务上的实验表明,视觉技能始终优于纯文本技能,尤其是在需要空间对应、视觉证据和状态感知交互时。这些结果支持我们的核心主张:可复用智能体技能应超越文本,成为未来多模态智能体的多模态资产。
查看 arXiv 页面(https://arxiv.org/abs/2606.01414) 查看 PDF(https://arxiv.org/pdf/2606.01414) GitHub4(https://github.com/Little-Fridge/AutoVisualSkill) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01414)
在智能体中获取本文:
hf papers read 2606\.01414
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.01414,以从本页链接它。
引用本文的数据集0
没有数据集链接此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.01414,以从本页链接它。
引用本文的空间0
没有空间链接此论文
请在空间的 README.md 中引用 arxiv.org/abs/2606.01414,以从本页链接它。
收录本文的收藏0
没有收藏包含此论文
请将本文添加到一个收藏中,以从本页链接它。
相似文章
MMSkills:面向通用视觉智能体的多模态技能
本文介绍了MMSkills,这是一个用于表示、生成和使用视觉智能体多模态程序性知识的框架,结合了文本程序与视觉状态卡和关键帧,并在GUI和游戏类视觉智能体基准测试中展示了改进效果。
多数智能体框架都忽视了一个关键区分:技能“是什么”与“如何执行”
一篇技术分析提出,智能体框架应把技能所描述的内容(角色、工具、工作流)与其执行方式(无状态 vs 有状态)区分开来,认为这一区分对构建健壮的实境智能体系统至关重要。
从原始经验到技能消费:模型生成智能体技能的系统研究
本文系统评估了语言智能体的模型生成技能,涵盖经验生成、提取和消耗的完整生命周期,发现技能平均有益但存在显著的负迁移,从而引出一种提高技能质量的元技能。
@dillon_mulroy:我认为 skills(技能)是一个错误且不当的抽象。我几乎不希望我的 agent(智能体)自动调用它们,而且我已经构建了……
Dillon Mulroy 认为 AI 智能体的“skills”(技能)是一种有缺陷的抽象,它不必要地占用了上下文窗口空间,他主张手动切换工具的开启/关闭,而非自动调用。
addyosmani/agent-skills
agent-skills 是一套旨在增强 AI 编程代理能力的生产级工程技能集。