代理技能应超越纯文本：视觉技能的必要性

Hugging Face Daily Papers 2026/05/31 00:00 论文

multimodal visual-skills agent-skills reusable-skills gui-tasks spatial-reasoning visual-support

摘要

本文认为代理技能应包含视觉信息，而不仅仅是文本，并提出了一种多模态技能范式，将文本逻辑与视觉支持相结合。实验表明，在视觉中心任务中，视觉技能优于纯文本方法。

可复用技能是扩展代理能力的关键机制，使代理能够积累经验并解决日益复杂的任务。然而，现有的大多数技能学习方法将可复用经验存储为纯文本资产，例如指令、推理轨迹或总结后的轨迹。我们认为，这种纯文本范式为视觉中心任务创造了根本性瓶颈，因为可复用知识往往依赖于空间布局、视觉定位、细粒度外观和局部状态变化。为解决这一局限，我们提出了\NAME，一种结合声明性文本逻辑与显式视觉支持的多模态技能范式。我们区分了三种可复用形式：用于稳定空间约定的静态先验、用于现场视觉工作记忆的动态先验，以及将有序文本步骤与证明这些步骤的源帧、截图或页面区域绑定的交错视觉技能。视觉技能不仅描述做什么，还编码了看哪里、如何检查以及如何验证视觉结果。为了扩展视觉技能构建，我们引入了\SYSTEM，一个自动系统，通过保留任务轨迹中的文本推理、空间引用、视觉边界和交互模式，将代理经验转换为可复用的多模态技能。在图形用户界面和其他视觉中心任务上的实验表明，视觉技能始终优于纯文本技能，尤其是在成功需要空间对应、视觉证据和状态感知交互时。这些结果支持我们的核心观点：可复用的代理技能应超越文本，成为未来多模态代理的多模态资产。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - 智能体技能应超越文本：视觉技能案例

来源：https://huggingface.co/papers/2606.01414

摘要

将文本逻辑与视觉支持相结合的多模态技能，通过融入空间布局、视觉定位和状态感知交互，在视觉中心任务中优于纯文本方法。

可复用技能是扩展智能体能力的关键机制，使智能体能够积累经验并解决日益复杂的任务。然而，大多数现有技能学习方法将可复用经验存储为纯文本资产，例如指令、推理轨迹或总结的路径。我们认为，这种纯文本范式在视觉中心任务中造成了根本瓶颈——在这些任务中，可复用知识往往依赖于空间布局、视觉定位、精细外观和局部状态变化。为解决这一局限，我们提出 \NAME，一种多模态技能范式，将声明式文本逻辑与显式视觉支持相结合。我们区分为三种可复用形式：静态先验（用于稳定的空间约定）、动态先验（用于现场视觉工作记忆）以及交错视觉技能（将有序文本步骤绑定到证明它们的源帧、截图或页面区域）。视觉技能不仅描述要做什么，还编码看哪里、如何检查以及如何验证视觉结果。为扩大视觉技能的构建规模，我们引入 \SYSTEM，一个自动系统，通过保留任务轨迹中的文本推理、空间引用、视觉边界和交互模式，将智能体经验转换为可复用的多模态技能。在 GUI 及其他视觉中心任务上的实验表明，视觉技能始终优于纯文本技能，尤其是在需要空间对应、视觉证据和状态感知交互时。这些结果支持我们的核心主张：可复用智能体技能应超越文本，成为未来多模态智能体的多模态资产。

查看 arXiv 页面（https://arxiv.org/abs/2606.01414）查看 PDF（https://arxiv.org/pdf/2606.01414） GitHub4（https://github.com/Little-Fridge/AutoVisualSkill）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.01414）

在智能体中获取本文：

hf papers read 2606\.01414

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.01414，以从本页链接它。

引用本文的数据集0

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.01414，以从本页链接它。

引用本文的空间0

没有空间链接此论文

请在空间的 README.md 中引用 arxiv.org/abs/2606.01414，以从本页链接它。

收录本文的收藏0

没有收藏包含此论文

请将本文添加到一个收藏中，以从本页链接它。

代理技能应超越纯文本：视觉技能的必要性

论文页面 - 智能体技能应超越文本：视觉技能案例

摘要

引用本文的模型0

引用本文的数据集0

引用本文的空间0

收录本文的收藏0

相似文章

MMSkills：面向通用视觉智能体的多模态技能

多数智能体框架都忽视了一个关键区分：技能“是什么”与“如何执行”

从原始经验到技能消费：模型生成智能体技能的系统研究

@dillon_mulroy：我认为 skills（技能）是一个错误且不当的抽象。我几乎不希望我的 agent（智能体）自动调用它们，而且我已经构建了……

addyosmani/agent-skills

提交意见反馈