UI-KOBE:面向知识的轻量级图引导GUI代理行为探索

Hugging Face Daily Papers 论文

摘要

UI-KOBE 提出了一种框架,通过构建和利用特定应用的知识图谱来增强轻量级移动GUI代理,从而提高任务规划和执行效率。

移动GUI代理的最新进展显示出自动化移动任务的巨大潜力,但大多数有效系统仍然依赖大型视觉语言模型进行截图理解和长程规划。可以直接部署在移动设备上的小型GUI代理在实际应用中更具吸引力,因为它们提供了更低的推理成本和更好的设备敏感信息保护。然而,由于模型容量有限,这类轻量级代理在仅从截图端到端规划和执行GUI任务时仍然不可靠。我们提出面向知识的行为探索(UI-KOBE),这是一个框架,通过可复用的特定应用图知识来改进轻量级移动GUI代理。UI-KOBE 首先自主探索移动应用并构建应用知识图谱,其中节点代表不同的UI状态,边代表可执行的转换。在运行时,轻量级GUI代理使用该图作为外部指导:给定用户任务和当前截图,它识别当前图节点,并选择与该节点相关的自循环动作、相邻转换、任务完成或回退自由动作。通过利用特定应用的图指导来支持运行时决策,UI-KOBE 减轻了端到端GUI规划的负担,帮助轻量级模型更有效地执行移动GUI任务,为构建高效、可解释且注重隐私的设备端GUI代理提供了实际步骤。
查看原文
查看缓存全文

缓存时间: 2026/05/29 02:59

论文页面 - UI-KOBE:面向轻量级图引导GUI智能体的知识导向行为探索

来源:https://huggingface.co/papers/2605.29534

摘要

UI-KOBE框架通过整合可复用的应用特定图知识来增强轻量级移动GUI智能体,提升任务规划与执行效率。

近年来,移动GUI智能体(https://huggingface.co/papers?q=mobile%20GUI%20agents)在自动化移动任务方面展现出巨大潜力,但大多数有效系统仍依赖大型视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)进行截图理解与长程规划。可直接部署在移动设备上的小型GUI智能体在实际应用中更具吸引力,其推理成本更低,且能更好地保护设备上的敏感信息。然而,受限于模型容量,这类轻量级智能体在仅凭截图端到端规划与执行GUI任务时仍不可靠。我们提出面向知识导向的行为探索(UI-KOBE)框架,通过可复用的应用特定图知识来改进轻量级移动GUI智能体(https://huggingface.co/papers?q=mobile%20GUI%20agents)。UI-KOBE首先自主探索移动应用并构建应用知识图谱(https://huggingface.co/papers?q=app%20knowledge%20graph),其中节点代表不同的UI状态(https://huggingface.co/papers?q=UI%20states),边代表可执行的转换(https://huggingface.co/papers?q=executable%20transitions)。运行时,轻量级GUI智能体将图作为外部引导:给定用户任务和当前截图,它识别当前图节点,并在该节点相关的自循环动作(https://huggingface.co/papers?q=self-loop%20actions)、相邻转换(https://huggingface.co/papers?q=neighboring%20transitions)、任务完成(https://huggingface.co/papers?q=task%20completion)或回退自由动作(https://huggingface.co/papers?q=fallback%20free%20actions)中进行选择。通过以应用特定图引导来支持运行时决策(https://huggingface.co/papers?q=runtime%20decisions),UI-KOBE减轻了端到端GUI规划(https://huggingface.co/papers?q=end-to-end%20GUI%20planning)的负担,帮助轻量级模型更有效地执行移动GUI任务,为构建高效、可解释且注重隐私的设备端GUI智能体迈出了务实的一步。

查看arXiv页面(https://arxiv.org/abs/2605.29534)查看PDF(https://arxiv.org/pdf/2605.29534)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29534)

在你的智能体中获取此论文:

hf papers read 2605.29534

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.29534以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.29534以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.29534以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

ToolCUA:迈向计算机使用代理的 GUI-工具路径编排优化

Hugging Face Daily Papers

ToolCUA 是一个全新的代理框架,通过分阶段训练和强化学习,优化计算机使用代理的 GUI-工具路径选择。它通过在 GUI 操作和高级工具调用之间进行有效交替,在 OSWorld-MCP 上达到了最先进的性能。